dapengdahan 2021-09-23 10:04 采纳率: 100%
浏览 187
已结题

【python】selenium爬取含企查查中文的网址报405问题

代码如下,访问不含中文的网页没有问题,但是如果网址中带中文就会报405;
刚开始我以为是编码的问题,设置成了UTF-8,但依然还是报错。烦请帮忙看下是什么问题。
经过测试,只有企查查有这个问题,百度中文传参的网址可以正常访问。
怀疑是企查查含有反爬检测导致,但奈何才疏学浅,实在没找到解决办法。

# -*- coding: utf-8 -*-
import atexit 
from selenium import webdriver
import time

@atexit.register
def quitDriver():
    print("我执行了!")
    #关闭驱动
    driver.quit()

chrome_options = webdriver.ChromeOptions()

#https网页设置
chrome_options.add_argument('--allow-running-insecure-content')

#设置默认编码
chrome_options.add_argument('lang=zh_CN.UTF-8')

driver = webdriver.Chrome(executable_path=r'D:\新建文件夹\python\chromedriver.exe',options=chrome_options)

driver.get('''https://www.qcc.com/web/search?key=大连市中心医院''')
print(driver.title)

time.sleep(20)

  • 写回答

2条回答 默认 最新

  • jones-zhuo 2021-09-23 10:44
    关注

    先进首页,再跳转

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
  • 7*24 工作者 2021-09-23 10:33
    关注

    中文需要编码,如果直接输入 https://www.qcc.com/web/search?key=大连市中心医院 会报405的错误,但是如果通过下面的方式对url进行编码后,直接访问就没事了

    
    from urllib.parse import quote
    #https://www.qcc.com/web/search?key=大连市中心医院
    
    name ='大连市中心医院'
    url = 'https://www.qcc.com/web/search?key=' + quote(name)
    print(url)
    
    
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月2日
  • 已采纳回答 9月24日
  • 修改了问题 9月23日
  • 创建了问题 9月23日

悬赏问题

  • ¥15 Erasure Code纠删码表
  • ¥15 用vite创建的vue3项目,404重定向不起作用??
  • ¥15 关于#c语言#的问题:一个球从80米高度自由落下,每次落地后反弹的高度为原高度的一半计算6次小球反弹的高度.(反弹结果取整,使用走走for循环结构)
  • ¥15 SurfaceControl的screenshot问题
  • ¥15 基于51单片机的oled菜单代码,要C语言,模块化编程!
  • ¥15 JAVAswing,设计一个扑克牌什么的
  • ¥50 python ctypes调用dll实现分析
  • ¥40 用python解决数据统计问题
  • ¥100 是否有方案能通过抓包分析得到移动应用的名称和包名信息?
  • ¥15 opencv检测不到轮廓