2201_76049619 2025-02-13 16:44 采纳率: 0%
浏览 25

Error: access denied,忙活两天没解决

使用webdriver死活打不开这个网址(这个网址是可以爬的,csdn还有人教怎么从这个网站爬取政府工作报告呢,下图)

img


,我打开这个网址的时候就会报错(http://district.ce.cn/zt/2023/zfgzbg/index.shtml),我的IP没有被拉黑,我手动打开这个网址没问题的

img

  • 写回答

3条回答 默认 最新

  • 阿里嘎多学长 2025-02-13 16:56
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    错误解决方案

    你遇到的问题是 Error: access denied,而且你使用 webdriver 打开这个网址时报错。这个问题可能是由于 webdriver 无法正确地模拟浏览器的行为,导致服务器拒绝了请求。

    为了解决这个问题,你可以尝试以下几点:

    1. 检查 webdriver 版本:确保你使用的 webdriver 版本是最新的。
    2. 添加 User-Agent:在 webdriver 中添加 User-Agent 信息,可以模拟浏览器的行为,例如:
    from selenium import webdriver
    from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
    
    capabilities = DesiredCapabilities.CHROME
    capabilities['acceptInsecureCerts'] = True
    capabilities['acceptSslCerts'] = True
    capabilities['acceptInsecureCerts'] = True
    
    driver = webdriver.Chrome(desired_capabilities=capabilities)
    driver.get("http://district.ce.cn/zt/")
    
    1. 使用代理:如果上述方法不行,你可以尝试使用代理服务器,例如:
    from selenium import webdriver
    from selenium.webdriver.common.proxy import Proxy
    
    proxy = Proxy()
    proxy.proxy_type = Proxy.Type.MANUAL
    proxy.http_proxy = "http://your-proxy-ip:port"
    proxy.ssl_proxy = "http://your-proxy-ip:port"
    
    capabilities = webdriver.DesiredCapabilities.CHROME
    proxy.add_to_capabilities(capabilities)
    
    driver = webdriver.Chrome(desired_capabilities=capabilities)
    driver.get("http://district.ce.cn/zt/")
    
    1. 检查网站的 robots.txt 文件:如果网站的 robots.txt 文件禁止了爬虫,你可能需要添加 User-Agent 信息或使用其他爬虫工具。

    如果你已经尝试了上述方法仍然无法解决问题,请提供更多的错误信息和代码,我将尽力帮助你解决问题。

    评论

报告相同问题?

问题事件

  • 创建了问题 2月13日