如何爬取被cloudflare保护的网站数据?

想通过selenium模拟爬取网站数据，网站如下:

之前都代码都运行好好的可以爬取，但今天运行代码时，出现如下提示：

进不了真正想要爬取的网站，导致爬取失败，希望各位大佬可以帮忙解答，以下是我的代码：

from selenium import webdriver
from time import sleep
# 实现无可视化界面
from selenium.webdriver.chrome.options import Options
# 实现规避检测
from selenium.webdriver import ChromeOptions


def get_url(URL):
    url = URL
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    driver_path = 'C:/Users/YounGQ/AppData/Local/Programs/Python/Python37/chromedriver'

    # 实现无可视化界面的操作
    # chrome_options = Options()
    # chrome_options.add_argument('--headless')
    # chrome_options.add_argument('--disable-gpu')

    # 实现规避检测
    option = ChromeOptions()
    option.add_experimental_option("excludeSwitches", ["enable-automation"])
    option.add_argument('--user-agent=%s' % user_agent)

    # 如何实现让selenium规避被检测到的风险
    # bro = webdriver.Chrome(executable_path=driver_path, chrome_options=chrome_options, options=option)
    bro = webdriver.Chrome(executable_path=driver_path)
    
    # 无可视化界面（无头浏览器）
    bro.get(url)
    sleep(10)
    # 点击股票
    stock = bro.find_element_by_xpath('//*[@id="stocks"]')
    stock.click()
    sleep(5)
    select = bro.find_element_by_xpath('//*[@id="stocksFilter"]')
    select.click()
    All_stack = bro.find_element_by_xpath('//*[@id="all"]')
    All_stack.click()
    sleep(10)

    all_url = bro.find_element_by_xpath('//*[@class="bold left noWrap elp plusIconTd"]/a/@href')
    all_company = bro.find_element_by_xpath('//*[@class="bold left noWrap elp plusIconTd"]/a')
    all_url = list(all_url.text)
    all_company = list(all_company.text)
    date = dict(zip(all_company, all_url))
    print(date)


if __name__ == "__main__":
    url = 'https://cn.investing.com/markets/united-states'
    get_url(url)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-赖老师（软件之家） 2021-04-15 22:44
关注
参考资料：https://blog.csdn.net/weixin_34248118/article/details/91735474

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

cloudflare business 好用吗？其他
2023-03-23 10:39

回答 1 已采纳高级DDoS保护：Business版本提供更高级的DDoS保护，能够抵御更复杂的攻击。高级WAF：Business版本提供更高级的Web应用程序防火墙（WAF），可以保护您的网站免受常见的网络攻击，
cURL - 加载具有CloudFlare保护的站点 php
2013-08-28 23:44

回答 2 已采纳 That would be CloudFlare's I'm Under Attack Mode --> http://blog.cloudflare.com/introducing-im-
CloudFlare用于缓存在核心php中开发的REST API响应 php
2018-01-30 07:31

回答 1 已采纳 After a lot of research, I found that it is possible to cache the response of REST API. We just ne
cloudflare反爬，使用Selenium爬取的网址被cloudflare保护起来了的
2024-05-05 20:41

九是否随机的称呼的博客指定目录的时候，浏览器最好只有一个用户，若是有多个用户，还需要指定相应的用户才行，指定用户的方式就是指定用户存放数据的具体的文件夹，一般只有一个用户的话，是不需要指定的，而且指定了，可能后续还需要删除...
如何在PHP中阻止所有CloudFlare IP php
2017-11-05 14:19

回答 2 已采纳 luckily, cloudflare provides a list of their IP ranges here, so just check if the connecting IP is
WordPress SSL通过Cloudflare重定向 php ssl
2017-07-25 12:01

回答 2 已采纳 You can redirect to HTTPS using action hook as well. Add the below code in your **functions.php**
如何在CloudFlare上缓存php生成的文件？ php
2014-02-25 15:10

回答 1 已采纳 Use PageRules to extend the caching to include php and other files. Notes: We don't cache by MIME
Python爬虫如何应对Cloudflare邮箱加密
2020-09-16 15:18

在Python爬虫开发中，有时候会遇到目标网站使用Cloudflare提供的安全服务，其中包括对敏感信息如邮箱进行加密处理，使得直接爬取变得困难。本文主要探讨如何应对Cloudflare的邮箱加密，通过Python来解密这些加密信息...
使用cloudflare缓存动态页面 javascript laravel php
2016-03-04 17:46

回答 1 已采纳 Not only it's feasible, it's actively used by some of the big websites - eg. Airbnb, TripAdvisor.
这是遇到啥问题了？被反爬了吗？ python
2021-06-11 21:49

回答 1 已采纳应该是做了反爬虫：说明你访问的网站用了CloudFlare提供的CDN服务，并且此站点开启了防CC攻击功能，CloudFlare把你当做攻击者，只有输入了验证码才能正常访问目标网站。如果发现
Cloudflare API问题放置请求（“代码”：9020，“消息”：“无效的DNS记录类型”） php
2019-01-31 05:12

回答 1 已采纳 You're sending a payload of: [{"name":"**.****.com"},{"type":"A"},{"ttl":"1"},{"content":"8.8.
如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！
2024-07-09 21:36

炒青椒不放辣的博客逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的...本期文章将以实战的方式，带你全面了解 cloudflare（5秒盾）以及如何绕过使用 cloudflare 服务的网站从而抓取数据
使用CloudFlare获取真实的IP地址[重复] php
2013-10-22 06:02

回答 1 已采纳 Various solutions for getting visitor IP behind CloudFlare.
记一次基于Cloudflare服务的爬虫
2019-07-06 19:49

Asche910的博客前言前几天有个朋友托我帮忙爬一个网站，第一次打开那个网站时，我去，它竟然就要验证码，不过当时...使用了Cloudflare的cdn服务，而且Cloudflare又和百度有合作，所以我们的访问异常时，就会被百度的云加速服务给...
反反爬 | 如何巧过 CloudFlare 5秒盾？
2021-02-10 20:07

从零开始的数据猿的博客当我们第一次访问使用 CloudFlare 加速的网站时，网站就会出现让我们等待 5 秒种的提示，当我们需要的通过爬虫爬取这类网站的时候，应该如何爬取呢？分析请求首先我们需要分析在这个等待的时间里浏览器做了哪些...
战胜Cloudflare403：Python爬虫与Cloudflare的较量
2023-07-20 11:32

「已注销」的博客通过穿云API的智能反封禁和全球代理IP池等功能，爬虫可以顺利爬取Cloudflare保护的网站，为数据采集提供有力保障。1.穿云API作为领先的反反爬虫服务，拥有强大的反封禁技术，可绕过Cloudflare的反爬虫机制，确保爬虫...
克服Cloudflare反爬虫限制的Python爬虫技巧：应对Cloudflare的反爬虫机制
2023-07-17 15:02

「已注销」的博客为了绕过这一机制，我们可以使用第三方库，如Selenium，来模拟...Cloudflare还使用IP地址来限制访问。为了绕过这一机制，我们可以使用代理服务器来隐藏真实的IP地址，或者使用Tor网络进行匿名访问，从而规避IP封锁。
顺利通过Cloudflare：Python爬虫的Cloudflare绕过技巧
2023-07-14 10:36

「已注销」的博客本文将分享一些Python爬虫的Cloudflare绕过技巧，帮助您顺利通过Cloudflare的防护，获取所需的数据。通过使用这些Python库，我们能够成功绕过Cloudflare的防护，实现顺利的爬取。Python提供了许多强大的库，可以帮助...
Python爬虫获取数据实战：2023数学建模美赛春季赛帆船数据网站sailboatdata.com（状态码403forbidden→使用cloudscraper绕过cloudflare）
2023-08-23 13:28

和谐号hexh的博客当我们爬取到一个html文件时，一般篇幅很长，我们需要对其做文档解析。
403请求问题解决——cloudflare！！！
2024-06-14 16:42

阿飞敲代码的博客处理具有cloudflare保护的网站；403错误请求；处理：Sorry, you have been blocked You are unable to access
没有解决我的问题, 去提问

悬赏问题

¥15 Pyqt 如何正确的关掉Qthread，并且释放其中的锁？
¥30 网站服务器通过node.js部署了一个项目！前端访问失败
¥15 WPS访问权限不足怎么解决
¥15 java幂等控制问题
¥15 海湾GST-DJ-N500
¥15 氧化掩蔽层与注入条件关系
¥15 Django DRF 如何反序列化得到Python对象类型数据
¥15 多数据源与Hystrix的冲突
¥15 如何在线硕士了解，广告太多，希望有真实接触过的人回答下？(标签-学习|关键词-在线硕士)
¥15 zabbix6.4与frp如何进行联动

如何爬取被cloudflare保护的网站数据?

4条回答 默认 最新

悬赏问题

4条回答默认最新