爬虫程序人机校验后不跳转

爬虫，用selenium打开chrome浏览器，提示人机验证、需要在框内打勾。手动打钩（实力有限，不知道该怎么在代码实现打钩）后，页面不跳转。

人机验证提示图片

扒出来的人机验证的代码
python

     <div class="main-wrapper" role="main"><div class="main-content">
         <h1 class="zone-name-title h1">novel.munpia.com</h1>
         <h2 id="challenge-running" class="h2">请完成以下操作，验证您是真人。</h2>
         <div id="challenge-stage" style="display: flex;">
             <div id="turnstile-wrapper" class="spacer">
                 <div>
                     <iframe src="https://challenges.cloudflare.com/cdn-cgi/challenge-platform/h/b/turnstile/if/ov2/av0/rcv0/0/db90n/0x4AAAAAAADnPIDROrmt1Wwj/light/normal" 
                     allow="cross-origin-isolated; fullscreen" sandbox="allow-same-origin allow-scripts allow-popups" id="cf-chl-widget-db90n" tabindex="0" 
                     title="包含  Cloudflare  安全质询的小组件 " style="border: none; overflow: hidden; width: 300px; height: 65px;">
                     </iframe>
                     <input type="hidden" name="cf-turnstile-response" id="cf-chl-widget-db90n_response">
                 </div>
             </div>
         </div>

我的代码

    options = webdriver.ChromeOptions()
    #options.add_argument('--headless')
    # 设置参数
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    options.add_experimental_option('useAutomationExtension', False)
    chrome = webdriver.Chrome(options=options)
    chrome.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
            # 这里的操作大概就是把控制台中的window.navigator.webdriver =undefined  赋值   因为人机操作会认为是Ture
            Object.defineProperty(navigator, 'webdriver', {
              get: () => undefined
            })
          """
    })

    chrome.get(source_url)
    time.sleep(10)
    print(chrome.page_source)
    chrome.get(source_url)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-20 18:27
关注
引自免费微信小程序：皆我百晓生

看起来你在尝试通过Selenium进行网页自动化，遇到了Cloudflare的ReCaptcha挑战。Cloudflare ReCaptcha是为了防止机器人自动访问而设计的一种人机识别机制。要解决这个问题，你需要一个能够处理图形验证码的服务，比如使用第三方库pytesseract配合OpenCV来识别图像，或者使用专门处理验证码的API服务。由于这里无法提供实时的图像识别服务，我可以给你一个基本的代码框架，你可以根据这个框架自行添加相应的功能。

首先确保安装了必要的库：

pip install selenium Pillow pytesseract requests

然后你可以参考以下代码片段，这部分代码没有包括验证码识别的部分，因为这通常需要额外的服务或者库支持。你可以自己搜索如何使用pytesseract识别图像，或者购买可以处理这类验证码的API服务。

import time from selenium import webdriver from selenium.webdriver.common.keys import Keys from PIL import ImageGrab import pytesseract import cv2 import numpy as np def handle_recaptcha(image_path): # 在这里添加你的验证码识别逻辑，例如使用pytesseract识别 # 假设已经有一个函数get_solution可以从image_path获取到验证码答案 solution = get_solution(image_path) return solution options = webdriver.ChromeOptions() options.add_experimental_option("excludeSwitches", ["enable-automation"]) options.add_experimental_option('useAutomationExtension', False) # 添加以下行以允许截取屏幕截图 options.add_argument('--disable-infobars') options.add_argument('--start-maximized') driver = webdriver.Chrome(options=options) source_url = 'http://www.example.com' # 替换为实际网址 driver.get(source_url) time.sleep(5) # 等待页面加载 # 检查是否存在验证码 while True: try: recaptcha_element = driver.find_element_by_tag_name('iframe') break except Exception: time.sleep(1) # 如果未找到，等待并重试 # 截取验证码图像 driver.save_screenshot('captcha.png') img = ImageGrab.grabclipboard() # 使用pytesseract或其他方式识别验证码，此处仅为示例 solution = handle_recaptcha('captcha.png') # 获取验证码答案 # 将验证码输入到相应位置 driver.switch_to.frame(recaptcha_element) captcha_field = driver.find_element_by_id('cf-chl-widget-db90n_response') captcha_field.send_keys(solution) time.sleep(1) # 确保验证码已输入 # 提交表单或者触发下一步操作（根据实际情况调整） driver.find_element_by_xpath('//button[text()="提交"]').click() # 关闭浏览器 driver.quit()

在这个例子中，我提供了基本的代码结构，但是并没有实现验证码识别部分。你需要自己编写或引入一个能够识别验证码的函数get_solution，它应该接收图像文件路径作为输入，并返回识别出的验证码字符串。对于复杂的验证码，可能需要更高级的图像处理技术或者商业服务来准确识别。如果你不打算手动输入验证码，那么这部分代码是必须的。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

django 人机校验我是人类-使用hCaptcha或Turnstile代替simple-captcha
2022-12-24 20:53

zmh-program的博客 django 人机校验我是人类使用hCaptcha或Turnstile代替simple-captcha, 介绍三种验证码的原理
电商网站反爬虫机制详解及应对策略
2025-09-17 12:25

深蓝电商API的博客电商平台反爬虫机制与应对策略探析摘要：随着电商数据价值提升，恶意爬虫威胁日益严峻。本文系统分析了电商平台七大反爬机制：请求头验证、IP限制、验证码、Cookie验证、动态渲染、行为检测和数据加密，并提出了...
反爬虫策略收录集
2024-08-28 17:30

LeeXr030的博客分享一些常见的反爬虫策略
selenium访问页面js不加载_基于Python +Selenium的爬虫详解！你学会了吗
2020-11-19 20:18

weixin_39758048的博客一.背景1. SeleniumSelenium 是一个用于web应用...2.优劣劣势：相比于抓包→构造请求→解析返回值的爬虫，由于Selenium需要生成一个浏览器环境，所有操作(与元素交互、获取元素内容等)均需要等待页面加载完毕后才...
如何应对爬虫IP被封？9种高匿代理策略与动态调度技术全公开
2025-10-07 11:30

PixelWander的博客有效解决爬虫IP封禁难题，本文提供9种高匿代理策略与动态调度技术，适用于大规模数据采集、反爬对抗等场景。涵盖轮换机制、IP池管理与智能检测方案，提升抓取效率与稳定性，爬虫IP封禁解决更高效，值得收藏。
python基础笔记，超详细，包含面向对象基础，爬虫实战【持续更新中...】
2023-04-01 23:40

夜的旋粒_的博客本笔记中的函数和方法同义本笔记概念及代码由newbing搜集整理得出本笔记适合有一定其他编程语言基础...上面程序的 if 部分和 else 部分缩进不相同，但是在各自的代码块内缩进是相同的，所以是正确的程序。Python 的代码
android安卓源码海量项目合集打包-1
2019-06-11 16:16

小黄人软件的博客 │ │ EditText内容分不同块显示,支持校验,删除块,添加块,得到块代表的字符串集合.rar │ │ edittext失去焦点，收起键盘.rar │ │ EditText字数检测与限制.rar │ │ EditText字数检测与限制的冲突文件 2016-11...
【AI热点】Manus技术细致洞察报告（篇2）
2025-03-10 22:13

碣石潇湘无限路的博客 4.2 国内互联网环境的复杂性反爬/登录墙：大量网站需要扫码、登录或高频人机验证（如淘宝、知乎等），Manus 的浏览器Agent很难轻易突破；弹窗、广告与动态路由：Manus 虽能做基础浏览，但自动点击、跳转对话框的...
高安全前端架构：Rust-WASM 黑盒技术揭秘
2025-07-14 18:44

信也科技布道师的博客前后端交互利用 WASM 作为"黑盒"，通过非对称加密技术确保客户端与后端的通信安全，防止中间人攻击和信息篡改，同时增加人机校验和防护，确保不被机器人刷页面。四、防护架构 1. JavaScript 防护措施代码混淆...
如何用Open-AutoGLM在1分钟内完成景点门票预约？真相令人震惊
2025-12-21 08:45

simcode的博客获取 Cookie 和 Token 预加载数据：提前缓存车站编码、车次列表等静态信息触发下单：检测到余票后立即调用下单接口并启动支付跳转 4.3 异常重试机制与网络容错设计在分布式系统中，网络抖动和临时性故障不可避免，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月20日

爬虫程序人机校验后不跳转

6条回答 默认 最新

问题事件

6条回答默认最新