scrapy 在process_response中返回request 异常

背景
在我爬一个网站的时候这个网站的一个反爬措施是同一ip检测到一分钟额你请求频率过高就会返回一个文字点选的验证码持续十分钟，十分钟之后就正常请求。

措施
因为验证码只持续十分钟所以我选择等待十分钟
我在process_response中判断
if "人机认证" in response.text:
while True:
# 循环的用requests模块去请求url 如果没有验证码了就退出循环
if "人机认证" in requests.get("url").text:
time.sleep(60)
else:
break
return request

问题
在我测试的过程中出现验证码后我就去浏览器通过文字点选验证码按道理说，在等待一分钟后，程序就离开阻塞，正常运行起来。然后情况却是依然不断的有日志表示 response中有人机认证
另外我发现一个问题在正常的scrapy请求的时候日志中会有一条相关日志

然而在我的问题中却并没有scrapy请求日志

代码
作为参考附上我的代码：

class *************oaderMiddleware3:
    def process_request(self, request, spider):
        request.meta['update_time'] = spider.update_time
        return None

    def process_response(self, request, response, spider):
        if "人机认证" in response.text:
            print("人机认证出现", request, request.meta.get("update_time"),spider.update_time)

            if request.meta.get('update_time') != spider.update_time:
                print("直接重试")
                return request

            while True:
                if "人机认证" in requests.get("https://***********54869574").text:
                    time.sleep(1)
                else:
                    spider.update_time = datetime.datetime.now()
                    print("认证通过", spider.update_time, datetime.datetime.now())
                    time.sleep(5)
                    break

            return request
        return response

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

scrapy middlewares process_request/response不同返回值的分析
2020-05-05 19:53

Raymond&yin的博客最近学习scrapy爬虫框架，领略到中间件的强大作用，随机设置UA、设置代理、对接selenium等，但是对于process_request以及process_response的返回值和他们的作用不是很理解，网上的解释也十分笼统，如下截屏： ...
scrapy 由于连接方在一段时间后没有正确_Scrapy中process_request返回request和None的区别...
2021-01-24 23:44

Purple Onion的博客前言上篇文章中遇到了一个问题，就是在 process_request 函数中返回 request 对象导致爬虫退出的问题，这篇文章来解释下。环境搭建为了弄清楚这个问题，首先搭建一个可以运行 scrapy 的环境，新建一个 scrapy 项目，...
python 爬虫Scrapy框架入门
2022-05-03 14:34

Manba_77的博客异步：调用在发出之后，这个调用就直接返回，不管有无结果非阻塞：关注的是程序在等待调用结果时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程 Scrapy工作流程第一种爬虫方式第二种爬虫方式 ...
python中scrapy的middleware是干嘛的_Python爬虫Scrapy框架：Scrapy框架-中间件
2021-01-29 04:30

回声箭的博客中间件中主要有3个函数方法process_request�:处理请求,默认返回值是Noneprocess_response:处理响应,默认返回值是response对象process_exception:处理错误信息,默认返回值是None二.中间件三个方法的返回值返回的结果...
Python爬虫编程8——Scrapy框架
2022-03-11 13:27

彩色的泡沫的博客一.Scrapy介绍什么是Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据二编写的应用框架，我们只需要实现少量的代码，就能快速的进行抓取，Scrapy使用了Twisted异步网络框架，可以极大的加速我们的下载速度。...
python scrapy request_python – 如何在scrapy中发出请求之前更改请求URL？
2021-03-05 12:44

weixin_39608559的博客即使在使用request.replace(url = new_url)修改请求URL之后,process_response也会打印未修改的URL.这是中间件的代码：def process_request(self, request, spider):original_url = request.urlnew_url= original_url...
python捕获所有异常状态_如何在scrapy中捕获并处理各种异常
2021-01-29 22:35

weixin_39782752的博客前言使用scrapy进行大型爬取任务的时候(爬取耗时以天为单位)，无论主机网速多好，爬完之后总会发现scrapy日志中“item_scraped_count”不等于预先的种子数量，总有一部分种子爬取失败，失败的类型可能有如下图两种...
Python，Scrapy，Pipeline:函数“process_item”未被调用
2022-05-06 12:34

reg183的博客在Pipeline中，初始化工作正常。但是，process_item函数没有被调用，因为函数开头的print语句从未执行过。在蜘蛛：comosham.py在 import scrapy from scrapy.spider import Spider from scrapy.selector import ...
python_爬虫 21 Scrapy框架之（七）下载中间件
2021-06-12 08:09

思想流浪者的博客返回Response对象：Scrapy 将不会调用任何其他的 process_request 方法，将直接返回这个 response对象。已经激活的中间件的 process_response()方法则会在每个 response返回时被调用。返回 Request对象：不再...
Python爬虫——Scrapy中请求响应、crawlspider、middleware
2022-01-29 12:49

hyk今天写算法了吗的博客目录一、Scapy中request基础知识requestresponse二、Scrapy中crawlspidercrawlspider的使用实际案例三、Scrapy中下载中间件概念如何激活中间件如何编写一个下载中间件作用示例一、Scapy中request 基础知识 request ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月29日

scrapy 在process_response中返回request 异常

0条回答 默认 最新

问题事件

0条回答默认最新