求助！用scrapy爬虫，未全部爬完就停止

用scrapy框架爬取58.com获取一些地产数据，前期不用代理ip,本机ip爬取，页面返回滑块+点击验证码，手动解决验证码后再次爬取成功，且速度快，但很low.于是购买快代理私密IP,伪装user agent后进行爬取(没有禁cookies,因为禁了返回的页面就没有信息，页面重定向404,应该是58的一种反爬手段吧,相当于说即便我用了代理，但是从cookie 也可以判断非人为请求，所以返回验证码的概率很高)由于爬取过程中仍会返回验证码，返回验证码的这条url的数据就获取不完整，导最后爬取的总数据量不全。
解决这个问题的思路就是，返回验证码的这条url重新换个ip请求，外加请求时，随机生成一个cookie这样不容易被反爬，这样做后解决了验证码的问题，但是一旦翻页就会出现404,接下来就解决404问题，测试了实际网页，带上原来的cookie再次请求可以解决404问题，外加如果请求返回验证码的这个代理ip就从代理池里移除,于是这两个问题就解决了，只是对于总的请求次数几乎是翻倍了。
原以为这样解决了问题只是请求翻倍，使用代理数增加，但是实际过程试验多次都一样，发现最后没有全部请求完程序就停止了，这个问题暂时没有思路。
寻求帮助，这是什么原因造成的，求大神帮忙解决这个问题.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 19:35
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
看下这篇博客，也许你就懂了，链接：【爬虫】scrapy下载图片问题

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
Python 利用scrapy爬虫通过短短50行代码下载整站短视频
2020-12-25 07:55

因为这个事儿，勾起了我另一个念头，这不最近一直想把python爬虫方面的知识梳理梳理吗，干脆借机行事，正凑着短视频火热的势头，做一个短视频的爬虫好了，中间用到什么知识就理一理。我喜欢把事情说得很直白，如果...
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
scrapy爬虫无法翻页 python 有问必答
2021-05-06 08:49

回答 5 已采纳代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
python scrapy爬虫遇见301_python scrapy框架爬虫遇到301
2020-12-23 12:26

步昇航的博客 1.什么是状态码301301 Moved Permanently(永久重定向) 被请求的资源已永久移动到新位置，并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。如果可能，拥有链接编辑功能的客户端应当自动把请求的地址...
scrapy模块进行爬虫报错 python 爬虫
2022-12-27 23:14

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜测可能是因为没有在你的项目目录下创建这个模块，或者是你在项目的 settings.py 文件中没有指定正确的模块路径。你需要确保在你的项目目录下有
scrapy爬虫使用rules匹配url爬取，结果爬不了多少就自动停止了 python 正则表达式
2020-07-17 18:20

回答 1 已采纳你给的url：https://tech.ifeng.com 把这个url爬完自然就没了啊。。。我搜了下https关键字一共出现了200多次，去掉重复的话170个链接差不多了，如果你希望爬完一个网页爬下
用scrapy爬到一半时停止并报错invalid session id python 爬虫
2022-01-04 16:58

回答 1 已采纳这位博友情况跟你的有点类似，你可以借鉴一下 https://blog.csdn.net/weixin_35757704/article/details/120706276
【爬虫作业】使用scrapy爬取游戏发售表，存入mongo数据库
2022-06-10 21:44

仙草哥哥的博客一个较为完整的爬虫项目，通过scrapy爬取游戏的发售列表，并保存到mongo数据库中
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
python朋友圈爬虫_基于朋友圈的python二次爬虫设计实践，报错求助！！！
2020-12-10 20:43

weixin_39552179的博客该楼层疑似违规已被系统折叠隐藏此楼查看此楼是根据这篇实践文章模仿的 https://mp.weixin.qq.com/s/t3xM0-YxKNwGI5A3EI26ew，是一名小白，求大神指教，这周需要完成，非常无助2019-03-22 13:45:05 [scrapy.utils....
Python爬虫实战：利用scrapy，短短50行代码下载整站短视频
2019-09-12 15:54

轻松学Python的博客因为这个事儿，勾起了我另一个念头，这不最近一直想把python爬虫方面的知识梳理梳理吗，干脆借机行事，正凑着短视频火热的势头，做一个短视频的爬虫好了，中间用到什么知识就理一理。我喜欢把事情说...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！