scrapy怎么让队列中多个请求共用一个代理ip?

环境背景: 2个服务器, celery+rabbitmq + python+ scrapy爬虫框架

共有6000个url, 12点的时候启动celery产生任务和队列派给两个服务器去爬, 每次处理100个url, 我用中间件拿到10个代理ip携带上去请求, 100个处理完后, 继续处理队列中的下一组100个url, 但是为什么不读取新的ip呢? 这样6000个url跑完, 永远用的还是第一次那10个ip, 目前我是在process_request函数中每个请求都去读取一个有ip的文本, 而文本定时更换保证只有10个ip, 所以100个请求也只会随机从10个里拿, 但是后边处理队列中其他一堆请求就再也不读取新ip了, 怎么解决呢?

读取文本是为了节省ip, 如果在不读取文本,而是直接调取ip接口, 那就需要特别多的ip, 一轮6000个url就需要最少6000个ip, 现在一轮只想用300个ip, 每进行下一组100个url的时候就让它拿新的10个ip , 但貌似现在就不拿...文本里的ip还在定时更换, 结果scrapy就拿一次, 再也不拿了..

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
沵若成风 2018-12-24 01:41
关注
每次随机选择一个IP，不过总是用1个会被反爬的，
list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

slice = random.sample(list, 5)

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在scrapy中能不能进行多次post请求？ python
2020-12-13 19:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
scrapy框架能不能阻塞某一个请求，等其他的请求全部结束在执行这个请求呢 python 爬虫
2021-08-25 09:27

回答 3 已采纳不会啊，传参+回调函数，不会导致数据流错乱的。回调函数只是处理上一层调用回调函数的时传入的参数/url
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 11:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
Scrapy-redis实现分布式
2019-03-18 11:15

Ai_践行者的博客 scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 scrapy-redis工程的主体还是是redis和scrapy两个库，工程本身实现的东西不是很多，这个工程就像胶水一样，把...
来个大佬教下小白scrapy怎么创建多个spider python
2019-11-13 21:17

回答 1 已采纳 scrapy genspider (第二个spider名字) （网址）
scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？ python redis 爬虫
2021-09-02 17:19

回答 2 已采纳方法一：在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理最后在settings中开启管道。方法二：scrapy用system命令在
scrapy crawl 设置多条rule的时候，在第一条rule提取到的链接指向的页面中，会执行第二条rule提取规则吗？ python
2020-03-12 15:11

回答 2 已采纳需要看你的程序设计是怎么样的；首先，Scrapy默认设置是16线程，即在你的start___urlts里同时运行16个，然后每个url顺序执行，遇到yield提交后进行下次循环。简单来
（十九）Scrapy中基于Scrapy-redis组件实现分布式爬虫（非常详细）
2023-05-08 08:59

阳光宅男xxb的博客本节详细介绍了什么是分布式爬虫，什么是scrapy-redis，通过实例的方式，介绍了如何将普通的scrapy爬虫项目改造为scrapy-redis爬虫，从而实现分布式爬取，实现mysql数据库存储和分布式爬虫部署。
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
scrapy入门下载的第一个文件，显示finished，但是没有html文件输出 python 有问必答
2021-08-06 10:14

回答 2 已采纳你在代码里面print(response)看看输出什么内容
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客大家好，我是辣条。...网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端(浏
爬虫 scrapy 导出json文件时，怎么让不同类之间空一行 python 有问必答
2021-06-26 13:47

回答 1 已采纳这是一个JSON数组，JSON里面不能空行，否则转换可能会出问题。
【JAVA】Webmagic 爬虫框架，带着问题解读源码
2019-01-03 17:59

chiweitree的博客无意中发现了一个巨牛的人工智能教程，忍不住分享一下给大家。教程不仅是零基础，通俗易懂，而且非常风趣幽默，像看小说一样！觉得太牛了，所以分享给大家。点这里可以跳转到教程。前言 github地址 ...
【艾琪出品】《计算机应用基础》【试题汇总2】
2020-09-01 02:33

island33的博客自备留用《Java语言程序设计》20春期末考核 1. 接口体中不应包含( )。...C 在Java中一个类不能同时继承一个类和实现一个接口 D 在Java中接口只允许单一继承 4. 编译并且执行以下代码,会出现什么情况...
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？