scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？

我想要实现爬虫结束时把redis中剩下没达到输出文件所需数量的数据输出。于是想到了管道里的close_spider。可是不知道该如何下手，在管道文件中创建几个类来分别处理这些爬虫的需求？还是说有什么别的办法。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
考古学家lx(李玺) python领域优质创作者 2021-09-03 13:07
关注
方法一：
在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理
最后在settings中开启管道。

方法二：
scrapy用system命令在py文件中启动是以顺序流进行的，可以 os.system("scrapy crawl xxx") ，下一行写上redis处理过程即可

方法三：
完全可以通过另一个进程来做这件事，当监控到爬虫进程结束后，然后处理redis数据。

下次来社区问啊，爬虫逆向社区-爬虫逆向论坛-CSDN社区云 CSDN爬虫逆向社区,爬虫逆向论坛,为中国软件开发者打造学习和成长的家园 https://bbs.csdn.net/forums/lx

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？ python redis 爬虫
2021-09-02 17:19

回答 2 已采纳方法一：在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理最后在settings中开启管道。方法二：scrapy用system命令在
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
大数据爬虫技术第10章初识爬虫框架Scrapy.ppt
2022-06-05 20:15

我们简单介绍一下各个主要文件的作用： scrapy.cfg --配置文件，用于存储项目的配置信息。 mySpider/ --项目的Python模块，将会从这里引用代码。 mySpider/items.py --实体文件，用于定义项目的目标实体。 mySpider/...
scrapy在创建爬虫文件时候url的错误 python 爬虫
2023-04-19 23:01

回答 1 已采纳是这样的，没问题。scrapy认为加了/b/的不是一个正确的网站，因为一般的网站首页都是.com .cn这样结尾的。所以默认去掉了后面的。需要自己手动修改的。
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
Python爬虫 | 如何使用爬虫框架scrapy爬取分页数据案例演示
2023-10-06 11:00

程序员晓晓的博客并爬取第1~5页数据中第2条。
爬虫 scrapy 导出json文件时，怎么让不同类之间空一行 python 有问必答
2021-06-26 13:47

回答 1 已采纳这是一个JSON数组，JSON里面不能空行，否则转换可能会出问题。
Scrapy框架（爬虫中间件）：TypeError: __init__() missing 5 required positional arguments python 中间件爬虫
2022-01-29 11:40

回答 2 已采纳在init函数内部引入settings然后依次赋值就解决了
scrapy模块进行爬虫报错 python 爬虫
2022-12-27 23:14

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜测可能是因为没有在你的项目目录下创建这个模块，或者是你在项目的 settings.py 文件中没有指定正确的模块路径。你需要确保在你的项目目录下有
功能强大的Scrapy （网络爬虫框架）总结
2022-07-10 19:05

大数据采集及分析的博客随着大数据价值的提升，数据采集和爬虫已成为获取真实数据主要的来源，Scrapy是用python开发的一个应用程序框架，用于对网站进行爬取和提取结构化数据，这些结构化的数据可用于数据数据分析等。 ...
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
爬虫系列：网络爬虫scrapy框架初识
2020-02-04 20:17

我先测了的博客网络爬虫：网络时代，大数据时代，一个并不陌生的概念，曾经有去过一家旅游信息公司面试，其中做的就是一个中间商赚差价或者广告费的服务商，通过爬取其他大网的酒店及交通出行信息，提供给用户，或者叫给大网引流，...
Python最火爬虫框架Scrapy入门与实践
2020-05-13 17:19

bfhonor的博客 Python最火爬虫框架Scrapy入门与实践Scrapy框架简介Scrapy架构图(绿线是数据流向)：制作 Scrapy 爬虫一共需要4步：入门案例一、新建项目（scrapy startproject）二、创建一个 ItcastItem 类，和构建 item 模型...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月2日

悬赏问题

¥15 关于#java#的问题：找一份能快速看完mooc视频的代码
¥15 这种微信登录授权谁可以做啊
¥15 请问我该如何添加自己的数据去运行蚁群算法代码
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
¥15 网络设备配置与管理这个该怎么弄
¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！

scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新