scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？

我想要实现爬虫结束时把redis中剩下没达到输出文件所需数量的数据输出。于是想到了管道里的close_spider。可是不知道该如何下手，在管道文件中创建几个类来分别处理这些爬虫的需求？还是说有什么别的办法。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
考古学家lx(李玺) python领域优质创作者 2021-09-03 13:07
关注
方法一：
在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理
最后在settings中开启管道。

方法二：
scrapy用system命令在py文件中启动是以顺序流进行的，可以 os.system("scrapy crawl xxx") ，下一行写上redis处理过程即可

方法三：
完全可以通过另一个进程来做这件事，当监控到爬虫进程结束后，然后处理redis数据。

下次来社区问啊，爬虫逆向社区-爬虫逆向论坛-CSDN社区云 CSDN爬虫逆向社区,爬虫逆向论坛,为中国软件开发者打造学习和成长的家园 https://bbs.csdn.net/forums/lx

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？ python redis 爬虫
2021-09-02 17:19

回答 2 已采纳方法一：在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理最后在settings中开启管道。方法二：scrapy用system命令在
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
大数据爬虫技术第10章初识爬虫框架Scrapy.ppt
2022-06-05 20:15

我们简单介绍一下各个主要文件的作用： scrapy.cfg --配置文件，用于存储项目的配置信息。 mySpider/ --项目的Python模块，将会从这里引用代码。 mySpider/items.py --实体文件，用于定义项目的目标实体。 mySpider/...
scrapy在创建爬虫文件时候url的错误 python 爬虫
2023-04-19 23:01

回答 1 已采纳是这样的，没问题。scrapy认为加了/b/的不是一个正确的网站，因为一般的网站首页都是.com .cn这样结尾的。所以默认去掉了后面的。需要自己手动修改的。
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
浅谈Scrapy网络爬虫框架的工作原理和数据采集
2020-09-19 15:14

Scrapy是一个强大的Python爬虫框架，它被设计用于高效、快速地抓取大规模网络数据。Scrapy不仅仅是为了处理那剩余的10%的复杂爬虫需求，而是为了提供一套全面的解决方案，使得开发者能够构建复杂的爬虫系统，同时...
爬虫 scrapy 导出json文件时，怎么让不同类之间空一行 python 有问必答
2021-06-26 13:47

回答 1 已采纳这是一个JSON数组，JSON里面不能空行，否则转换可能会出问题。
Scrapy框架（爬虫中间件）：TypeError: __init__() missing 5 required positional arguments python 中间件爬虫
2022-01-29 11:40

回答 2 已采纳在init函数内部引入settings然后依次赋值就解决了
scrapy模块进行爬虫报错 python 爬虫
2022-12-27 23:14

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜测可能是因为没有在你的项目目录下创建这个模块，或者是你在项目的 settings.py 文件中没有指定正确的模块路径。你需要确保在你的项目目录下有
Scrpay爬虫框架爬取豆瓣TOP250示例源码
2021-08-07 15:56

Scrapy是一个强大的Python爬虫框架，它为开发者提供了一套完整的解决方案来构建网络爬虫，处理网页内容并提取有用的数据。本示例源码旨在教你如何利用Scrapy爬取豆瓣电影TOP250的列表信息，包括电影名称、评分、评价...
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
大数据分布式爬虫
2018-12-04 01:05

##### 1、Scrapy框架 **简介** Scrapy是一款强大的Python爬虫框架，它能够高效地爬取Web页面并从中抽取结构化数据。由于其灵活高效的特点，Scrapy被广泛应用于爬虫开发、数据挖掘、数据监控及自动化测试等多个领域...
Python爬虫 | 如何使用爬虫框架scrapy爬取分页数据案例演示
2023-10-06 11:00

程序员晓晓的博客并爬取第1~5页数据中第2条。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月2日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新