scrapy如何按顺序自动启动多个spider？

python scrapy框架启动需要从终端窗口启动，操作不方便
所以想创建一个main.py自启动文件

import sys
import os

from scrapy.cmdline import execute

sys.path.append(os.path.dirname(os.path.abspath(__file__))) 
execute(["scrapy", "crawl", "spider1"])

如何按顺序启动多个spider？
例如，spiders有2个，如何在执行了spider1后自动执行spider2

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-07-13 19:15
关注
你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7473851
这篇博客你也可以参考下：scrapy中多个spider文件和多个items.py以及多个管道文件之间的对应
除此之外, 这篇博客: Scrapy框架知识手册 - 从零到一中的 5、编写spider 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
查看quotes.py文件

更改start_urls为’http://quotes.toscrape.com/’

Spider 是用户编写用于从单个网站(或者一些网站)爬取数据的类。
为了创建一个Spider，必须继承spider.Spider类，并且定义以下三个属性：

name。在genspider时创建的，用于区别Spider。该名字必须是唯一的，不可以为不同Spider设定相同的名字。
allowed_domains。是爬虫能抓取的域名，爬虫只能在这个域名下抓去网页。可以不设置。
start_urls。可迭代类型，列表也可以是列表推导式。包含了Spider在启动时进行爬取的url列表。因此，第一个页面必须设置进来，而后续的URL则从初始的URL获取到的数据中提取。
parse()。回调函数。是Spider的一个方法，被调用时，该方法中的response，是每个start_urls完成下载后生成的Response对象将会作为唯一的参数传递给该函数。也可以通过其他函数来接收。
页面解析主要完成下面两个任务：
直接提取页面中的数据（re、XPath、CSS选择器），生成item。
生成需要进一步处理的URL的Request对象，即提取页面中的链接，并产生对链接页面的下载请求。
页面解析函数通常为一个生成器函数，每一项从页面中提取的数据以及每一个对链接页面的下载请求都由yield语句交给Scrapy引擎。

您还可以看一下黄锦煌老师的Python爬虫Scrapy框架基础与实战项目案例课程中的 03写一个简单scrapy爬虫小节, 巩固相关知识点
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

来个大佬教下小白scrapy怎么创建多个spider python
2019-11-13 21:17

回答 1 已采纳 scrapy genspider (第二个spider名字) （网址）
scrapy genspider 创建新spider失败 python 有问必答
2021-12-15 21:09

回答 1 已采纳创建项目只有scrapy startproject指令，scrapy genspider是在当前项目创建spider
在scrapy中能不能进行多次post请求？ python
2020-12-13 19:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）
2020-02-18 00:57

sandorn的博客同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）　试想一下，前面做的实验和例子都只有一个spider。然而，现实的开发的爬虫肯定不止一个。既然这样，那么就会有如下几个问题：1、在同一个项目中...
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
关于#scrapy#的问题，如何解决？ python 爬虫
2023-03-07 18:36

回答 2 已采纳从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。你可以尝试使用循环迭代数据块，以便对每个数据块进行相同
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
Scrapy-redis爬取美榜整站高清美女图片.rar
2024-05-31 14:27

6. **分布式爬取**: 启动多个Scrapy进程，每个进程连接到同一Redis实例，按照队列中的URL顺序依次爬取，避免重复和提高效率。学习这个项目，你可以了解如何使用Scrapy-Redis搭建分布式爬虫，如何处理图片下载，...
scrapy怎么没打印数据？ python
2021-07-21 12:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
scrapy运行发生错误，如何解决？ python 爬虫
2022-07-28 20:29

回答 1 已采纳重新安装一下lxml库呢https://blog.csdn.net/weixin_43965374/article/details/99641332
scrapy是不没安装好呢？ python 爬虫
2022-05-10 11:28

回答 2 已采纳你确认一下是不是调用命令还需要参数啊
Spider_Python:Python爬虫之多进程
2021-06-25 06:46

例如，如果有一个包含多个URL的列表，我们可以这样做： ```python urls = ["http://wallstreetcn.com/news", "http://wallstreetcn.com/opinion"] processes = [Process(target=spider, args=(url,)) for url in ...
Scrapy Web爬虫框架 v1.2.0
2020-12-04 13:21

Scrapy是一个强大的网络爬虫框架，专为Python编程语言设计，其版本v1.2.0带来了许多实用的功能和优化。Scrapy的核心设计理念是让用户能够快速地构建自定义的网络爬虫，通过简单的配置和定制就能高效地抓取网页内容。...
深入解读 Scrapy 框架原理与源码
2024-08-06 10:59

Switch616的博客以上内容详细解读了 Scrapy 框架的运行原理、底层源码、中间件和自定义功能，涵盖了从请求生成、响应处理到数据存储的完整流程。
Python Scrapy 爬虫框架demo
2018-12-04 14:47

Scrapy是Python编程语言中的一款强大且高效的爬虫框架，专为数据抓取和网络爬虫设计。这个框架提供了一整套工具，使得开发者能够快速地构建起自己的爬虫项目，处理网页数据变得简单易行。在"Python Scrapy 爬虫框架...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月13日

悬赏问题

¥30 STM32 INMP441无法读取数据
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境

scrapy如何按顺序自动启动多个spider？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新