scrapy crawl 设置多条rule的时候，在第一条rule提取到的链接指向的页面中，会执行第二条rule提取规则吗？

rule1规则是提取每个列表样式的页面链接，比如https://blog.csdn.net/ ，展示了很多文章标题，是一个列表页。
图片说明

rule2规则是提取每个详情页的页面链接，比如https://blog.csdn.net/BEYONDMA/article/details/104210168?depth_1-utm_source=distribute.pc_feed.none-task&request_id=&utm_source=distribute.pc_feed.none-task，包含文章正文、作者和发布时间等。
图片说明

那么，在rule1提取到的每个列表页面下，还会继续执行rule2对详情页链接的提取吗。里面的逻辑是怎么样的？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创帆云 2020-03-12 23:45
关注
需要看你的程序设计是怎么样的；

首先，Scrapy默认设置是16线程，即在你的start___urlts里同时运行16个，然后每个url顺序执行，遇到yield提交后进行下次循环。

简单来说，如果你的初始start_urls里__，是100个rule1, 然后每个rule1逻辑会启动rule2,则顺序是这样的：

1、启动16个rule1
2、第一个rule1执行时，会启动rul2
3、第二个rule1是并发启动，和第一个顺序没有关系；
4、第16个rule1也是并发启动，和第一个rule1没有关系；

rule2的启动时间，取决于前置rule1的启动及运行至yield的时间

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

scrapy crawl 设置多条rule的时候，在第一条rule提取到的链接指向的页面中，会执行第二条rule提取规则吗？ python
2020-03-12 15:11

回答 2 已采纳需要看你的程序设计是怎么样的；首先，Scrapy默认设置是16线程，即在你的start___urlts里同时运行16个，然后每个url顺序执行，遇到yield提交后进行下次循环。简单来
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？ python redis 爬虫
2021-09-02 17:19

回答 2 已采纳方法一：在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理最后在settings中开启管道。方法二：scrapy用system命令在
scrapy 使用rule LinkExtractor提取链接
2018-09-11 17:22

112479的博客 import scrapy from scrapy.linkextractors import LinkExtractor class Jianshu(scrapy.Spider): name = "jianshu_spider" allowed_domains = ["jianshu.com"] start_urls = ['https...
在scrapy中能不能进行多次post请求？ python
2020-12-13 19:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
scrapy在settdings.py中已经设置好了DEFAULT_REQUEST_HEADERS，在发起请求的时候应该怎么写headers？ docker list python
2019-06-10 16:21

回答 2 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201906/11/1560224809_17418.png) ![图片说明](https://img-ask.c
scrapy中运行selemium填写验证码，browser启动后语句不执行 python selenium 有问必答爬虫
2021-12-16 14:44

回答 1 已采纳你在代码加个print()看看具体执行到哪一步
爬虫scrapy框架进阶-CrawlSpider, Rule
2022-05-16 18:30

吃猫的鱼python的博客文章目录scrapy中加入CrawlSpider️创建项目️ 提取器和规则RULEscrapy爬虫实战️分析网站️ 代码部分1.settings部分2.starts部分3.items部分4.重要的lyw_spider部分5.pipelines部分 scrapy中加入CrawlSpider 如果把...
scrapy框架能不能阻塞某一个请求，等其他的请求全部结束在执行这个请求呢 python 爬虫
2021-08-25 09:27

回答 3 已采纳不会啊，传参+回调函数，不会导致数据流错乱的。回调函数只是处理上一层调用回调函数的时传入的参数/url
在scrapy的spider文件中使用超级鹰识别验证码，需要导入requests库，导入会报错 python
2021-03-22 18:34

回答 2 已采纳你是在Python虚拟环境下运行程序的，而在venv中并没有安装requests 包，你需要在此环境下pip安装此包。
scrapy在创建爬虫文件时候url的错误 python 爬虫
2023-04-19 23:01

回答 1 已采纳是这样的，没问题。scrapy认为加了/b/的不是一个正确的网站，因为一般的网站首页都是.com .cn这样结尾的。所以默认去掉了后面的。需要自己手动修改的。
scrapy LinkExtractor 提取链接相关用法 crawl 模板
2019-05-04 14:05

木下瞳的博客不使用 crawl 模板创建好 LinkExtractor 描述提取规则的参数参数默认值 allow deny allow_domains deny_domains restrict_xpath 与 restrict_css tags attrs process_value 使用 crawl 模板 rules=( #...
scrapy中把数据存储到MongoDB，运行也没出错怎么查找不到数据库呢？？？ mongodb python
2020-06-05 16:06

回答 1 已采纳 1.密码设置了吗 2.127.0.0.1改成localhost试试 3.我没招了
scrapy使用crawl模板创建spider使用链接提取器
2023-05-23 15:36

Python And Go的博客 scrapy crawl模板创建spider，使用链接提取器注意的注意
Python爬虫 scrapy框架（四）CrawlSpider 链接提取器 LinkExtractor 规则解析器 Rule
2020-12-17 15:59

sharp_wu的博客 scrapy框架 CrawlSpider CrawlSpider：基于Spider的子类，继承父类的功能，且派生出自己的功能。全站数据爬取的方式基于Spider：手动请求发送基于CrawlSpider：基本使用创建一个工程 scrapy startproject ...
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

scrapy crawl 设置多条rule的时候，在第一条rule提取到的链接指向的页面中，会执行第二条rule提取规则吗？

2条回答 默认 最新

悬赏问题

2条回答默认最新