Rbute 2020-03-12 15:11 采纳率: 100%
浏览 504
已采纳

scrapy crawl 设置多条rule的时候,在第一条rule提取到的链接指向的页面中,会执行第二条rule提取规则吗?

rule1规则是提取每个列表样式的页面链接,比如https://blog.csdn.net/ ,展示了很多文章标题,是一个列表页。
图片说明

rule2规则是提取每个详情页的页面链接,比如https://blog.csdn.net/BEYONDMA/article/details/104210168?depth_1-utm_source=distribute.pc_feed.none-task&request_id=&utm_source=distribute.pc_feed.none-task, 包含文章正文、作者和发布时间等。
图片说明

那么,在rule1提取到的每个列表页面下,还会继续执行rule2对详情页链接的提取吗。里面的逻辑是怎么样的?

  • 写回答

2条回答 默认 最新

  • 创帆云 2020-03-12 23:45
    关注

    需要看你的程序设计是怎么样的;

    首先,Scrapy默认设置是16线程,即在你的start___urlts里同时运行16个,然后每个url顺序执行,遇到yield提交后进行下次循环。

    简单来说,如果你的初始start_urls里__,是100个rule1, 然后每个rule1逻辑会启动rule2,则顺序是这样的:

    1、启动16个rule1
    2、第一个rule1执行时,会启动rul2
    3、第二个rule1是并发启动,和第一个顺序没有关系;
    4、第16个rule1也是并发启动,和第一个rule1没有关系;

    rule2的启动时间,取决于前置rule1的启动及运行至yield的时间

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料