Rbute 2020-03-12 15:11 采纳率: 100%
浏览 504
已采纳

scrapy crawl 设置多条rule的时候,在第一条rule提取到的链接指向的页面中,会执行第二条rule提取规则吗?

rule1规则是提取每个列表样式的页面链接,比如https://blog.csdn.net/ ,展示了很多文章标题,是一个列表页。
图片说明

rule2规则是提取每个详情页的页面链接,比如https://blog.csdn.net/BEYONDMA/article/details/104210168?depth_1-utm_source=distribute.pc_feed.none-task&request_id=&utm_source=distribute.pc_feed.none-task, 包含文章正文、作者和发布时间等。
图片说明

那么,在rule1提取到的每个列表页面下,还会继续执行rule2对详情页链接的提取吗。里面的逻辑是怎么样的?

  • 写回答

2条回答 默认 最新

  • 创帆云 2020-03-12 23:45
    关注

    需要看你的程序设计是怎么样的;

    首先,Scrapy默认设置是16线程,即在你的start___urlts里同时运行16个,然后每个url顺序执行,遇到yield提交后进行下次循环。

    简单来说,如果你的初始start_urls里__,是100个rule1, 然后每个rule1逻辑会启动rule2,则顺序是这样的:

    1、启动16个rule1
    2、第一个rule1执行时,会启动rul2
    3、第二个rule1是并发启动,和第一个顺序没有关系;
    4、第16个rule1也是并发启动,和第一个rule1没有关系;

    rule2的启动时间,取决于前置rule1的启动及运行至yield的时间

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 如何用stata画出文献中常见的安慰剂检验图
  • ¥15 c语言链表结构体数据插入
  • ¥40 使用MATLAB解答线性代数问题
  • ¥15 COCOS的问题COCOS的问题
  • ¥15 FPGA-SRIO初始化失败
  • ¥15 MapReduce实现倒排索引失败
  • ¥15 ZABBIX6.0L连接数据库报错,如何解决?(操作系统-centos)
  • ¥15 找一位技术过硬的游戏pj程序员
  • ¥15 matlab生成电测深三层曲线模型代码
  • ¥50 随机森林与房贷信用风险模型