Rbute
Rbute
采纳率50%
2020-03-12 15:11

scrapy crawl 设置多条rule的时候,在第一条rule提取到的链接指向的页面中,会执行第二条rule提取规则吗?

已采纳

rule1规则是提取每个列表样式的页面链接,比如https://blog.csdn.net/ ,展示了很多文章标题,是一个列表页。
图片说明

rule2规则是提取每个详情页的页面链接,比如https://blog.csdn.net/BEYONDMA/article/details/104210168?depth_1-utm_source=distribute.pc_feed.none-task&request_id=&utm_source=distribute.pc_feed.none-task, 包含文章正文、作者和发布时间等。
图片说明

那么,在rule1提取到的每个列表页面下,还会继续执行rule2对详情页链接的提取吗。里面的逻辑是怎么样的?

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

2条回答

  • oSuiYing12 创帆云 1年前

    需要看你的程序设计是怎么样的;

    首先,Scrapy默认设置是16线程,即在你的start___urlts里同时运行16个,然后每个url顺序执行,遇到yield提交后进行下次循环。

    简单来说,如果你的初始start_urls里__,是100个rule1, 然后每个rule1逻辑会启动rule2,则顺序是这样的:

    1、启动16个rule1
    2、第一个rule1执行时,会启动rul2
    3、第二个rule1是并发启动,和第一个顺序没有关系;
    4、第16个rule1也是并发启动,和第一个rule1没有关系;

    rule2的启动时间,取决于前置rule1的启动及运行至yield的时间

    点赞 1 评论 复制链接分享
  • qq_43656607 放风喽 1年前

    判断response.url的特征,如果是列表页,左转
    如果是详情页右转

    点赞 评论 复制链接分享

相关推荐