scrapy 怎么确定start_urls里的url是否已经爬取完成

好像大部分都在说，start_requests方法每发起一个url请求，就标记这个url已经访问过，但是这不符合我的需求。

可以理解成start_urls这个列表里的每个url，都是网站里的一个分类，每个分类有多个页面，每个页面有多个详情页，我需要保存这些详情页的数据。

（url（网站里的某个分类）——页面——详情页）

也就是说，只有start_urls这个列表里的某个url下的所有页面的所有详情页都爬取完成，这个url才能标记完成，我应该怎么做？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-03-03 22:50

关注

引自免费微信小程序：皆我百晓生

当然可以，根据您的需求，在Scrapy中实现对start_urls中每个分类URL下所有页面和详情页的爬取，并确保整个分类完成后再标记为已爬取，您可以采用以下策略：

维护全局状态：首先，您需要一个全局的数据结构（例如字典或集合）来记录每个分类URL及其对应的详情页是否已经全部爬取。

class MySpider(scrapy.Spider):
    # 初始化全局字典，存储分类URL及详情页的状态
    all_pages_completed = defaultdict(bool)

    def start_requests(self):
        for category_url in self.start_urls:
            yield scrapy.Request(url=category_url, callback=self.parse_category)

    def parse_category(self, response):
        # 获取该分类下的所有页面链接并发起请求
        category_url = response.url
        page_links = self.extract_page_links(response)
        self.all_pages_completed[category_url] = False

        for page_link in page_links:
            yield scrapy.Request(url=page_link, callback=self.parse_page,
                                meta={'category_url': category_url})

    def parse_page(self, response):
        category_url = response.meta['category_url']
        detail_links = self.extract_detail_links(response)

        for detail_link in detail_links:
            yield scrapy.Request(url=detail_link, callback=self.parse_detail,
                                meta={'category_url': category_url})

    def parse_detail(self, response):
        category_url = response.meta['category_url']

        # 这里处理详情页数据保存逻辑
        # ...

        # 更新详情页计数器或标志位，当这个分类的所有详情页都爬取完成后
        self.update_detail_count(category_url)

    def update_detail_count(self, category_url):
        # 假设这里有一个函数来判断当前分类下是否所有详情页都已爬取
        if self.are_all_details_parsed_for_category(category_url):
            self.all_pages_completed[category_url] = True

    def closed(self, reason):
        # 当爬虫关闭时，检查是否有未完成的分类
        for url, is_complete in self.all_pages_completed.items():
            if not is_complete:
                print(f"Category URL {url} was not fully parsed.")

提取链接与回调方法：extract_page_links 和 extract_detail_links 是您自定义的方法，用来从响应中提取出分类下的页面链接和页面内的详情页链接。
跟踪详情页完成情况：update_detail_count 方法用于更新每个分类的详情页爬取完成状态。在实际应用中，您可能需要维护一个计数器或者使用集合来追踪哪些详情页已经被爬取过。
检查爬取完成：are_all_details_parsed_for_category 方法应该根据实际情况编写，它负责判断某个分类下的所有详情页是否都已经成功抓取。

请根据您的实际项目结构和需求调整上述代码逻辑，确保正确统计每个分类下所有详情页的抓取状态，并在适当的时候将分类URL标记为已完成。由于具体实现细节依赖于目标网站的结构和内容，所以这里只提供了基本框架示例。

报告相同问题？

关注问题

scrapy中start_requests指定回调函数为何没有调用 python 有问必答爬虫
2022-01-20 23:02

回答 2 已采纳改成这样试试 yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='
scrapy如何传入start_requests python 爬虫
2021-12-28 15:45

回答 1 已采纳获取到翻页的url之后调用start_request不就传了，求采纳，谢谢🙈🙈🙈
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse
2024-04-27 20:04

2301_79099373的博客首先将start_urls修改为起始链接，代码如下所示：之后，Spider爬取start_urls里面的每一个链接。所以这里第一个爬取的页面就是我们刚才所定义的链接。得到Response之后，Spider就会根据每一个Rule来提取这个页面内的...
scrapy 爬取商品视频url,详情失败 python
2022-02-17 10:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
scrapy爬虫使用rules匹配url爬取，结果爬不了多少就自动停止了 python 正则表达式
2020-07-17 18:20

回答 1 已采纳你给的url：https://tech.ifeng.com 把这个url爬完自然就没了啊。。。我搜了下https关键字一共出现了200多次，去掉重复的话170个链接差不多了，如果你希望爬完一个网页爬下
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url
2022-06-28 17:34

蒙娜丽宁的博客在前面的案例中都是只抓取了一个Url对应的页面，但在实际应用中，通常需要抓取多个Url，在爬虫类的start_urls变量中添加多个Url，运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了...
scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 14:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
python用scrapy爬虫豆瓣_python爬虫，用Scrapy爬取豆瓣Top250，存入MySQL
2021-01-14 06:17

催眠神兔的博客小白大四生，虽然是计算机专业，但是对学的几门编程语言缘分不深，然后自学了python。(这是我后来补得，因为我发现我写的太笼统了并不适合给新手看，对不起！所以希望大家轻点喷，后面我会从特别特别特别详细写的，...
scrapy爬取知乎首页乱码
2017-12-01 03:21

回答 2 已采纳 ```python HEADERS = { 'Host': 'www.zhihu.com', 'Accept': 'text/html,application/xhtml+xml
scrapy-redis记录之，重写make_request_from_data和make_requests_from_url
2020-12-27 19:52

python实验室的博客起因是最近爬了某电商商品，因为用了scrapy-redis来爬，这样可以停机，重新爬，但是单机版有start_requests方法，然而，我的start_url是保存在redis服务器中的，需要从redis接收第一条url那么start_requests方法就不...
Python scrapy增量爬取实例及实现过程解析
2020-09-18 06:13

标题中提到的“Python scrapy增量爬取”是指在使用Python编程语言开发网络爬虫时，采用Scrapy框架实现增量爬取的方法。增量爬取是一种智能的爬虫技术，旨在只获取目标网站自上次爬取后更新或新增的数据，以此减少对...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月3日

悬赏问题

¥15 请问Ubuntu要怎么安装chrome呀？
¥15 视频编码十六进制问题
¥15 Xsheii7我安装这个文件的时候跳出来另一个文件已锁定文件的无一部分进程无法访问。这个该怎么解决
¥15 unity terrain打包后地形错位，跟建筑不在同一个位置，怎么办
¥15 FileNotFoundError 解决方案
¥15 uniapp实现如下图的图表功能
¥15 u-subsection如何修改相邻两个节点样式
¥30 vs2010开发 WFP（windows filtering platform）
¥15 服务端控制goose报文控制块的发布问题
¥15 学习指导与未来导向啊

scrapy 怎么确定start_urls里的url是否已经爬取完成

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新