m0_49938637 2021-09-06 00:23 采纳率: 100%
浏览 39
已结题

这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数?

import json
import logging

import scrapy

from news.items import NewsItem


class AbcSpider(scrapy.Spider):
    name = 'abc'
    allowed_domains = ['gelonghui.com']
    start_urls = ['https://www.gelonghui.com/api/channels/web_home_page/articles/v8?']




    def parse(self, response):
        item = NewsItem()
        dicts = json.loads(response.text)
        for dict in dicts['result']:
            item['title'] = dict['data']['title']
            logging.critical(item)
            yield item

        next_timestamp = dicts['result'][14]['data']['timestamp'] - 1
        url_ajax = 'https://www.gelonghui.com/api/channels/web_home_page/articles/v8?'
        data = {
            'timestamp': str(next_timestamp),
            'loaded': '15'
        }

        yield scrapy.FormRequest(url=url_ajax,
                                 method='get',
                                 formdata=data,
                                 dont_filter=True,
                                 callback=self.parse
                                 )


```python


```

  • 写回答

2条回答 默认 最新

  • 强129 2021-09-06 09:20
    关注

    可以用meta累计请求次数,在后续的请求中获取请求次数。

    def parse(self, response):
    meta = {'crawlCnt': 0}
    if response.meta:
    meta = response.meta
    meta['crawlCnt'] += 1
    ......
    yield scrapy.FormRequest(url=url_ajax,
    method='get',
    formdata=data,
    dont_filter=True,
    meta=meta,
    callback=self.parse
    )

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 9月14日
  • 已采纳回答 9月6日
  • 创建了问题 9月6日

悬赏问题

  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥30 关于<main>标签页面跳转的问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元
  • ¥15 matlab答疑 关于海上风电的爬坡事件检测
  • ¥88 python部署量化回测异常问题