这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数?

import json
import logging

import scrapy

from news.items import NewsItem


class AbcSpider(scrapy.Spider):
    name = 'abc'
    allowed_domains = ['gelonghui.com']
    start_urls = ['https://www.gelonghui.com/api/channels/web_home_page/articles/v8?']




    def parse(self, response):
        item = NewsItem()
        dicts = json.loads(response.text)
        for dict in dicts['result']:
            item['title'] = dict['data']['title']
            logging.critical(item)
            yield item

        next_timestamp = dicts['result'][14]['data']['timestamp'] - 1
        url_ajax = 'https://www.gelonghui.com/api/channels/web_home_page/articles/v8?'
        data = {
            'timestamp': str(next_timestamp),
            'loaded': '15'
        }

        yield scrapy.FormRequest(url=url_ajax,
                                 method='get',
                                 formdata=data,
                                 dont_filter=True,
                                 callback=self.parse
                                 )


```python

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
强129 2021-09-06 09:20
关注
可以用meta累计请求次数，在后续的请求中获取请求次数。

def parse(self, response):
meta = {'crawlCnt': 0}
if response.meta:
meta = response.meta
meta['crawlCnt'] += 1
......
yield scrapy.FormRequest(url=url_ajax,
method='get',
formdata=data,
dont_filter=True,
meta=meta,
callback=self.parse
)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数? python 爬虫
2021-09-06 00:23

回答 2 已采纳可以用meta累计请求次数，在后续的请求中获取请求次数。 def parse(self, response): meta = {'crawlCnt': 0} if response.met
Python 爬虫豆瓣250为什么抓取不到英文电影名？ python 有问必答
2021-06-04 08:30

回答 4 已采纳你选的是第一个span标签。 each.a.span.next_sibling.text
爬虫如何爬网上的表格？Python python 爬虫
2022-08-17 18:46

回答 2 已采纳爬虫如何爬网上的表格？你是不是一点不会爬虫？
这是爬虫抓取bing页面的图片，请问这个问题出在哪 python
2022-07-18 18:01

回答 4 已采纳生成的文件语法错误,应该把 " " 去掉的
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
用python美丽汤爬虫抓取网页中自己的姓名怎么弄代码？ python 有问必答
2021-11-25 08:53

回答 3 已采纳爬取题主问题中的名字，自己改下css选择器 import requests from bs4 import BeautifulSoup html=requests.get("https://ask.
Python3简单爬虫抓取网页图片代码实例
2021-01-20 06:10

现在网上有很多python2写的爬虫抓取网页图片的实例，但不适用新手（新手都使用python3环境，不兼容python2），所以我用Python3的语法写了一个简单抓取网页图片的实例，希望能够帮助到大家，并希望大家批评指正。 ...
请问在python爬虫中抓取超链接时，有一部分超链接不完整，该怎么对那部分超链接添加拼接？ python 有问必答爬虫
2021-12-03 22:07

回答 2 已采纳 if url.startswith("https://")==False: url="https://"+url
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
python简单爬虫抓取网页内容实例
2018-06-08 15:50

一个简单的python示例，实现抓取嗅事百科首页内容，大家可以自行运行测试
关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存 python
2022-06-04 10:47

回答 1 已采纳 import sqlite3 import re import requests from lxml import html findlink = re.compile(r'<a href=
零基础写python爬虫之爬虫的定义及URL构成
2020-12-23 23:48

然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来，网络...
python 抓取一个网站所有图片并保存
2019-04-23 09:24

python 抓取一个网站所有图片并保存。 python 抓取一个网站所有图片并保存 python 爬虫
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月6日

悬赏问题

¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题

这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数?

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新