scrapy中start_requests指定回调函数为何没有调用

###### 问题遇到的现象和发生背景
ef start_requests(self):
        login_url = 'https://antispider7.scrape.center/api/login'
        header = {
            'Content-Type': 'application/json;charset=UTF-8',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
        }
        param = {
            'password': 'admin',
            'username': 'admin',
        }
        yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='POST', callback=self.login_callback)

    def login_callback(self, response):
        print(response.text)
        jwt = 'jwt ' + json.loads(response.text)['token']
        header = {
            'Authorization': jwt
        }
        for page in range(1, 3):
            url = 'https://antispider7.scrape.center/api/book/?limit=18&offset=%s' % ((page-1) * 18)
            yield scrapy.Request(url=url, headers=header, callback=self.parse_list)

    def parse_list(self, response):
        print(response.text)
        results = json.loads(response.text)
        for result in results['results']:
            book_id = result['id']
            title = result['name']
            score = result['score']
            author = ''.join(result['author']).replace('\n', '').replace('\t', '').replace('\r', '')
            outurl = result['cover']
            print(book_id, title, score, author, outurl)

问题相关代码，请勿粘贴截图

我需要先登录获取token加入到header中，因此我选择使用startr_requests来完成，但是yield之后始终没有任何回调函数捕捉到，请问可能的原因是什么？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-天际的海浪 2022-01-20 23:51

关注

改成这样试试


        yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='POST', callback=lambda x,s=self: s.login_callback(x))

你题目的解答代码如下：

    def start_requests(self):
        login_url = 'https://antispider7.scrape.center/api/login'
        header = {
            'Content-Type': 'application/json;charset=UTF-8',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',
        }
        param = {
            'password': 'admin',
            'username': 'admin',
        }
        yield scrapy.Request(url=login_url, headers=header, body=json.dumps(param), method='POST', callback=lambda x,s=self: s.login_callback(x))
 
    def login_callback(self, response):
        print(response.text)
        jwt = 'jwt ' + json.loads(response.text)['token']
        header = {
            'Authorization': jwt
        }
        for page in range(1, 3):
            url = 'https://antispider7.scrape.center/api/book/?limit=18&offset=%s' % ((page-1) * 18)
            yield scrapy.Request(url=url, headers=header, callback=lambda x,s=self: s.parse_list(x))
 
    def parse_list(self, response):
        print(response.text)
        results = json.loads(response.text)
        for result in results['results']:
            book_id = result['id']
            title = result['name']
            score = result['score']
            author = ''.join(result['author']).replace('\n', '').replace('\t', '').replace('\r', '')
            outurl = result['cover']
            print(book_id, title, score, author, outurl)

如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

scrapy在start_requests中传入参数给parser
2020-01-17 10:55

_吟游诗人的博客 scrapy在start_requests中发出请求时，需要传入一些参数进行动态控制。为保证scrapy的请求的并发性，将其改为串行执行显然严重影响效率，因此不考虑采用全局变量的方法。因此可以使用在scrapy.Request中加入meta数据...
关于Scrapy的start_requests中的所有Requests不一口气加入请求队列这件事
2021-02-21 15:48

deltapluskai的博客 Scrapy源码阅读记录文章目录Scrapy源码阅读记录爬虫启动Crawler类职责主要方法Engine类职责主要方法Scraper类职责主要方法结论更通俗的说因为爬虫需求比较特殊（毕设要做社交网络相关的内容），网上的博客写的都...
python scrapy request_python – Scrapy Start_request解析
2020-12-08 10:18

weixin_39723655的博客我从Scrapy的start_requests开始,我将传递搜索查询并重定向到另一个函数解析,该解析将从搜索结果中检索URL.最后我调用另一个函数parse_item来解析结果.我能够提取所有搜索结果url,但我无法解析结果(parse_item不起...
Day 24 24.3 Scrapy框架进阶之start_requests重写
2023-04-19 10:16

Chimengmeng的博客 Scrapy框架进阶之start_requests...scrapy中start_url是通过start_requests来进行处理的，其实现代码如下 def start_requests(self): cls = self.__class__ if method_is_overridden(cls, Spider, 'make_req...
scrapy的start_requests无法运行
2019-10-23 17:41

Jayj1997的博客今天犯了一个终极沙雕的错误，沙雕到不能再沙雕，scrapy写的爬虫无法运行下去，到了start_requests就跳过了，最后发现是start_requests写成了start_request，我的老妈啊我几个小时就因为一个s嗝屁了ORZ ...
Scrapy系列二：重写start_reuests()方法，伪装和重设解析数据回调函数
2020-03-28 23:37

qq_41622603的博客重设解析数据回调函数：在系列一文章里面我们把爬虫的数据解析的具体实现写在了Scrapy默认的parse方法里，如果要指定别的数据解析回调函数，则需要指定新的解析数据的回调函数 重写start_requests()方法在系列...
scrapy中CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系
2017-05-20 11:31

s150503的博客简略说说scrapy中的DOWNLOAD_DELAY 与CONCURRENT_REQUESTS之间的关系
Scrapy第四篇：复杂的起始start_urls和采集遗漏问题
2022-08-15 09:20

文子阳的博客需要采用一下方式：（以读取文件为例）①Request中加入参数，主爬虫文件中的parse方法的请求函数中加入参数：dont_filter=True。③删除allowed_domains。有时候是被限制域给过滤掉了。②修改Setting.py文件。...
【python|scrapy】yield scrapy.Request在自定义函数中调用没有执行
2022-09-14 22:16

胡侃有料的博客 yield scrapy.Ruequest自定义函数中调用不被执行
python中定义的函数不掉用不会执行_Python scrapy 自定义函数无法调用。
2020-11-24 06:35

weixin_39746382的博客爬取一个网页时，遇到一个非常奇怪的问题，如果使用自定义函数，那么yield item 没有调用。爬取的链接：http://www.duilian360.com/chu...代码如下：import scrapyfrom shufa.items import DuilianItemclass ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月20日

scrapy中start_requests指定回调函数为何没有调用

问题相关代码，请勿粘贴截图

2条回答 默认 最新

问题事件

2条回答默认最新