Scrapy yield Request 失效问题

想爬一下游戏信息和评论评论，信息是分开的所以用了两个方法
parse中用yield 进入第二个方法和回调自己都没问题
parse two 中用yield 回调就不行但是也不报错就是没有进行

def parse(self, response):
        #print response.body
        selector = scrapy.Selector(response)
        games = selector.xpath('//div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/@href').extract()
        for game in games:
            game = game + '/review'
            yield scrapy.http.Request(game, callback=self.parse_two)
            # print game

        #游戏列表下一页
        nextPage = selector.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
        if nextPage:
            next = nextPage[0]
            # print next
            yield scrapy.http.Request(next, callback=self.parse)

def parse_two(self,response):
        Gid = response.url[27:32]
        Gid = int(Gid)
        selector = scrapy.Selector(response)
        game_review_times = selector.xpath('//a[@class="text-header-time"]/span/@data-dynamic-time').extract()
        game_reviews = selector.xpath('//div[@class="review-item-text"]/div[@class="item-text-body"]').extract()
        game_reivew_author = selector.xpath('//span[@class="taptap-user"]/a/text()').extract()
        reviewNo = 1
        review_dict = {}
        # 处理评论
        for review in game_reviews:

            # 计算每天评论量
            # time_day = time.strftime('%Y-%m-%d',time.localtime(int(game_review_times[reviewNo - 1])))
            # if review_dict.get(time_day):
            #     review_dict[time_day] += 1
            # else:
            #     review_dict[time_day] = 1

            review_lines = re.findall('<p>(.*?)</p>',review,re.S)
            review = ''
            for line in review_lines:
                review += line

            item = TaptapItem()
            item['Review_GID'] = Gid
            item['Review_content'] = review
            item['Review_Author'] = game_reivew_author[reviewNo-1]
            item['Reivew_Time'] = game_review_times[reviewNo-1]

            yield item

            print '评论%d:'%reviewNo
            print game_review_times[reviewNo-1]
            print review

            reviewNo += 1

        #评论下一页
        nextPage = selector.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
        if nextPage:
            next = nextPage[0]
            # print next
            yield scrapy.http.Request(next, callback=self.parse_two)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
痞子泰 2017-09-21 02:58
关注
请用下面的代码，不谢

yield scrapy.http.Request(next, callback=self.parse_two, dont_filter=True)
解决 5

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 10:32

回答 1 已采纳 self.xidian_next_page确定有值吗
python3 scrapy Request 请求时怎么保持headers 的参数首字母不大写 python 数据挖掘
2019-05-15 16:44

回答 1 已采纳在spider文件中spider类的上面写下不希望首字母大写的header ``` from twisted.web.http_headers import Headers as TwistedH
scrapy yield request失效问题
2020-09-27 10:28

飞车穿越联盟的博客 1.出现的域名问题，可能yield request 中url允许的域名没有添加进去 allowed_domains = [‘www.search.51job.com’,‘www.jobs.51job.com’] 2.可以试试添加dont filter = true yield scrapy.Request(url=url, ...
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
yield scrapy.Request()无效的几种情况
2019-03-17 20:43

提莫_的博客 scrapy错误：yieldscrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request（）方法里面添加这么一个东东： yield Request(url, callback=self.parse_item,dont_filter=True) 如果发现...
scrapy安装失败的问题 python 有问必答
2021-04-17 21:20

回答 4 已采纳 can't find Rust compiler，找不到Rust编译器
关于scrapy 无法启动的问题 python
2022-08-22 21:07

回答 2 已采纳这是在两个不同py文件，要使用CnblogspiderItem需要导入另一个文件在Cnblog...py文件开头导入另一个文件import Item（反正就是另一个文件的文件名，图片模糊有些看不清）
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
关于Python Scrapy框架 yield scrapy.Request(next_url, call_back="")无法翻页情况解决
2018-08-11 18:42

GaryLea的博客 class XXSpider(scrapy.Spider): name = 'xxspider' allowed_domains = ['https://www.xx.com'] start_urls = ['https://www.xx.com/ask/highlight/'] 正确的代码: class XXSpider(scrapy.Spid...
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
python模块之Scrapy爬虫框架
2023-10-10 00:00

局外人LZ的博客 Scrapy 是一个用于爬取网站数据的强大的开源 Python 框架。它提供了一个高级的抓取和数据提取工具集，使您能够快速、灵活地构建和扩展网络爬虫。强大的功能：Scrapy 提供了一套完整的工具和功能，包括请求调度、数据...
六 Python之scrapy爬虫框架
2021-05-07 11:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_splash组件的使用 scrapy的日志信息与配置 scrapyd部署scrapy...
没有解决我的问题, 去提问

悬赏问题

¥65 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 latex怎么处理论文引理引用参考文献
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？