Scrapy yield Request 失效问题

想爬一下游戏信息和评论评论，信息是分开的所以用了两个方法
parse中用yield 进入第二个方法和回调自己都没问题
parse two 中用yield 回调就不行但是也不报错就是没有进行

def parse(self, response):
        #print response.body
        selector = scrapy.Selector(response)
        games = selector.xpath('//div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/@href').extract()
        for game in games:
            game = game + '/review'
            yield scrapy.http.Request(game, callback=self.parse_two)
            # print game

        #游戏列表下一页
        nextPage = selector.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
        if nextPage:
            next = nextPage[0]
            # print next
            yield scrapy.http.Request(next, callback=self.parse)

def parse_two(self,response):
        Gid = response.url[27:32]
        Gid = int(Gid)
        selector = scrapy.Selector(response)
        game_review_times = selector.xpath('//a[@class="text-header-time"]/span/@data-dynamic-time').extract()
        game_reviews = selector.xpath('//div[@class="review-item-text"]/div[@class="item-text-body"]').extract()
        game_reivew_author = selector.xpath('//span[@class="taptap-user"]/a/text()').extract()
        reviewNo = 1
        review_dict = {}
        # 处理评论
        for review in game_reviews:

            # 计算每天评论量
            # time_day = time.strftime('%Y-%m-%d',time.localtime(int(game_review_times[reviewNo - 1])))
            # if review_dict.get(time_day):
            #     review_dict[time_day] += 1
            # else:
            #     review_dict[time_day] = 1

            review_lines = re.findall('<p>(.*?)</p>',review,re.S)
            review = ''
            for line in review_lines:
                review += line

            item = TaptapItem()
            item['Review_GID'] = Gid
            item['Review_content'] = review
            item['Review_Author'] = game_reivew_author[reviewNo-1]
            item['Reivew_Time'] = game_review_times[reviewNo-1]

            yield item

            print '评论%d:'%reviewNo
            print game_review_times[reviewNo-1]
            print review

            reviewNo += 1

        #评论下一页
        nextPage = selector.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
        if nextPage:
            next = nextPage[0]
            # print next
            yield scrapy.http.Request(next, callback=self.parse_two)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
痞子泰 2017-09-21 02:58
关注
请用下面的代码，不谢

yield scrapy.http.Request(next, callback=self.parse_two, dont_filter=True)
解决 5

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy yield request失效问题
2020-09-27 10:28

飞车穿越联盟的博客 1.出现的域名问题，可能yield request 中url允许的域名没有添加进去 allowed_domains = [‘www.search.51job.com’,‘www.jobs.51job.com’] 2.可以试试添加dont filter = true yield scrapy.Request(url=url, ...
关于Python Scrapy框架 yield scrapy.Request(next_url, call_back="")无法翻页情况解决
2018-08-11 18:42

GaryLea的博客 class XXSpider(scrapy.Spider): name = 'xxspider' allowed_domains = ['https://www.xx.com'] start_urls = ['https://www.xx.com/ask/highlight/'] 正确的代码: class XXSpider(scrapy.Spid...
yield scrapy.Request()无效的几种情况
2019-03-17 20:43

提莫_的博客 scrapy错误：yieldscrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request（）方法里面添加这么一个东东： yield Request(url, callback=self.parse_item,dont_filter=True) 如果发现...
六 Python之scrapy爬虫框架
2021-05-07 11:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_splash组件的使用 scrapy的日志信息与配置 scrapyd部署scrapy...
python模块之Scrapy爬虫框架
2023-10-05 20:37

局外人LZ的博客 Scrapy 是一个用于爬取网站数据的强大的开源 Python 框架。它提供了一个高级的抓取和数据提取工具集，使您能够快速、灵活地构建和扩展网络爬虫。强大的功能：Scrapy 提供了一套完整的工具和功能，包括请求调度、数据...
python之Scrapy爬虫案例：豆瓣
2023-10-23 00:00

局外人LZ的博客【代码】python之Scrapy爬虫案例：豆瓣。
【python爬虫】百度新闻爬虫Scrapy
2025-06-06 16:27

景元元大猫猫的博客本文介绍了使用Scrapy框架进行网页数据爬取的基本流程。内容包括项目创建、爬虫文件生成、爬虫运行设置以及反爬机制应对方法。...整个教程从环境搭建到实战案例，系统性地讲解了Scrapy爬虫的开发流程和常见问题
Python实例题：基于scrapy爬虫的天气数据采集
2025-05-18 00:48

狐凄的博客基于scrapy爬虫的天气数据采集(python)
Python爬虫【明星框架scrapy的基础使用】
2023-08-30 19:59

还有糕手的博客各位想过这个问题没有，我们在配置文件中直接把UA写死了，也就是说，从咱们发出去的请求，UA全部是一样的，这样对于爬虫本身是非常不利的，所以我们要让我们发出去的请求的UA是变化的。首先，一般全站爬取都是有页码...
Python3 scrapy 无法爬取下一页的问题
2019-05-06 21:47

weixin_30896825的博客导致request失效的原因有两个，下面是解决方法第一，更改代码 allowe_domains 内容 class XXSpider(scrapy.Spider): name = 'xxspider' allowed_domains = ['www.xx.com'] #一定不要带有https://开头 ...
没有解决我的问题, 去提问

Scrapy yield Request 失效问题

6条回答 默认 最新

6条回答默认最新