Scrapy yield Request 失效问题 2C

想爬一下 游戏信息和评论 评论,信息是分开的 所以用了两个方法
parse中 用yield 进入第二个方法 和回调自己 都没问题
parse two 中 用yield 回调就不行 但是也不报错 就是没有进行

def parse(self, response):
        #print response.body
        selector = scrapy.Selector(response)
        games = selector.xpath('//div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/@href').extract()
        for game in games:
            game = game + '/review'
            yield scrapy.http.Request(game, callback=self.parse_two)
            # print game

        #游戏列表下一页
        nextPage = selector.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
        if nextPage:
            next = nextPage[0]
            # print next
            yield scrapy.http.Request(next, callback=self.parse)

def parse_two(self,response):
        Gid = response.url[27:32]
        Gid = int(Gid)
        selector = scrapy.Selector(response)
        game_review_times = selector.xpath('//a[@class="text-header-time"]/span/@data-dynamic-time').extract()
        game_reviews = selector.xpath('//div[@class="review-item-text"]/div[@class="item-text-body"]').extract()
        game_reivew_author = selector.xpath('//span[@class="taptap-user"]/a/text()').extract()
        reviewNo = 1
        review_dict = {}
        # 处理评论
        for review in game_reviews:

            # 计算每天评论量
            # time_day = time.strftime('%Y-%m-%d',time.localtime(int(game_review_times[reviewNo - 1])))
            # if review_dict.get(time_day):
            #     review_dict[time_day] += 1
            # else:
            #     review_dict[time_day] = 1

            review_lines = re.findall('<p>(.*?)</p>',review,re.S)
            review = ''
            for line in review_lines:
                review += line

            item = TaptapItem()
            item['Review_GID'] = Gid
            item['Review_content'] = review
            item['Review_Author'] = game_reivew_author[reviewNo-1]
            item['Reivew_Time'] = game_review_times[reviewNo-1]

            yield item

            print '评论%d:'%reviewNo
            print game_review_times[reviewNo-1]
            print review

            reviewNo += 1

        #评论下一页
        nextPage = selector.xpath('//ul[@class="pagination"]/li[last()]/a/@href').extract()
        if nextPage:
            next = nextPage[0]
            # print next
            yield scrapy.http.Request(next, callback=self.parse_two)


6个回答

请用下面的代码,不谢

 yield scrapy.http.Request(next, callback=self.parse_two, dont_filter=True)
qq_40626141
qq_40626141 这个正解!!!!!
接近 2 年之前 回复

解决了吗?我也是类似的问题。在网页多层的情况下,只执行了1层。第二层的yield Requset不执行

qq_34530847
qq_34530847 解决了吗现在
接近 2 年之前 回复

刚才也遇到这个问题,已经解决,各位检查一下你们不执行的Request的url是不是不在allowed_domains里.我刚才就是这个问题,忘了添加进去了

还有一种方法,就是在yield scrapy.Request()里添加dont_filter=True

楼上方法不能用啊,楼主解决了没有

看看setting.py中的请求头,就设置一个User-Agent看看

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问