Scrapy框架在meta传值时少了一组结果，什么导致的？

问题：

爬取网站：http://www.52jingsai.com/bisai/keji/index.php?jsstatus=2&jssort=0
目的：按照标签爬取每个竞赛的信息
spider代码：

class CsSpider(scrapy.Spider):
    name = 'cs'
    allowed_domains = ['52jingsai.com']
    start_urls = ['http://www.52jingsai.com/bisai/keji/index.php?jsstatus=2&jssort=0']
    # 获取活动对象标签
    def parse(self, response):
        li_lst = [i.xpath('.//a/@href').get() for i in response.xpath('//div[@class="js"]/div[2]/ul/li')[2::]]
        li_text = [i.xpath('.//a/text()').get().strip() for i in response.xpath('//div[@class="js"]/div[2]/ul/li')[2::]]
        for num in range(len(li_lst)):
            item = CompetitionsItem(competition_level=li_text[num])
            yield scrapy.Request(
                url=li_lst[num],
                callback=self.order_parse,
                meta={'item': deepcopy(item)}
            )
    # 获取竞赛排序标签
    def order_parse(self, response):
        item = response.meta.get('item')
        li_lst = [i.xpath('./@href').get() for i in response.xpath('//div[@class="js"]/div[3]/ul/li/a')]
        li_text = [i.xpath('./text()').get() for i in response.xpath('//div[@class="js"]/div[3]/ul/li/a')]
        for num in range(len(li_lst)):
            item['competitions_label'] = li_text[num]
            yield scrapy.Request(
                url=li_lst[num],
                callback=self.details,
                meta={'item': deepcopy(item)}
            )
    # 获取详细信息
    def details(self, response):
        print(response.meta['item'])

这是怎么回事？第一次见，求解！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN专家-HGJ 2021-08-04 14:32

关注

不知你代码中CompetitionsItem这个类是如何定义的，检查一下CompetitionsItem，代码写成如下可以获取竞赛标签信息。

import scrapy
from copy import deepcopy
class CompetitionsItem(scrapy.Item):
    competition_level=scrapy.Field()
    competitions_label=scrapy.Field()

class CsSpider(scrapy.Spider):
    name = 'cs'
    allowed_domains = ['52jingsai.com']
    start_urls = [
        'http://www.52jingsai.com/bisai/keji/index.php?jsstatus=2&jssort=0']
    # 获取活动对象标签

    def parse(self, response):
        li_lst = [i.xpath('.//a/@href').get()
                  for i in response.xpath('//div[@class="js"]/div[2]/ul/li')[2::]]
        li_text = [i.xpath('.//a/text()').get().strip()
                   for i in response.xpath('//div[@class="js"]/div[2]/ul/li')[2::]]
        for num in range(len(li_lst)):
            item = CompetitionsItem(competition_level=li_text[num])
            yield scrapy.Request(
                url=li_lst[num],
                callback=self.order_parse,
                meta={'item': deepcopy(item)}
            )
    # 获取竞赛排序标签

    def order_parse(self, response):
        item = response.meta.get('item')
        li_lst = [i.xpath('./@href').get()
                  for i in response.xpath('//div[@class="js"]/div[3]/ul/li/a')]
        li_text = [i.xpath('./text()').get()
                   for i in response.xpath('//div[@class="js"]/div[3]/ul/li/a')]
        for num in range(len(li_lst)):
            item['competitions_label'] = li_text[num]
            yield scrapy.Request(
                url=li_lst[num],
                callback=self.details,
                meta={'item': deepcopy(item)}
            )
    # 获取详细信息

    def details(self, response):
        print(response.meta['item'])

#输出：
{'competition_level': '全国', 'competitions_label': '热门'}
{'competition_level': '全国', 'competitions_label': '推荐'}
{'competition_level': '国际', 'competitions_label': '热门'}
{'competition_level': '全国', 'competitions_label': '最新'}
{'competition_level': '国际', 'competitions_label': '推荐'}
{'competition_level': '国际', 'competitions_label': '最新'}
{'competition_level': '各省', 'competitions_label': '推荐'}
{'competition_level': '各省', 'competitions_label': '热门'}

报告相同问题？

关注问题

Python 最常见的 170 道面试题解析：2019 最新
2019-06-03 23:30

蔚1的博客 Python 今年还是很火，不仅是编程语言排行榜前二，更成为互联网公司最火热的招聘职位之一。伴随而来的则是面试题目越来越全面和深入化。有的时候不是你不会，而是触及到你的工作边缘，并没有更多的使用，可是面试却...
Python学到什么程度可以面试工作？
2020-08-06 11:16

qq330077的博客一、基础知识我觉得这张图谱是按照从毫无基础学Python到Python应用，再到人工智能的基本学习流程，至少我和我身边的朋友都是按这个顺序学习的。就我自己而言，我是先把基础都看完，再去往深了应用去训练，不过...
学python可以做什么知乎-Python学到什么程度可以面试工作？
2020-11-01 13:25

weixin_37988176的博客基础知识、数据分析、爬虫实战、后台开发实战以及人工智能实战项目，都包含了）一、基础知识2、数据分析3、爬虫4、后台开发实战5、人工智能基础6、人工智能实战我觉得这张图谱是按照从毫无基础学Python到Python应用...
自学Python第二十二天- Django框架(一)创建项目、APP、快速上手、请求和响应流程、模板、数据库操作
2022-08-04 14:39

runsong911的博客自学Python第二十二天- Django框架
python能做什么工作知乎-Python学到什么程度可以面试工作？
2020-10-30 23:26

weixin_37988176的博客基础知识、数据分析、爬虫实战、后台开发实战以及人工智能实战项目，都包含了）一、基础知识2、数据分析3、爬虫4、后台开发实战5、人工智能基础6、人工智能实战我觉得这张图谱是按照从毫无基础学Python到Python应用...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
2017-01-05 15:01

weixin_30955341的博客关于Scrapy如何安装部署的文章已经相当多了，但是网上实战的例子还不是很多，近来正好在学习该爬虫框架，就简单写了个Spider Demo来实践。作为硬件数码控，我选择了经常光顾的中关村在线的手机页面进行爬取，大体...
Scrapy 框架 - 爬虫 / itemloader
2019-02-09 05:46

weixin_33696822的博客由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据。简单来说就是帮助你爬取数据的地方内部行为流程初始请求以及默认回调生成初始的 ...
Python面试技巧合集（建议收藏）
2022-09-19 16:58

AudiA6LV6的博客如何使用生成式的方式生成一个字典，写一段功能代码。28. (1)s="info：xiaoZhang 33 shandong"，用正则切分字符串输出['info', 'xiaoZhang', '33', 'shandong'](2) a = "你好中国 "，去除多余空格只留一个空格。33....
python学到什么程度可以找到工作-Python学到什么程度可以面试工作？
2020-10-28 22:44

编程大乐趣的博客基础知识、数据分析、爬虫实战、后台开发实战以及人工智能实战项目，都包含了）一、基础知识2、数据分析3、爬虫4、后台开发实战5、人工智能基础6、人工智能实战我觉得这张图谱是按照从毫无基础学Python到Python应用...
Python 爬虫面试题 170 道
2019-07-05 12:48

蔚1的博客最近在刷面试题，看了网络上大量的 Python 相关面试题后，我发现了这几个问题：有些还是 Python2 的代码回答的很简单，关键的题目没有点出为什么一些复制粘贴的代码根本就跑不通这几个问题相信大家深有...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月4日

Scrapy框架在meta传值时少了一组结果，什么导致的？

1条回答 默认 最新

问题事件

1条回答默认最新