scrapy parse中的item在遍历的时候无法和自定义方法中的item关联

	    def parse(self, response, **kwargs):
        item = TuiqiuspiderproItem()
        # item = response.meta['item']
        resp = response.json()
        articles = resp['articles']
        for article in articles:
            if article['is_video'] is False and compTime(article['published_at']):
                item['title'] = article['title']
                item['publish_time'] = article['published_at']
                item['source_href'] = article['share']
                item['tag'] = resp['label']
                data = scrapy.Request(url=article['share'], callback=self._article, meta={'item': item}, dont_filter=False)
                data.meta['item'] = item
                yield data

    def _article(self, response):
        item = response.meta['item']
        soup = BeautifulSoup(response.text, 'lxml')
        comments = soup.findAll(text=lambda text: isinstance(text, Comment))
        [comment.extract() for comment in comments]
        try:
            article = soup.find("div", {"class": "news-left"})
            tips = article.find('p', {"class": "tips"}).find_all('span')
            if tips and len(tips) > 1:
                item['author'] = tips[1].get_text()
            else:
                item['author'] = tips[0].get_text()
            self.saveImages(article)
            # del article_pc.find('div', {'class': 'con'}).find("div").attrs['style']
            item['content'] = str(delattrs(article.find('div', {'class': 'con'}))).replace(
                "data-src", "src")
        except Exception as e:
            pass
        author = response.xpath('.//div[@class="news-left"]/p[@class="tips"]/span/text()').extract_first()
        item['author'] = author
        # item['content'] = response.xpath('.//div[@class="con"]').extract_first()
        yield item

国足
中超
亚冠
足协杯
中甲
女足
足球报

{'tag': '足球报',
'urls': 'https://sports.sina.com.cn/china/national/2021-04-22/doc-ikmxzfmk8227567.shtml'}
{'tag': '足球报', 'urls': None}
{'tag': '足球报', 'urls': None}
{'tag': '足球报',
'urls': 'https://sports.sina.com.cn/china/j/2021-03-22/doc-ikkntiam6093941.shtml'}
{'tag': '足球报', 'urls': None}
{'tag': '足球报', 'urls': None}
{'tag': '足球报', 'urls': None}

字典中的tag没有和上面的对应

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-赖老师（软件之家） 2021-04-22 10:06
关注
能具体说明一下那一行代码的问题吗？没有说明不好找呀。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy parse中存在遍历，每次返回的数据都一样
2021-04-21 17:08

@吃瓜群众研究中心的博客 scrapy parse中存在遍历，每次返回的数据都一样parse中的数据每次遍历都是一样 parse中的数据每次遍历都是一样返回的data数据中 title，publish_time，source_href，tag 每次遍历都是一样的 def parse(self, ...
scrapy中的yield scrapy.Request 在传递item 的注意点
2019-12-10 11:29

别挡着我发光的博客在用scrapy框架的时候在很多情况下会出现要爬取一个列表页面和一个详情页面的情况，这个时候通常会使用yield 来发起一个请求，并通过 callback 参数为这个请求添加回调函数，在请求完成之后会将响应作为参数传递给回...
Python爬虫是scrapy框架中ItemLoaders使用解析
2018-07-10 20:55

MXuDong的博客作用：之前的方式（使用response.xpath（）或response.css(）提取数据然后直接处理数据），是将数据的提取和解析混合在一起，但是Item Loaders是将这两个部分分开处理了； A、爬虫文件bole.py中只负责数据的提取...
Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse
2024-05-02 23:55

2401_84584583的博客这里parse_item()方法的实现如下所示： def parse_item(self, response): item = NewsItem() item[‘title’] = response.xpath(‘//h1[@id=“chan_newsTitle”]/text()’).extract_first() item[‘url’] = ...
Python爬虫之Scrapy框架基础入门
2024-12-12 14:03

计算机软件程序设计的博客在Scrapy中，Item是被用来保存抓取到的数据的容器。你可以定义自己的Item类，类似于Python字典，但是提供了额外保护机制和便利方法。Item通常定义在items.py文件中。
scrapy爬虫，将不同页面元素整理到同一个Item中
2019-04-18 19:37

when will...的博客 scrapy爬虫，将不同页面元素整理到同一个Item中今天写scrapy过程时，碰到一个问题：需要将两个页面中的元素给整合到同一个 Item 中。解决方法参见官方文档下面只是对官方文档做一下解释： Example: def parse_...
python scrapy爬虫代码及填坑
2020-09-18 20:37

它定位到页面中包含小说名称和链接的元素，然后为每个链接生成一个新的请求，传递给`parse_book`方法，同时在请求的meta参数中存储书名信息。 `parse_book`方法处理单本书的详细信息，提取出章节名称和对应的URL。...
yield的使用和在scrapy框架中的使用
2022-08-16 10:34

滴滴答答滴滴答的博客关于yield的使用说明和在scrapy中的使用说明
Scrapy爬虫框架 ItemLoader 数据加载器
2021-02-01 17:33

Mr数据杨的博客在 Scrapy 框架中，ItemLoader是一个用于简化数据提取和清洗的强大工具。它将数据的提取、清洗和加载集中在一起，减少了重复代码，并提高了抓取数据的质量和一致性。通过ItemLoader，可以在抓取数据的过程中应用各种...
python中爬取到数据以item封装数据存储到mysql
2019-01-20 12:43

看上去很美、的博客例子：要求 1.安装mysql数据库. 2.安装pip install pymysql. ...4.在爬虫项目中: 自定义itemPipelines管道. 处理爬虫结果,并存储至mysql中. 需求: 51job/智联招聘.带分页的爬取和数据的存储. ...
没有解决我的问题, 去提问

scrapy parse中的item在遍历的时候无法和自定义方法中的item关联

2条回答 默认 最新

2条回答默认最新