scrapy pase调用自定义函数每次每次遍历得到的数据都是一样的，只有自定义中的数据是不一样的

def parse(self, response, *args):
    item = TuiqiuspiderproItem()
    resp = response.json()
    for article in resp['articles']:
        if compTime(article['published_at']) and article['channel'] != "mini_top" and article['is_video'] is False:
            item['publish_time'] = article['published_at']
            item['tag'] = resp['label']
            item['source_href'] = article['share']
            item['source'] = "——"
            data = scrapy.Request(url=article['share'], callback=self._article, meta={'item': item})
            data.meta['item'] = item
            yied data
def _article(self, response):
    item = response.meta['item']
    soup = BeautifulSoup(response.text, 'lxml')
    comments = soup.findAll(text=lambda text: isinstance(text, Comment))
    [comment.extract() for comment in comments]
    try:
            article = soup.find("div", {"class": "news-left"})
            tips = article.find('p', {"class": "tips"}).find_all('span')
            if tips and len(tips) > 1:
                item['author'] = tips[1].get_text()
            else:
                item['author'] = tips[0].get_text()
        except Exception as e:
            pass
        author = response.xpath('.//div[@class="news-left"]/p[@class="tips"]/span/text()').extract_first()
        item['author'] = author
        item['content'] = response.xpath('.//div[@class="con"]').extract_first()
        yield item

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
@吃瓜群众研究中心 2021-04-22 11:12
关注
pase 中的item每次遍历都是一样的，只有_articel中的item是数据是一样的，怎么解决每次遍历返回的数据

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python scapy 函数,Python scrapy 自定义函数无法调用。
2021-04-26 18:03

weixin_39963080的博客爬取一个网页时，遇到一个非常奇怪的问题，如果使用自定义函数，那么yield item 没有调用。爬取的链接：http://www.duilian360.com/chu...代码如下：import scrapyfrom shufa.items import DuilianItemclass ...
【python|scrapy】yield scrapy.Request在自定义函数中调用没有执行
2022-09-14 22:16

胡侃有料的博客 yield scrapy.Ruequest自定义函数中调用不被执行
scrapy自定义pipeline类实现将采集数据保存到mongodb的方法
2020-09-10 10:24

Scrapy 是一个强大的 Python 爬虫框架，它允许开发者高效地编写爬虫程序来抓取网络上的数据。在 Scrapy 中，Pipeline 是一个关键组件，用于处理 Item（即抓取到的数据）在爬取过程中的流程，如清洗、验证、存储等。...
python自定义函数保留字是,python的自定义函数
2021-04-27 10:46

GrapeDoor的博客今天想把上次参考着网上教程写的scrapy爬虫改写成requests和...0x01：关键字python中，自定义函数使用def关键字，后面加函数名和参数列表，如下：def 函数名(参数列表):函数体如果不需要传参，括号里就不用填，注意...
Python使用scrapy采集数据过程中放回下载过大页面的方法
2020-09-22 06:34

在Python的Web爬虫开发中，Scrapy是一个强大的框架，用于高效地抓取网页并提取结构化数据。在处理大规模网站或资源有限的环境中，有时我们需要避免下载过大的页面，以节省带宽和存储空间，同时也减少处理时间。本篇...
如何在scrapy种写一个自定义函数
2023-02-13 17:49

Jay星晴的博客在Scrapy中写一个自定义函数，需要在spider中进行定义。...在spider中调用自定义函数，并使用自定义函数处理数据。例如： import re class MySpider(scrapy.Spider): ... def extract_numb...
Python自定义scrapy中间模块避免重复采集的方法
2020-09-22 06:48

主要介绍了Python自定义scrapy中间模块避免重复采集的方法,实例分析了Python实现采集的技巧,非常具有实用价值,需要的朋友可以参考下
Python爬虫-scrapy-城市二手房数据爬取与保存
2023-01-09 12:35

Python爬虫技术在数据获取领域扮演着至关重要的角色，特别是在房地产数据分析中，它能帮助我们高效地抓取网络上的二手房信息。本项目专注于利用Scrapy框架来实现这一目标，Scrapy是一个强大的Python爬虫框架，它提供...
scrapy parse中存在遍历，每次返回的数据都一样
2021-04-21 17:08

@吃瓜群众研究中心的博客 scrapy parse中存在遍历，每次返回的数据都一样parse中的数据每次遍历都是一样 parse中的数据每次遍历都是一样返回的data数据中 title，publish_time，source_href，tag 每次遍历都是一样的 def parse(self, ...
python数据分析之爬虫基础：scrapy详解
2024-12-21 14:41

风是无色的河的博客 scrapy是一个用python编写的开源网络爬虫框架，用于高效地从网站上抓取信息并提取结构化数据。特点：速度快、简单、可扩展性强。
没有解决我的问题, 去提问

scrapy pase调用自定义函数每次每次遍历得到的数据都是一样的，只有自定义中的数据是不一样的

1条回答 默认 最新

1条回答默认最新