pycharm的scrapy包爬虫时重复获取同一条数据

请问这种问题该怎么解决啊？

pycharm的scrapy包爬虫时重复获取同一条数据，
用yield传输之后
csv文件里除了第一行为列名以外，所有行的内容都是一样的，重复该网页目标区的某一条消息（多次运行生成的不同），比该网页目标区的此条信息总量还多

运行语句为：

scrapy crawl eshouse -o eshouse.csv

以下为我的主代码与补充代码

import scrapy
from scrapy import Selector,Request
from zhihuSpider.items import eshouseItem 
 #Item的class放在下一个代码块


class EshousespiderSpider(scrapy.Spider):
    name = "eshouse"
    allowed_domains = ["cd.esf.fang.com"]
    start_urls = ["https://cd.esf.fang.com/"]

    def parse(self, response):
        sel=Selector(response)
        list_items=sel.css('body > div.main1200.clearfix > div.main945.floatl > div.shop_list.shop_list_4 > dl')
        for list_item in list_items:
            item=eshouseItem()
            a=sel.css('dl > dd:nth-child(2) > h4 > a > span::text').extract_first()
            item['title']=a.replace('\n\t\t\t\t\t\t\t\t\t\t\t\t','')
            item['price']=sel.css('dl > dd.price_right > span.red > b::text').extract_first()
            item['priceper']=sel.css('dl > dd.price_right > span:nth-child(2)::text').extract_first()
            item['jiegou']=sel.css('dl > dd:nth-child(2) > p.tel_shop >a::text').extract_first()
            item['transfer'] = sel.css('dl > dd:nth-child(2) > p.clearfix.label > span::text').extract_first()
            item['positive'] = sel.css('dl > dd:nth-child(2) > p.clearfix.label > span::text').extract_first()
            item["url"] = list_item.css("dl > dd:nth-child(2) > h4 > a::attr(href)").extract_first()
            print('\n\n\n\n\n\n\n\n\n\n',item['title'])
            yield item


class eshouseItem(scrapy.Item):
    title=scrapy.Field()
    price=scrapy.Field()
    priceper=scrapy.Field()
    jiegou=scrapy.Field()
    transfer=scrapy.Field()
    positive=scrapy.Field()
    url=scrapy.Field()

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
leoton 2023-07-06 14:32
关注
在使用Scrapy框架进行爬虫时，重复获取同一条数据通常是由于爬虫逻辑或配置问题引起的。以下是一些可能导致重复获取数据的常见原因和解决方法：

爬虫逻辑问题：检查您的爬虫代码，确保您的爬虫逻辑正确处理了重复数据的情况。您可以使用yield语句返回爬取的数据，并在parse方法中使用Request对象设置回调函数来处理下一页的请求。

去重过滤器配置：Scrapy提供了去重过滤器来防止重复爬取相同的URL。确保您正确配置了去重过滤器，以避免重复获取相同的数据。在settings.py文件中，确保以下配置项正确设置：

DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

数据库或存储方式问题：如果您将爬取的数据存储到数据库或其他存储方式中，确保您的存储逻辑正确处理了重复数据的情况。您可以在存储之前检查数据是否已存在，并根据需要进行更新或忽略。

请求参数问题：如果您的请求参数不正确或不完整，可能会导致重复获取相同的数据。确保您的请求参数正确设置，并且每个请求都具有唯一的标识符，以便服务器正确响应。

日志调试：使用Scrapy的日志功能进行调试，查看爬虫运行时的日志输出，以确定重复获取数据的具体原因。您可以在settings.py文件中设置日志级别，以便更详细地查看日志信息。

通过检查上述问题，并根据具体情况进行调试和修改，您应该能够解决重复获取同一条数据的问题。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据采集与预处理之爬虫
2023-09-22 09:41

浅苏.的博客爬虫概念：按照一定规则，自动请求万维网，并获取网页内容爬虫法律规范：robots君子协议爬虫限制：非法不允许（密码明令禁止的）服务器会做什么：反爬（检查你的信息（修改头部信息）；速度（降低速度）；半永久...
利用scrapy框架进行数据的爬取
2020-07-09 12:45

Studying！！！的博客 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。其内部已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）。对于框架的学习，重点是要学习其框架的特性、...
爬虫工具的使用(fiddler连接手机、scrapy项目部署到scrapyd、scrapy和gerapy部署网络爬虫)
2021-03-01 00:29

yytkkn的博客 python—爬虫工具的使用学习内容： 1、fiddler连接手机 2、scrapy项目部署到scrapyd 1、fiddler连接手机 1、安装fiddler软件，然后点击Tools—》》》Options 获取所有的进程信息： 2、获取手机端的证书点击...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客模拟浏览器，发送请求，获取响应网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端...
探索后端领域爬虫的分布式架构
2025-04-21 20:28

AI应用开发实战派的博客爬虫作为一种自动获取网页数据的工具，在信息采集、市场调研、舆情监测等领域发挥着重要作用。然而，随着互联网数据量的不断增长和网站反爬虫机制的日益完善，传统的单机爬虫在处理效率、数据采集速度和稳定性等方面...
搜索领域爬虫：打造高效的数据采集链
2025-05-28 21:30

AI 搜索引擎技术的博客传统单体爬虫在面对大规模、反爬严格的目标网站时，常面临效率低下、稳定性差、数据质量不足等问题。本文旨在构建一套覆盖“目标解析-请求调度-反爬对抗-数据处理-分布式扩展”全流程的高效数据采集链，解决企业级...
搜索引擎爬虫开发：如何实现定时爬取任务
2025-05-15 23:49

光子AI的博客随着互联网数据爆炸式增长，搜索引擎需要高效的定时爬取机制来持续更新索引库。定时爬取的核心技术原理（时间调度算法、任务队列模型）单机及分布式环境下的工程实现方案反爬机制与增量爬取策略的集成大规模爬虫系统...
Python基于flask的起点小说数据分析与可视化平台爬虫
2026-03-12 07:33

计算机专业源码的博客构建一个高效稳定的爬虫系统，用于抓取起点中文网（qidian.com）的小说数据，包括书名、作者、分类、字数、评分、章节内容等关键信息，为后续数据分析与可视化提供数据支撑。AI续写、AI优化、AI校对、AI翻译:新增AI...
环境空气质量数据采集与分析系统设计与实现
2024-08-01 21:29

专业毕设vx bishe333的博客本章主要分析了系统开发过程中使用到的技术点和框架，通过研究这些技术的原理后，在本设计中加以应用，包括天气环境空气质量数据采集的爬虫技术，数据持久化存储技术，以及基于Flask框架的系统后台技术，通过预研...
搜索引擎爬虫开发：如何实现异步爬取
2025-05-09 00:58

AI 搜索引擎技术的博客本文旨在解决传统同步爬虫在大规模数据采集场景下的性能瓶颈问题，系统阐述异步爬取技术的实现原理、核心算法和工程实践方法。内容覆盖从基础概念到复杂系统设计的全流程，包括异步IO模型、协程调度、网络请求优化、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月5日