pycharm的scrapy包爬虫时重复获取同一条数据

请问这种问题该怎么解决啊？

pycharm的scrapy包爬虫时重复获取同一条数据，
用yield传输之后
csv文件里除了第一行为列名以外，所有行的内容都是一样的，重复该网页目标区的某一条消息（多次运行生成的不同），比该网页目标区的此条信息总量还多

运行语句为：

scrapy crawl eshouse -o eshouse.csv

以下为我的主代码与补充代码

import scrapy
from scrapy import Selector,Request
from zhihuSpider.items import eshouseItem 
 #Item的class放在下一个代码块


class EshousespiderSpider(scrapy.Spider):
    name = "eshouse"
    allowed_domains = ["cd.esf.fang.com"]
    start_urls = ["https://cd.esf.fang.com/"]

    def parse(self, response):
        sel=Selector(response)
        list_items=sel.css('body > div.main1200.clearfix > div.main945.floatl > div.shop_list.shop_list_4 > dl')
        for list_item in list_items:
            item=eshouseItem()
            a=sel.css('dl > dd:nth-child(2) > h4 > a > span::text').extract_first()
            item['title']=a.replace('\n\t\t\t\t\t\t\t\t\t\t\t\t','')
            item['price']=sel.css('dl > dd.price_right > span.red > b::text').extract_first()
            item['priceper']=sel.css('dl > dd.price_right > span:nth-child(2)::text').extract_first()
            item['jiegou']=sel.css('dl > dd:nth-child(2) > p.tel_shop >a::text').extract_first()
            item['transfer'] = sel.css('dl > dd:nth-child(2) > p.clearfix.label > span::text').extract_first()
            item['positive'] = sel.css('dl > dd:nth-child(2) > p.clearfix.label > span::text').extract_first()
            item["url"] = list_item.css("dl > dd:nth-child(2) > h4 > a::attr(href)").extract_first()
            print('\n\n\n\n\n\n\n\n\n\n',item['title'])
            yield item


class eshouseItem(scrapy.Item):
    title=scrapy.Field()
    price=scrapy.Field()
    priceper=scrapy.Field()
    jiegou=scrapy.Field()
    transfer=scrapy.Field()
    positive=scrapy.Field()
    url=scrapy.Field()

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
leoton 2023-07-06 14:32
关注
在使用Scrapy框架进行爬虫时，重复获取同一条数据通常是由于爬虫逻辑或配置问题引起的。以下是一些可能导致重复获取数据的常见原因和解决方法：

爬虫逻辑问题：检查您的爬虫代码，确保您的爬虫逻辑正确处理了重复数据的情况。您可以使用yield语句返回爬取的数据，并在parse方法中使用Request对象设置回调函数来处理下一页的请求。

去重过滤器配置：Scrapy提供了去重过滤器来防止重复爬取相同的URL。确保您正确配置了去重过滤器，以避免重复获取相同的数据。在settings.py文件中，确保以下配置项正确设置：

DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

数据库或存储方式问题：如果您将爬取的数据存储到数据库或其他存储方式中，确保您的存储逻辑正确处理了重复数据的情况。您可以在存储之前检查数据是否已存在，并根据需要进行更新或忽略。

请求参数问题：如果您的请求参数不正确或不完整，可能会导致重复获取相同的数据。确保您的请求参数正确设置，并且每个请求都具有唯一的标识符，以便服务器正确响应。

日志调试：使用Scrapy的日志功能进行调试，查看爬虫运行时的日志输出，以确定重复获取数据的具体原因。您可以在settings.py文件中设置日志级别，以便更详细地查看日志信息。

通过检查上述问题，并根据具体情况进行调试和修改，您应该能够解决重复获取同一条数据的问题。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pycharm添加包时提示加载包列表错误 pycharm
2021-09-06 19:43

回答 1 已采纳直接在pycharm的命令行用pip install selenium安装pycharm自带的这个不是很好用,好多人都说装不上有帮助望采纳
pycharm爬虫生成HTML文件时里面内容中文乱码 pycharm python 爬虫
2022-11-14 00:35

回答 2 已采纳保存时用utf-8编码with open("mybaiodu.html",mode = "w",encoding="utf-8") as f
如何解决pycharm爬取数据存入mysql时总会重复存入？ python
2021-10-25 14:23

回答 2 已采纳 1、mysql设置主键,2、入库前先去重1比较好点儿，如果是两份文件有重复的用2没法避免
大数据采集与预处理之爬虫
2023-09-22 09:41

浅苏.的博客爬虫概念：按照一定规则，自动请求万维网，并获取网页内容爬虫法律规范：robots君子协议爬虫限制：非法不允许（密码明令禁止的）服务器会做什么：反爬（检查你的信息（修改头部信息）；速度（降低速度）；半永久...
pycharm下爬虫不输出结果不报错 pycharm python
2021-06-30 16:58

回答 4 已采纳可能原因如下：doc内容为空，或者items内容为空，所以for循环没输出。
想用pycharm爬虫提取一个网页 pycharm python 爬虫
2021-07-30 00:11

回答 4 已采纳对你有帮助的话，建议采纳。
pycharm数据分析导入数据集，打印输出格式不一致 pycharm python 数据分析
2022-09-05 13:58

回答 1 已采纳 1,sklearn包自带数据集为列表，输出为字典键值对格式2，pandas用read_csv打开的是逐行读取输出为行列表格。可以转化为sklearn格式
爬虫工具的使用(fiddler连接手机、scrapy项目部署到scrapyd、scrapy和gerapy部署网络爬虫)
2021-03-01 00:29

yytkkn的博客 python—爬虫工具的使用学习内容： 1、fiddler连接手机 2、scrapy项目部署到scrapyd 1、fiddler连接手机 1、安装fiddler软件，然后点击Tools—》》》Options 获取所有的进程信息： 2、获取手机端的证书点击...
PyQt5+pycharm写游戏程序时打包出错 pycharm python 游戏程序
2022-10-23 11:35

回答 8 已采纳你好，如果方便的话可以加我微信，发源代码给我，我帮你看下是什么问题。PyQT和Pyinstaller我一直都有在用，比较熟悉。我的微信是：qczsbwjzjn
请问为什么，我无法创建scrapy爬虫项目 python 爬虫
2022-02-07 19:41

回答 1 已采纳库安装失败了
pycharm 编译单个语句时发现多个语句错误如何解决 pycharm python 爬虫
2022-03-11 00:24

回答 2 已采纳 print(resp.read())
利用scrapy框架进行数据的爬取
2020-07-09 12:45

Studying！！！的博客 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。其内部已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）。对于框架的学习，重点是要学习其框架的特性、...
pycharm打包项目，包含图片和声音资源 pycharm python 机器翻译
2023-02-06 12:28

回答 4 已采纳该回答引用ChatGPT请参考下面的解决方案，如果有帮助，还请点击 “采纳” 感谢支持！要使用PyCharm打包项目，您可以按照以下步骤： 1.安装需要的库：如果您使用了第三方库，请确保它们已安装在
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客模拟浏览器，发送请求，获取响应网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端...
爬虫教程（ 2 ） --- scrapy 教程、实战
2020-09-01 00:46

擒贼先擒王的博客 scrapy 教程、实战
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月5日

悬赏问题

¥15 关于 S7-PLCSIM Advanced 5.0本地TCP连接无法读写数据
¥15 关于温度改变石墨烯介电性能(关键词-介电常数)
¥150 HDMI分路器LT86102 的输出在890MHz频点处EMC超标8DB
¥15 druid（相关搜索：数据库|防火墙）
¥15 大一python作业
¥15 preLaunchTask"C/C++: aarch64- apple-darwin22-g++-14 生成活动文件”已终止，退出代码为-1。
¥60 如何鉴定微信小程序数据被篡改过
¥18 关于#贝叶斯概率#的问题：这篇文章中利用em算法求出了对数似然值作为概率表参数，然后进行概率表计算，这个概率表是怎样计算的呀
¥20 C#上传XML格式数据
¥15 elementui上传结合oss接口断点续传，现在只差停止上传和继续上传，各大精英看下

pycharm的scrapy包爬虫时重复获取同一条数据

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新