Scrapy爬取下来的数据不全，为什么总会有遗漏？

本人小白一枚，刚接触Scrapy框架没多久，写了一个简单的Spider，但是发现每一次爬取后的结果都比网页上的真实数据量要少，比如网站上一共有100条，但我爬下来的结果一般会少几条至几十条不等，很少有100条齐的时候。
整个爬虫有两部分，一部分是页面的横向爬取（进入下一页），另一个是纵向的爬取（进入页面中每一产品的详细页面）。之前我一直以为是pipelines存储到excel的时候数据丢失了，后来经过Debug调试，发现是在Spider中，数据就遗漏了，def parse函数中的item数量是齐的，包括yield Request加入到队列中，但是调用def parse_item函数时，就有些产品的详细页面无法进入。这是什么原因呢，是因为Scrapy异步加载受网速之类的影响么，本身就有缺陷，还是说是我设计上面的问题？有什么解决的方法么，不然数据量一大那丢失的不是就很严重么。

求帮助，谢谢各位了。

 class MyFirstSpider(Spider):
    name = "MyFirstSpider"
    allowed_doamins = ["e-shenhua.com"]
    start_urls = ["https://www.e-shenhua.com/ec/auction/oilAuctionList.jsp?_DARGS=/ec/auction/oilAuctionList.jsp"]
    url = 'https://www.e-shenhua.com/ec/auction/oilAuctionList.jsp'

    def parse(self, response):

        items = []
        selector = Selector(response)
        contents = selector.xpath('//table[@class="table expandable table-striped"]/tbody/tr')
        urldomain = 'https://www.e-shenhua.com'

        for content in contents:
            item = CyfirstItem()
            productId = content.xpath('td/a/text()').extract()[0].strip()
            productUrl = content.xpath('td/a/@href').extract()[0]
            totalUrl = urldomain + productUrl
            productName = content.xpath('td/a/text()').extract()[1].strip()
            deliveryArea = content.xpath('td/text()').extract()[-5].strip()
            saleUnit = content.xpath('td/text()').extract()[-4]

            item['productId'] = productId
            item['totalUrl'] = totalUrl
            item['productName'] = productName
            item['deliveryArea'] = deliveryArea
            item['saleUnit'] = saleUnit

            items.append(item)

            print(len(items))

        # **************进入每个产品的子网页
        for item in items:
            yield Request(item['totalUrl'],meta={'item':item},callback=self.parse_item)
            # print(item['productId'])

        # 下一页的跳转
        nowpage = selector.xpath('//div[@class="pagination pagination-small"]/ul/li[@class="active"]/a/text()').extract()[0]
        nextpage = int(nowpage) + 1
        str_nextpage = str(nextpage)
        nextLink = selector.xpath('//div[@class="pagination pagination-small"]/ul/li[last()]/a/@onclick').extract()
        if (len(nextLink)):
            yield scrapy.FormRequest.from_response(response,
                                                   formdata={
                                                   ***************
                                                   },
                                                   callback = self.parse
                                                   )


    # 产品子网页内容的抓取
    def parse_item(self,response):
        sel = Selector(response)
        item = response.meta['item']

        # print(item['productId'])

        productInfo = sel.xpath('//div[@id="content-products-info"]/table/tbody/tr')
        titalBidQty = ''.join(productInfo.xpath('td[3]/text()').extract()).strip()
        titalBidUnit = ''.join(productInfo.xpath('td[3]/span/text()').extract())
        titalBid = titalBidQty + " " +titalBidUnit
        minBuyQty = ''.join(productInfo.xpath('td[4]/text()').extract()).strip()
        minBuyUnit = ''.join(productInfo.xpath('td[4]/span/text()').extract())
        minBuy = minBuyQty + " " + minBuyUnit

        isminVarUnit = ''.join(sel.xpath('//div[@id="content-products-info"]/table/thead/tr/th[5]/text()').extract())
        if(isminVarUnit == '最小变量单位'):
            minVarUnitsl = ''.join(productInfo.xpath('td[5]/text()').extract()).strip()
            minVarUnitdw = ''.join(productInfo.xpath('td[5]/span/text()').extract())
            minVarUnit = minVarUnitsl + " " + minVarUnitdw
            startPrice = ''.join(productInfo.xpath('td[6]/text()').extract()).strip().rstrip('/')
            minAddUnit = ''.join(productInfo.xpath('td[7]/text()').extract()).strip()
        else:
            minVarUnit = ''
            startPrice = ''.join(productInfo.xpath('td[5]/text()').extract()).strip().rstrip('/')
            minAddUnit = ''.join(productInfo.xpath('td[6]/text()').extract()).strip()

        item['titalBid'] = titalBid
        item['minBuyQty'] = minBuy
        item['minVarUnit'] = minVarUnit
        item['startPrice'] = startPrice
        item['minAddUnit'] = minAddUnit
        # print(item)
        return item

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2018-08-21 15:42
关注
https://bbs.csdn.net/topics/392186241

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy爬取疫情数据
2022-06-04 17:41

scrapy爬取百度疫情数据平台数据存入数据库，需要首先配置数据库， scrapy startproject yqsj 命令行执行代码文件项目是国内国外疫情数据，爬取执行时间长，需要耐心等待
scrapy爬取当当网数据
2024-11-22 17:39

Scrapy是Python开发的一个快速高级的网页爬取框架，主要用于爬取网页并从页面中提取结构化数据。当当网是中国知名的在线零售商，提供大量的图书、音像、电子产品等商品信息。使用Scrapy爬取当当网数据需要了解几个...
Scrapy爬取数据，并使用Django框架+PyEcharts实现可视化大屏
2023-06-09 17:45

Scrapy爬取去哪儿网，并使用Django框架+PyEcharts实现可视化大屏。 Scrapy爬取去哪儿网，并使用Django框架+PyEcharts实现可视化大屏。 Scrapy爬取去哪儿网，并使用Django框架+PyEcharts实现可视化大屏。 Scrapy爬取...
Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发
2021-05-27 16:52

在本项目中，我们利用Scrapy来爬取新浪微博的用户信息、用户的微博内容以及这些微博的评论和转发，这涉及到网络爬虫的基本原理、Scrapy组件的使用、网页解析以及数据存储等多个知识点。首先，了解网络爬虫的基本...
Scrapy爬取链家数据（一）：上手Scrapy框架
2024-09-21 22:13

somanybeans的博客最近在关注北京房价变化，关注策略...经过简单技术选型，决定采用scrapy框架完成上述数据爬取，使用mysql记录数据，记录数据样例如图所示。本系列文章包含爬取小区信息爬取房价信息具体实现及实现过程中问题处理方法。
基于scrapy爬取51job爬虫系统源码.zip
2024-03-05 15:08

基于scrapy爬取51job爬虫系统源码.zip 基于scrapy爬取51job爬虫系统源码.zip 基于scrapy爬取51job爬虫系统源码.zip 基于scrapy爬取51job爬虫系统源码.zip 基于scrapy爬取51job爬虫系统源码.zip 基于scrapy爬取51job...
Python爬虫 | 如何使用爬虫框架scrapy爬取分页数据案例演示
2023-10-06 11:00

白帽黑客艾登的博客并爬取第1~5页数据中第2条。
scrapy爬取某官方平台新冠疫情数据
2022-05-18 11:42

scrapy爬取全球新冠疫情数据，请自行部署环境，scrapy,mysql cd 到所在文件位置执行scrapy crawl spider命令数据繁多，请耐心等待运行。适合编程小白入门。
Scrapy 爬取数据时遇到网络延迟导致数据抓不全的解决方案。
2019-07-10 04:01

Geraldz的博客在使用python的scrapy框架进行爬取外贸网站ebay上某类别产品销量时，我遇到了这个问题，每次爬取数据十个里面总有两三个会遗漏，有时候甚至连着四五条数据被遗漏。这个问题一直困扰了我好几天。一开始以为是并发开...
没有解决我的问题, 去提问

Scrapy爬取下来的数据不全，为什么总会有遗漏？

1条回答 默认 最新

1条回答默认最新