oicp5541 2023-03-07 18:36 采纳率: 57.1%
浏览 21
已结题

关于#scrapy#的问题,如何解决?

scrapy爬虫框架爬取数据就第一个标题链接的数据,无法找到原因

import scrapy
from fl.items import FlItem


class XsSpider(scrapy.Spider):
    name = "xs"
    allowed_domains = ["b.faloo.com"]
    start_urls = ["https://b.faloo.com/html_1270_1270410/"]

    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas:
            name = a.xpath('./a/span/text()').get()
            link = a.xpath('./a/@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

    def parse_li(self, response):
        item = FlItem()
        item['name'] = response.meta['name']
        item['datas'] = response.xpath('//*[@id="center"]/div/div[5]/p//text()').getall()
        yield item

  • 写回答

2条回答 默认 最新

  • CQ.abc 2023-03-07 19:25
    关注

    从代码看,你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块,而没有对其他数据块进行处理。

    你可以尝试使用循环迭代数据块,以便对每个数据块进行相同的处理。例如,以下是一个更新过的parse函数,它可以对每个数据块进行迭代处理:

    
    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas.xpath('.//a'):
            name = a.xpath('./span/text()').get()
            link = a.xpath('./@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})
    
    

    这里我将datas对象更改为数据块中的所有链接标签。然后,使用循环迭代每个链接标签,并提取name和link变量的值。最后,使用提取的link变量构造URL,以便发送到parse_li回调函数进行处理。
    回答不易,望采纳!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月15日
  • 已采纳回答 3月7日
  • 创建了问题 3月7日

悬赏问题

  • ¥20 while循环中OLED显示中断中的数据不正确
  • ¥15 这个视频里的stm32f4代码是怎么写的
  • ¥15 串口发送数据和接收数据
  • ¥15 JNA调用DLL报堆栈溢出错误(0xC00000FD)
  • ¥15 请教SGeMs软件的使用
  • ¥15 自己用vb.net编写了一个dll文件,如何只给授权的用户使用这个dll文件进行打包编译,未授权用户不能进行打包编译操作?
  • ¥50 深度学习运行代码直接中断
  • ¥20 需要完整的共散射点成像代码
  • ¥15 编写vba代码实现数据录入工作
  • ¥15 做过TCL海信电视小米电视相关影视会员软件私我