oicp5541 2023-03-07 18:36 采纳率: 57.1%
浏览 21
已结题

关于#scrapy#的问题,如何解决?

scrapy爬虫框架爬取数据就第一个标题链接的数据,无法找到原因

import scrapy
from fl.items import FlItem


class XsSpider(scrapy.Spider):
    name = "xs"
    allowed_domains = ["b.faloo.com"]
    start_urls = ["https://b.faloo.com/html_1270_1270410/"]

    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas:
            name = a.xpath('./a/span/text()').get()
            link = a.xpath('./a/@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

    def parse_li(self, response):
        item = FlItem()
        item['name'] = response.meta['name']
        item['datas'] = response.xpath('//*[@id="center"]/div/div[5]/p//text()').getall()
        yield item

  • 写回答

2条回答 默认 最新

  • CQ.abc 2023-03-07 19:25
    关注

    从代码看,你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块,而没有对其他数据块进行处理。

    你可以尝试使用循环迭代数据块,以便对每个数据块进行相同的处理。例如,以下是一个更新过的parse函数,它可以对每个数据块进行迭代处理:

    
    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas.xpath('.//a'):
            name = a.xpath('./span/text()').get()
            link = a.xpath('./@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})
    
    

    这里我将datas对象更改为数据块中的所有链接标签。然后,使用循环迭代每个链接标签,并提取name和link变量的值。最后,使用提取的link变量构造URL,以便发送到parse_li回调函数进行处理。
    回答不易,望采纳!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月15日
  • 已采纳回答 3月7日
  • 创建了问题 3月7日

悬赏问题

  • ¥15 对于知识的学以致用的解释
  • ¥50 三种调度算法报错 有实例
  • ¥15 关于#python#的问题,请各位专家解答!
  • ¥200 询问:python实现大地主题正反算的程序设计,有偿
  • ¥15 smptlib使用465端口发送邮件失败
  • ¥200 总是报错,能帮助用python实现程序实现高斯正反算吗?有偿
  • ¥15 对于squad数据集的基于bert模型的微调
  • ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
  • ¥20 steam下载游戏占用内存
  • ¥15 CST保存项目时失败