oicp5541 2023-03-07 10:36 采纳率: 57.1%
浏览 21
已结题

关于#scrapy#的问题,如何解决?

scrapy爬虫框架爬取数据就第一个标题链接的数据,无法找到原因

import scrapy
from fl.items import FlItem


class XsSpider(scrapy.Spider):
    name = "xs"
    allowed_domains = ["b.faloo.com"]
    start_urls = ["https://b.faloo.com/html_1270_1270410/"]

    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas:
            name = a.xpath('./a/span/text()').get()
            link = a.xpath('./a/@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

    def parse_li(self, response):
        item = FlItem()
        item['name'] = response.meta['name']
        item['datas'] = response.xpath('//*[@id="center"]/div/div[5]/p//text()').getall()
        yield item

  • 写回答

2条回答 默认 最新

  • CQ.abc 2023-03-07 11:25
    关注

    从代码看,你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块,而没有对其他数据块进行处理。

    你可以尝试使用循环迭代数据块,以便对每个数据块进行相同的处理。例如,以下是一个更新过的parse函数,它可以对每个数据块进行迭代处理:

    
    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas.xpath('.//a'):
            name = a.xpath('./span/text()').get()
            link = a.xpath('./@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})
    
    

    这里我将datas对象更改为数据块中的所有链接标签。然后,使用循环迭代每个链接标签,并提取name和link变量的值。最后,使用提取的link变量构造URL,以便发送到parse_li回调函数进行处理。
    回答不易,望采纳!!!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 3月14日
  • 已采纳回答 3月7日
  • 创建了问题 3月7日

悬赏问题

  • ¥15 全志t113i启动qt应用程序提示internal error
  • ¥15 ensp可以看看嘛.
  • ¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
  • ¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
  • ¥15 minist数字识别
  • ¥15 在安装gym库的pygame时遇到问题,不知道如何解决
  • ¥20 uniapp中的webview 使用的是本地的vue页面,在模拟器上显示无法打开
  • ¥15 网上下载的3DMAX模型,不显示贴图怎么办
  • ¥15 关于#stm32#的问题:寻找一块开发版,作为智能化割草机的控制模块和树莓派主板相连,要求:最低可控制 3 个电机(两个驱动电机,1 个割草电机),其次可以与树莓派主板相连电机照片如下:
  • ¥15 潜在扩散模型的Unet特征提取
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部