关于#scrapy#的问题，如何解决？

scrapy爬虫框架爬取数据就第一个标题链接的数据，无法找到原因

import scrapy
from fl.items import FlItem


class XsSpider(scrapy.Spider):
    name = "xs"
    allowed_domains = ["b.faloo.com"]
    start_urls = ["https://b.faloo.com/html_1270_1270410/"]

    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas:
            name = a.xpath('./a/span/text()').get()
            link = a.xpath('./a/@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

    def parse_li(self, response):
        item = FlItem()
        item['name'] = response.meta['name']
        item['datas'] = response.xpath('//*[@id="center"]/div/div[5]/p//text()').getall()
        yield item

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CQ.abc 2023-03-07 11:25
关注
从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。

你可以尝试使用循环迭代数据块，以便对每个数据块进行相同的处理。例如，以下是一个更新过的parse函数，它可以对每个数据块进行迭代处理：

def parse(self, response): datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]') for a in datas.xpath('.//a'): name = a.xpath('./span/text()').get() link = a.xpath('./@href').get() url = 'https:' + link yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

这里我将datas对象更改为数据块中的所有链接标签。然后，使用循环迭代每个链接标签，并提取name和link变量的值。最后，使用提取的link变量构造URL，以便发送到parse_li回调函数进行处理。
回答不易，望采纳！！！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 08:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
关于#python#的问题，如何解决？ python 有问必答
2022-01-27 08:09

回答 2 已采纳第一题:A
关于#AttributeError#的问题，如何解决？(标签-scrapy) pycharm python
2022-09-28 03:34

回答 2 已采纳找到了解决方法pip3 install pyOpenSSL==22.0.0
Python是一种高级、通用、解释型的编程语言
2024-04-16 13:25

"高级"意味着Python在抽象层次上较高，使得开发者能够更专注于问题解决而不是底层细节。"通用"则表明Python可以用于开发各种类型的软件，包括Web应用、科学计算、数据分析、自动化脚本、人工智能等等。 Python的...
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 14:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
scrapy如何手动停止爬虫？ python
2021-05-10 01:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
scrapy怎么没打印数据？ python
2021-07-21 04:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
scrapy解决管道阻塞问题采用threadpool库线程池+twisted同步语法异步编程
2024-07-30 10:42

云霄IT的博客实现方法：process_item和download任务函数像下面编写即可，其他管道像往常一样写法。
Python的Scrapy模块；解释一下？ javascript pycharm python
2021-07-23 03:36

回答 3 已采纳这个只是爬虫的Spider编写啥也没做没有入口都运行不了顶多实现下面:import requestsurl = 'https://www.santostang.com/'response = re
scrapy框架问题报错？ python
2020-03-22 05:23

回答 1 已采纳 https://www.cnblogs.com/ArsenalfanInECNU/p/5346751.html
scrapy爬取大众点评并解析？？
2019-03-23 14:37

一只鸭鸭ya的博客目录爬取大众点评需求第一关：大众点评爬取遇到403 第二关：scrapy的信息传递第三关：DNS域名解析错误...第五关：中间件过滤信息问题：Filtered duplicate request或者是Filtered offsite request to 域名 ...
Python编程语言能做什么软件？.docx
2022-06-11 17:08

Python编程语言以其强大的功能和易学性，在众多领域都有着广泛的应用。从初学者到专业开发者，Python都是他们的首选工具之一。下面将详细阐述Python在不同领域的应用及其优势。首先，Python在Web开发中的地位不可...
python-scrapy安装问题详解
2017-11-29 07:21

在学习和使用Scrapy之前，通常需要先掌握Python编程语言，并对Scrapy的安装有一个明确的了解。由于Scrapy是一个独立于Python版本的框架，因此在安装时会涉及到对不同Python版本的考虑。本文档将详细解析在安装Scrapy...
scrapy_Python的爬虫框架Scrapy_scrapy_
2021-10-03 07:08

Scrapy是Python编程语言中的一款强大且高效的网页抓取框架，专为数据抓取和爬虫项目设计。它提供了一整套工具集，使得开发者能够快速构建起复杂的网络爬虫，处理网页数据并进行分析。在本文中，我们将深入探讨Scrapy...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月7日

悬赏问题

¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：
¥15 潜在扩散模型的Unet特征提取

关于#scrapy#的问题，如何解决？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新