关于#scrapy#的问题，如何解决？

scrapy爬虫框架爬取数据就第一个标题链接的数据，无法找到原因

import scrapy
from fl.items import FlItem


class XsSpider(scrapy.Spider):
    name = "xs"
    allowed_domains = ["b.faloo.com"]
    start_urls = ["https://b.faloo.com/html_1270_1270410/"]

    def parse(self, response):
        datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
        for a in datas:
            name = a.xpath('./a/span/text()').get()
            link = a.xpath('./a/@href').get()
            url = 'https:' + link
            yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

    def parse_li(self, response):
        item = FlItem()
        item['name'] = response.meta['name']
        item['datas'] = response.xpath('//*[@id="center"]/div/div[5]/p//text()').getall()
        yield item

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CQ.abc 2023-03-07 19:25
关注
从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。

你可以尝试使用循环迭代数据块，以便对每个数据块进行相同的处理。例如，以下是一个更新过的parse函数，它可以对每个数据块进行迭代处理：

def parse(self, response): datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]') for a in datas.xpath('.//a'): name = a.xpath('./span/text()').get() link = a.xpath('./@href').get() url = 'https:' + link yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})

这里我将datas对象更改为数据块中的所有链接标签。然后，使用循环迭代每个链接标签，并提取name和link变量的值。最后，使用提取的link变量构造URL，以便发送到parse_li回调函数进行处理。
回答不易，望采纳！！！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

关于#scrapy#的问题，如何解决？ python 爬虫
2023-03-07 18:36

回答 2 已采纳从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。你可以尝试使用循环迭代数据块，以便对每个数据块进行相同
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
关于#python#的问题，如何解决？ python 有问必答
2022-01-27 16:09

回答 2 已采纳第一题:A
scrapy爬取大众点评并解析？？
2019-03-23 22:37

一只鸭鸭ya的博客目录爬取大众点评需求第一关：大众点评爬取遇到403 第二关：scrapy的信息传递第三关：DNS域名解析错误...第五关：中间件过滤信息问题：Filtered duplicate request或者是Filtered offsite request to 域名 ...
关于#AttributeError#的问题，如何解决？(标签-scrapy) pycharm python
2022-09-28 11:34

回答 2 已采纳找到了解决方法pip3 install pyOpenSSL==22.0.0
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
基于Scrapy的爬虫解决方案
2021-01-21 19:40

腾讯云开发者的博客导语 |Scrapy是一个较为流行的Python爬虫框架，本文将简单介绍Scrapy的使用方法，并对一些常见问题提出解决方法。对于想快速上手爬虫的初学者来说，本文值得一阅。文章作者：赵...
scrapy怎么没打印数据？ python
2021-07-21 12:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
Python的Scrapy模块；解释一下？ javascript pycharm python
2021-07-23 11:36

回答 3 已采纳这个只是爬虫的Spider编写啥也没做没有入口都运行不了顶多实现下面:import requestsurl = 'https://www.santostang.com/'response = re
scrapy框架问题报错？ python
2020-03-22 13:23

回答 1 已采纳 https://www.cnblogs.com/ArsenalfanInECNU/p/5346751.html
解决pycharm 安装numpy失败的问题
2021-01-20 03:59

您可能感兴趣的文章:mysql 5.7.17 zip安装配置教程 mysql启动失败的解决方法mysql8.0.14.zip安装时自动创建data文件夹失败服务无法启动Python安装pycurl失败的解决方法解决Mac安装scrapy失败的问题解决n
scrapy常用问题
2022-05-20 01:34

阿泽Az的博客 2、分布式爬虫主要解决什么问题？ 1，ip 2，宽带 3，cpu 4，io 3、什么是URL？ URL，即统一资源定位符，也就是常见的网址，统一资源定位符是对可以从互联网是得到的资源的位置和访问方法的一种简介的表示是...
python-scrapy框架.zip
2024-01-04 16:28

Python注重解决问题的方法，而不是语法和结构。它被广泛应用于各个领域，包括Web开发、数据分析、人工智能、科学计算等。 Python的优点包括：简单易学：Python的语法简洁明了，易于理解和学习。高级特性：Python...
Python3.6中Twisted模块安装的问题与解决
2021-01-20 06:50

今天准备学习爬虫的scrapy模块，在这之前需要安装许多别的模块，Twisted就是其一一开始想着直接用pycharm来安装就行了，没想到安装了一会就报错了，如下后来就换到命令提示符来安装，在官网发现直接pip安装就行了...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月7日

悬赏问题

¥15 对于知识的学以致用的解释
¥50 三种调度算法报错有实例
¥15 关于#python#的问题，请各位专家解答！
¥200 询问：python实现大地主题正反算的程序设计，有偿
¥15 smptlib使用465端口发送邮件失败
¥200 总是报错，能帮助用python实现程序实现高斯正反算吗？有偿
¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败

关于#scrapy#的问题，如何解决？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新