scrapy没有结果，如何解决？

找的xpath在普通的python文件中能爬取数据，为什么在scrapy中什么也没有

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-05-25 22:50
关注
你可以看下这个问题的回答https://ask.csdn.net/questions/7575955
你也可以参考下这篇文章：爬取中国最好大学网数据（Python的Scrapy框架与Xpath联合运用）
除此之外, 这篇博客: Python爬虫框架Scrapy入门（二）第一个爬虫程序：使用xpath爬取起点中文网中的 四、实现爬虫 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
打开我们之前建立的爬虫工程，在spider目录下建立爬虫文件qidian_spider.py导入需要用到的库

from scrapy import Request from scrapy.spiders import Spider

创建一个继承自 Spider的爬虫类，其中包含爬虫名称、目标网页、解析方法

class HotSaleSpider(Spider): name = "hot" #爬虫名称 start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]#目标网站地址 def parse(self, response):#用于数据解析 pass

注意到parse方法的参数是response，这是因为我们使用爬虫框架会自动帮我们得到网页的响应，不需要我们另外编写代码向网页发起request请求，在scrapy内部已经发起请求并直接返回响应了。

下图是scrapy框架的结构，我们需要做的就是完成spider的部分：得到网页响应后进行提取信息。在爬虫内部完成了1-6的工作。

所以我们重点编写parse方法。基于我们之前的网页分析，这里使用xpath方法提取信息。

首先我们定位到class="book-mid-info"，每本小说的信息都保存在这个"book-mid-info"类之下。

list_selector = response.xpath("//div[@class='book-mid-info']")

然后遍历每一本小说，获取各项信息，定位的方法同样是查看信息所在的标签。小说名称“诡秘之主”保存在"book-mid-info"类中的h4标签下的a标签，小说作者“爱潜水的乌贼”保存在"book-mid-info"类中的p标签下的a标签。

for one_selector in list_selector: # 获取小说信息 name = one_selector.xpath("h4/a/text()").extract()[0] #提取当前定位下的文字 author = one_selector.xpath("p[1]/a[1]/text()").extract()[0] type = one_selector.xpath("p[1]/a[2]/text()").extract()[0] form = one_selector.xpath("p[1]/span/text()").extract()[0]

最后定义一个字典保存每本小说的各项信息并且通过生成器返回：

# 保存小说信息为字典 hot_dict = { "name":name, "author":author, "type":type, "form":form } yield hot_dict # 生成器返回每一本小说的信息

关于yield关键字的含义可以参看：Python关键字：yield生成器

完整代码：

#!/usr/bin/env python # -*- coding:utf-8 -*- #@Time : 2020/2/20 11:45 #@Author: bz #@File : qidian_spider.py from scrapy import Request from scrapy.spiders import Spider class HotSaleSpider(Spider): name = "hot" #爬虫名称 start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]#目标网站地址 def parse(self, response):#用于数据解析 #使用xpath定位 list_selector = response.xpath("//div[@class='book-mid-info']") for one_selector in list_selector: # 获取小说信息 name = one_selector.xpath("h4/a/text()").extract()[0] #提取当前定位下的文字 author = one_selector.xpath("p[1]/a[1]/text()").extract()[0] type = one_selector.xpath("p[1]/a[2]/text()").extract()[0] form = one_selector.xpath("p[1]/span/text()").extract()[0] # 保存小说信息为字典 hot_dict = { "name":name, "author":author, "type":type, "form":form } yield hot_dict # 生成器返回每一本小说的信息

您还可以看一下王涛老师的150讲轻松学习Python网络爬虫课程中的 xpath-语法详细讲解小节, 巩固相关知识点
以下回答由chatgpt基于相关博客总结生成:
首先，可能是因为Scrapy中的响应对象不同于Python中的request库，需要使用Selector类来解析响应数据。可以使用以下代码将响应数据加载到Selector对象中：

from scrapy.selector import Selector selector = Selector(text=response.text)

如果还是不能获取到数据，可以检查xpath表达式是否正确。在Scrapy中使用xpath语法时，需要注意"."和"/"的使用，具体见参考资料中的段落1。

如果还是不能解决问题，可以尝试使用Chrome浏览器的开发者工具查看目标数据在网页源代码中的位置，从而确定正确的xpath表达式。

最后，可以检查是否需要先调用extract()方法将Selector对象转化为字符串类型才能获取数据。如：

title = selector.xpath('//title/text()').extract_first()
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy框架问题报错？ python
2020-03-22 13:23

回答 1 已采纳 https://www.cnblogs.com/ArsenalfanInECNU/p/5346751.html
Mac电脑pcharm创建scrapy框架总是失败？ python
2019-10-13 17:07

回答 2 已采纳不要在pycharm中安装，在终端中直接pip install，你可能用了pycharm的虚拟环境，所以在bash中没有
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
Python是一种高级、通用、解释型的编程语言
2024-04-16 21:25

Python是一种广泛应用于各种领域的高级编程语言，以其简洁明了的语法和强大的功能赢得了全球程序员的喜爱。"高级"意味着Python在抽象层次上较高，使得开发者能够更专注于问题解决而不是底层细节。"通用"则表明Python...
scrapy运行发生错误，如何解决？ python 爬虫
2022-07-28 20:29

回答 1 已采纳重新安装一下lxml库呢https://blog.csdn.net/weixin_43965374/article/details/99641332
scrapy框架怎么新建？，能不能教一下 python
2021-07-25 19:52

回答 1 已采纳在目录下敲命令新建啊scrapy startproject xxx项目名
scrapy怎么没打印数据？ python
2021-07-21 12:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
Python编程语言能做什么软件？.docx
2022-06-12 01:08

Python编程语言以其强大的功能和易学性，在众多领域都有着广泛的应用。从初学者到专业开发者，Python都是他们的首选工具之一。下面将详细阐述Python在不同领域的应用及其优势。首先，Python在Web开发中的地位不可...
关于#scrapy#的问题，如何解决？ python 爬虫
2023-03-07 18:36

回答 2 已采纳从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。你可以尝试使用循环迭代数据块，以便对每个数据块进行相同
scrapy优点是什么？比直接用正则好在哪？ python 爬虫
2015-10-12 14:03

回答 1 已采纳这个是框架，帮你处理了很多爬虫会遇到的问题，然后提高各种接口给你方便调用。同时还有分布式等考虑
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
基于Scrapy的爬虫解决方案
2021-01-21 19:40

腾讯云开发者的博客导语 |Scrapy是一个较为流行的Python爬虫框架，本文将简单介绍Scrapy的使用方法，并对一些常见问题提出解决方法。对于想快速上手爬虫的初学者来说，本文值得一阅。文章作者：赵...
scrapy_Python的爬虫框架Scrapy_scrapy_
2021-10-03 15:08

Scrapy是Python编程语言中的一款强大且高效的网页抓取框架，专为数据抓取和爬虫项目设计。它提供了一整套工具集，使得开发者能够快速构建起复杂的网络爬虫，处理网页数据并进行分析。在本文中，我们将深入探讨Scrapy...
Python 爬虫编程从入门到实践
2024-03-11 13:42

Python编程语言以其简洁明了的语法和强大的功能在IT领域，特别是网络爬虫技术中，占据了重要的地位。本文将深入探讨Python爬虫编程的基础知识，从入门到实践，帮助初学者掌握这一技能。首先，我们要了解什么是网络...
Python爬虫是一种使用Python编程语言来自动化获取网页数据的技术这项技术主要涉及到向目标服务器发送请求，获取HTML页
2024-05-02 14:49

Python爬虫是一种利用Python编程语言实现自动化的网页数据抓取技术。它的工作原理主要包括以下几个步骤：首先向目标服务器发送HTTP请求；接着获取服务器返回的HTML页面内容；然后对HTML进行解析以提取所需的数据。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月25日

悬赏问题

¥15 无源定位系统的时差估计误差标准差
¥15 请问这个代码哪里有问题啊
¥20 python--version在命令端输入结果Python is not defined怎么办？还有pip不是exe格式是不是没安装成功？
¥15 通过GaussianView进行结构微调消除虚频
¥15 调用transformers库
¥15 由于导出的数据名字中带有/，导致Matlab打不开，怎么办？
¥15 新硬盘安装的程序总是崩溃，提示遇到错误
¥15 openpcdet自制数据集评估bev精度和3d精度相同
¥15 excel 上下按钮显示行
¥20 云卓h12pro 数传问题

scrapy没有结果，如何解决？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新