各位，如何用Scrapy的XPath按顺序获取标签下的所有文本和子标签，就像BeautifulSoup.Tag里的contents属性一样？

初涉Scrapy，还在摸索语法，标题所示的问题是我遇到的比较棘手的问题，还在做进一步搜索，还请各路好汉不吝赐教。

最终达到的效果应该像BeautifulSoup框架里bs4.element.Tag中contents属性一样，能让我方便对每一个元素或文本进行筛选。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-03-04 03:03
关注
def pares(self,response):
print(response.body_as_unicode())

#### response.body_as_unicode()就是html，你直接用BeautifulSoup解析就行
soup = BeautifulSoup( response.body_as_unicode(),"lxml")
#### 这样就转换成你擅长的东西了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 11:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
scrapy 中xpath路径获取不到内容 chrome python 前端有问必答
2022-09-05 12:07

回答 2 已采纳 a标签不仅仅含有文本，那么没有其它节点可以定位了吗
第六章正则，BeautifulSoup，xpath
2022-07-02 14:31

废柴成长中——的博客正则，BeautifulSoup,xpath
如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 19:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
scrapy项目中找不到xpath属性爬虫
2023-03-13 19:43

回答 2 已采纳节点是none吧，你看你解析的节点，存不存在？不存在他也会报这个错误
BeautifulSoup 与 Xpath
2018-08-16 14:43

kermitJam的博客爬虫系列之第2章-BS和Xpath模块    知识预览  BeautifulSoup xpath    BeautifulSoup 一简介&...
关于#AttributeError#的问题，如何解决？(标签-scrapy) pycharm python
2022-09-28 11:34

回答 2 已采纳找到了解决方法pip3 install pyOpenSSL==22.0.0
这个from ..items中间的点点怎么找啊要用绝对路径可是找不到items是scrapy下哪个文件里的 python 有问必答爬虫
2021-10-30 23:28

回答 1 已采纳在pycharm中,选中项目根目录, 右击出菜单,按图中设置完毕后直接引用即可 from items import newsItem
用python获取里面的a标签的链接地址 javascript python
2017-11-15 03:55

回答 2 已采纳这是爬取本页a标签url的方法，参考一下，要下载lxml。不下载的话，Beatifusoup()方法里不写,'lxml'也行。 import requests from bs4 import Be
python爬虫主流解析库的使用方法——XPath、BuautifulSoup、pyquery
2020-08-18 16:53

the best messi的博客由于我们在使用爬虫的时候大多数都是用来爬取网页源代码中的信息，而对于一个HTML网页来说，他其中的逻辑结构还是比较明确的，每一个标签，每一个属性都有其自有的层次关系，我们就可以通过这种关系来获取到我们想要...
scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
(五)网页解析-提取结构化数据-BeautifulSoup+Xpath python+scrapy爬虫5小时入门
2019-08-03 19:02

weixin_40771510的博客 BeautifulSoup 简介 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库，它的使用方式相对于正则来说更加的简单方便，常常能够节省我们大量的时间。官方中文文档的：...
seletors选择器、Xpath、 BeautifulSoup使用案例
2018-07-26 20:25

村头婊哥路狗蛋的博客本文主要介绍了Scrapy常用的数据提取的方法，包括seletors、scrapy shell、xpath、css、BeautifulSoup的使用方法及案例。只要掌握xpath或者css任意一种即可。 1、seletors选择器 1）介绍 Scrapy提取数据有...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

各位，如何用Scrapy的XPath按顺序获取标签下的所有文本和子标签，就像BeautifulSoup.Tag里的contents属性一样？

2条回答 默认 最新

悬赏问题

2条回答默认最新