各位，如何用Scrapy的XPath按顺序获取标签下的所有文本和子标签，就像BeautifulSoup.Tag里的contents属性一样？

初涉Scrapy，还在摸索语法，标题所示的问题是我遇到的比较棘手的问题，还在做进一步搜索，还请各路好汉不吝赐教。

最终达到的效果应该像BeautifulSoup框架里bs4.element.Tag中contents属性一样，能让我方便对每一个元素或文本进行筛选。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-03-04 03:03
关注
def pares(self,response):
print(response.body_as_unicode())

#### response.body_as_unicode()就是html，你直接用BeautifulSoup解析就行
soup = BeautifulSoup( response.body_as_unicode(),"lxml")
#### 这样就转换成你擅长的东西了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

11、Web数据提取：XPath、BeautifulSoup与Scrapy的应用
2025-07-16 03:20

play7的博客本文详细介绍了使用XPath、BeautifulSoup和Scrapy进行Web数据提取的技术与方法。涵盖了从基础语法到实际应用的多个方面，包括XPath的节点查询、BeautifulSoup的HTML解析与信息提取、以及Scrapy框架的核心组件与使用...
第六章正则，BeautifulSoup，xpath
2022-07-02 14:31

废柴成长中——的博客正则，BeautifulSoup,xpath
BeautifulSoup 与 Xpath
2018-08-16 14:43

kermitJam的博客爬虫系列之第2章-BS和Xpath模块    知识预览  BeautifulSoup xpath    BeautifulSoup 一简介&...
python爬虫主流解析库的使用方法——XPath、BuautifulSoup、pyquery
2020-08-18 16:53

the best messi的博客由于我们在使用爬虫的时候大多数都是用来爬取网页源代码中的信息，而对于一个HTML网页来说，他其中的逻辑结构还是比较明确的，每一个标签，每一个属性都有其自有的层次关系，我们就可以通过这种关系来获取到我们想要...
(五)网页解析-提取结构化数据-BeautifulSoup+Xpath python+scrapy爬虫5小时入门
2019-08-03 19:02

weixin_40771510的博客 BeautifulSoup 简介 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库，它的使用方式相对于正则来说更加的简单方便，常常能够节省我们大量的时间。官方中文文档的：...
seletors选择器、Xpath、 BeautifulSoup使用案例
2018-07-26 20:25

村头婊哥路狗蛋的博客本文主要介绍了Scrapy常用的数据提取的方法，包括seletors、scrapy shell、xpath、css、BeautifulSoup的使用方法及案例。只要掌握xpath或者css任意一种即可。 1、seletors选择器 1）介绍 Scrapy提取数据有...
爬虫知识3：seletors选择器、Xpath、 BeautifulSoup使用案例
2018-03-30 00:00

乐想屋的博客本文主要介绍了Scrapy常用的数据提取的方法，包括seletors、scrapy shell、xpath、css、BeautifulSoup的使用方法及案例。只要...
Python HTML解析实战：从BeautifulSoup入门到Lxml进阶
2025-04-02 07:13

码农老何的博客通过这篇文章，我们一起了解了 Python 里常用的 HTML 解析库和lxml，熟悉了 CSS 选择器和 XPath 这两种定位元素的方法，还动手尝试做了一个简单的【网页提取小工具】，并探讨了结合外部智能服务提升功能的可能性。...
基于Python的智能用户画像数据爬取与分析实战：Scrapy+Selenium+反反爬策略
2025-06-17 10:54

Python爬虫项目的博客本文将详细介绍如何使用Python构建一个完整的用户画像...用户画像(User Persona)是通过收集和分析用户社会属性、生活习惯、消费行为等主要信息后，抽象出的标签化用户模型。基础属性：年龄、性别、地域、教育水平等。
第八十二篇：爬虫利器（一）：使用BeautifulSoup解析HTML文档
2025-12-21 21:12

yongche_shi的博客 BeautifulSoup是Python中最受欢迎的HTML/XML解析库，能够高效地从复杂网页中提取数据。本文介绍了BeautifulSoup...3) 访问标签、内容和属性的方法；4) Tag对象、NavigableString对象和BeautifulSoup对象的特点与操作。
没有解决我的问题, 去提问

各位，如何用Scrapy的XPath按顺序获取标签下的所有文本和子标签，就像BeautifulSoup.Tag里的contents属性一样？

2条回答 默认 最新

2条回答默认最新