用xpath爬取文本时如何去掉非文本内容

问题相关代码
discribe =html.xpath('//div[@class="container-fluid"]//div[@class="work_b"]//text()')

在我爬取此段文本时，输出的数据是带有/r的

我要怎么做才能爬出纯文本内容？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
陈.py 2021-12-20 09:57
关注
discribe =html.xpath('normalize-space(//div[@class="container-fluid"]//div[@class="work_b"]//text())')
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python使用xpath爬取网站数据
2025-04-03 17:28

而Python的数据爬取主要依赖于第三方库，比如requests用于发送网络请求，BeautifulSoup和lxml用于解析网页内容，而XPath就是其中的一种选择器语言，用于从HTML或XML文档中选取节点。接下来，我们具体探讨XPath的...
Python使用xpath实现图片爬取
2020-09-17 11:24

在这个场景中，我们将讨论如何使用Python的`lxml`库结合XPath来实现图片的爬取。`lxml`库提供了高效的XML和HTML处理能力，支持XPath 1.0规范。首先，让我们了解基本的XPath语法。XPath通过路径表达式来选取XML或...
Python_爬取文本内容中文乱码解决方案
2022-02-27 16:23

小枫Geek的博客方案一(手动设定响应数据的编码格式)： url='输入url' response=requests.get(url=url,headers=...img_name=li.xpath('./a/img/@alt')[0]+'.jpg' #通用处理中文乱码的解决方案 img_name=img_name.encode('iso-8
python如何用xpath爬取指定内容_python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]...
2020-12-17 16:08

weixin_39616416的博客 @前言本章同样是解析网页，不过使用的解析技术为XPath。相对于之前的BeautifulSoup,我感觉还行，也是一个比较常用的一种解析方式，并且更加的符合我们之前的一个逻辑思维，不过看情况吧，看各位准备怎么用吧。XPath...
【Python爬虫】使用request和xpath爬取高清美女图片
2024-05-08 13:20

熊哈哈O_o的博客 pyhton小白爬虫教学，爬取网站上的美女图片。
python使用xpath爬取网页数据
2022-07-20 17:45

不聪明的小侦探的博客使用python中resquests模块来爬取网页数据
解决Python用xpath爬取不到数据的一个思路
2024-07-01 16:23

Cnc2014的博客解决Python用xpath爬取不到数据的一个思路，希望对大家有所帮助。
python xpath爬取新闻标题_Python利用requests和xpath爬取网页内容过程
2020-12-09 16:37

weixin_39611331的博客之后会练习使用find_all()函数需要安装lxml库，xpath()方法放回的结果是一个列表1.1 XPath 常用规则例子：这是一个 XPath 规则，代表的是选择所有名称为 title，同时属性 class 的值为 eng 的节点，后面会通过 ...
Xpath解析HTML网页，爬取网页文本信息
2024-10-14 14:09

混混子儿的博客 1.使用F12快速进入开发人员工具（或快捷键：ctrl+shift+i，或点击浏览器右上角三个点“. ....打开elements查看网页元素。...2.查看页面信息headers...当提取不同元素下的信息时，用 | 连接。打印的信息是完整的HTML格式页面。
python 文本中表格文件的爬取
2022-10-31 14:46

MJKlIJ的博客可以直接进行保存，也可也使用上面的writeexcel创建一个文件进行保存。找到你需要的哪一行，右键...这边xpath 里边内容不知道的话，在原网页上按f12。获取表格的话有一个现成的pd.read_html。这边的df已经存好了数据。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月18日

用xpath爬取文本时如何去掉非文本内容

1条回答 默认 最新

问题事件

1条回答默认最新