饿罪图鉴 2021-12-18 14:35 采纳率: 85.7%
浏览 126
已结题

用xpath爬取文本时如何去掉非文本内容

问题相关代码
discribe =html.xpath('//div[@class="container-fluid"]//div[@class="work_b"]//text()')

img

在我爬取此段文本时,输出的数据是带有/r的

img

我要怎么做才能爬出纯文本内容?

  • 写回答

1条回答 默认 最新

  • 陈.py 2021-12-20 09:57
    关注
    
    discribe =html.xpath('normalize-space(//div[@class="container-fluid"]//div[@class="work_b"]//text())')
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 4月19日
  • 已采纳回答 4月11日
  • 创建了问题 12月18日

悬赏问题

  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)
  • ¥15 用前端向数据库插入数据,通过debug发现数据能走到后端,但是放行之后就会提示错误
  • ¥30 3天&7天&&15天&销量如何统计同一行
  • ¥30 帮我写一段可以读取LD2450数据并计算距离的Arduino代码
  • ¥15 飞机曲面部件如机翼,壁板等具体的孔位模型
  • ¥15 vs2019中数据导出问题
  • ¥20 云服务Linux系统TCP-MSS值修改?
  • ¥20 关于#单片机#的问题:项目:使用模拟iic与ov2640通讯环境:F407问题:读取的ID号总是0xff,自己调了调发现在读从机数据时,SDA线上并未有信号变化(语言-c语言)
  • ¥20 怎么在stm32门禁成品上增加查询记录功能