静谧蓝莲 2021-11-19 12:33 采纳率: 100%
浏览 35
已结题

爬取百度网页标题时,无法提取出完整的一条文字

百度搜索手机壁纸,一般有10个标题,我想把这些标题都提取出来

然后用xpath提取的,用F12调出页面尝试提取可以完整取出,但是在pychram中运行时,提取出来的结果是
['手机壁纸', ' - 百度图片', '【', '手机壁纸', '】高清', '手机壁纸',]
同一个标题下em标签加强的文字和其他文字都被隔断了

代码如下:
tree=etree.HTML(html)
titles=tree.xpath('//div[@id="content_left"]//h3/a//text()')
print(titles)

希望能完整的提取出标题,不知道是哪里出问题了,求指点

  • 写回答

1条回答 默认 最新

  • -Undefined_ 2021-11-19 12:37
    关注

    完整的代码贴一下

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 11月28日
  • 已采纳回答 11月20日
  • 创建了问题 11月19日

悬赏问题

  • ¥15 R语言Rstudio突然无法启动
  • ¥15 关于#matlab#的问题:提取2个图像的变量作为另外一个图像像元的移动量,计算新的位置创建新的图像并提取第二个图像的变量到新的图像
  • ¥15 改算法,照着压缩包里边,参考其他代码封装的格式 写到main函数里
  • ¥15 用windows做服务的同志有吗
  • ¥60 求一个简单的网页(标签-安全|关键词-上传)
  • ¥35 lstm时间序列共享单车预测,loss值优化,参数优化算法
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值