静谧蓝莲 2021-11-19 12:33 采纳率: 100%
浏览 35
已结题

爬取百度网页标题时,无法提取出完整的一条文字

百度搜索手机壁纸,一般有10个标题,我想把这些标题都提取出来

然后用xpath提取的,用F12调出页面尝试提取可以完整取出,但是在pychram中运行时,提取出来的结果是
['手机壁纸', ' - 百度图片', '【', '手机壁纸', '】高清', '手机壁纸',]
同一个标题下em标签加强的文字和其他文字都被隔断了

代码如下:
tree=etree.HTML(html)
titles=tree.xpath('//div[@id="content_left"]//h3/a//text()')
print(titles)

希望能完整的提取出标题,不知道是哪里出问题了,求指点

  • 写回答

1条回答 默认 最新

  • -Undefined_ 2021-11-19 12:37
    关注

    完整的代码贴一下

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 11月28日
  • 已采纳回答 11月20日
  • 创建了问题 11月19日

悬赏问题

  • ¥15 关于#目标检测#的问题:大概就是类似后台自动检测某下架商品的库存,在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
  • ¥15 神经网络怎么把隐含层变量融合到损失函数中?
  • ¥30 自适应 LMS 算法实现 FIR 最佳维纳滤波器matlab方案
  • ¥15 lingo18勾选global solver求解使用的算法
  • ¥15 全部备份安卓app数据包括密码,可以复制到另一手机上运行
  • ¥20 测距传感器数据手册i2c
  • ¥15 RPA正常跑,cmd输入cookies跑不出来
  • ¥15 求帮我调试一下freefem代码
  • ¥15 matlab代码解决,怎么运行
  • ¥15 R语言Rstudio突然无法启动