永不秃头的ssf
2019-04-18 22:45
采纳率: 50%
浏览 421

python爬虫解析html的一个问题

  • 解析html的一个问题

  • 图片说明

  • 我需要爬取这里的文字

  • 图片说明

  • 但是爬取出来后多了一段东西,这个是什么,应该怎么处理掉它

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

2条回答 默认 最新

  • blownewbee 2019-04-19 09:50
    已采纳

    看上去这些内容是网页本来就有的,爬虫代码没有问题。
    你可以用正则表达式自己再过滤下。这段内容前面似乎有很多连续的换行,可以作为特征。

    点赞 评论
  • Yajun-Z 2019-04-22 10:58

    两种可能:一种是存在两个相同class<div>; 还有一种是<div>存在别的下级标签,范围过大就把所有文本拿到了

    解决方法如果是第一种,你就看看每个页面是不是固定的,固定的话直接取第二个就行;第二种方法类似,你把下级标签包含进去就行

    点赞 评论

相关推荐 更多相似问题