解析html的一个问题
我需要爬取这里的文字
但是爬取出来后多了一段东西,这个是什么,应该怎么处理掉它
2条回答 默认 最新
- threenewbee 2019-04-19 09:50关注
看上去这些内容是网页本来就有的,爬虫代码没有问题。
你可以用正则表达式自己再过滤下。这段内容前面似乎有很多连续的换行,可以作为特征。本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
看上去这些内容是网页本来就有的,爬虫代码没有问题。
你可以用正则表达式自己再过滤下。这段内容前面似乎有很多连续的换行,可以作为特征。