我是用requests-html来爬取的,到xpath小说内容的时候始终爬不到正文,是这个页面 ����_ ��1�� Ѳ��˾-��Ȥ�� ��ӥ��С��С˵���� ��1�� Ѳ��˾�����Ķ��� https://www.zhhbiqu.com/26391_26391428/661759774.html%EF%BC%8C%E6%88%91%E6%98%AF%E4%B8%AA%E5%B0%8F%E7%99%BD%EF%BC%8C%E4%B9%9F%E4%B8%8D%E6%87%82%E7%BD%91%E9%A1%B5%E5%8E%9F%E7%90%86%EF%BC%8C%E5%8F%AA%E6%98%AF%E5%9C%A8csda%E4%B8%8A%E7%9C%8B%E6%BA%90%E7%A0%81%EF%BC%8C%E4%B8%9C%E6%8B%BC%E8%A5%BF%E5%87%91%E7%9A%84%EF%BC%8C%E6%9C%89%E7%9A%84%E9%A1%B5%E9%9D%A2%E8%83%BD%E7%88%AC%E4%B8%8B%E6%9D%A5%EF%BC%8C%E4%B8%8A%E9%9D%A2%E8%BF%99%E4%B8%AA%E9%A1%B5%E9%9D%A2%E6%AD%A3%E6%96%87%E5%9C%A8div class=read2下面,但是下面还有一个标签和正文是并列的,用text()只能爬到并列标签下的内容,爬不到正文,不知道是怎么回事,是这个库的用法不一样吗?还是什么问题?
2条回答 默认 最新
- 忍气吞声埋头苦干 2021-08-16 11:46关注
看了下这个用上级标签 id =content 来匹配
然后用string(.) 方法提取标签下所有内容。再对脏数据做下剔除清洗。本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报