我是用requests-html来爬取的,到xpath小说内容的时候始终爬不到正文,是这个页面 ����_ ��1�� Ѳ��˾-��Ȥ�� ��ӥ��С��С˵���� ��1�� Ѳ��˾�����Ķ��� https://www.zhhbiqu.com/26391_26391428/661759774.html%EF%BC%8C%E6%88%91%E6%98%AF%E4%B8%AA%E5%B0%8F%E7%99%BD%EF%BC%8C%E4%B9%9F%E4%B8%8D%E6%87%82%E7%BD%91%E9%A1%B5%E5%8E%9F%E7%90%86%EF%BC%8C%E5%8F%AA%E6%98%AF%E5%9C%A8csda%E4%B8%8A%E7%9C%8B%E6%BA%90%E7%A0%81%EF%BC%8C%E4%B8%9C%E6%8B%BC%E8%A5%BF%E5%87%91%E7%9A%84%EF%BC%8C%E6%9C%89%E7%9A%84%E9%A1%B5%E9%9D%A2%E8%83%BD%E7%88%AC%E4%B8%8B%E6%9D%A5%EF%BC%8C%E4%B8%8A%E9%9D%A2%E8%BF%99%E4%B8%AA%E9%A1%B5%E9%9D%A2%E6%AD%A3%E6%96%87%E5%9C%A8div class=read2下面,但是下面还有一个标签和正文是并列的,用text()只能爬到并列标签下的内容,爬不到正文,不知道是怎么回事,是这个库的用法不一样吗?还是什么问题?
2条回答 默认 最新
- 忍气吞声埋头苦干 2021-08-16 11:46关注
看了下这个用上级标签 id =content 来匹配
然后用string(.) 方法提取标签下所有内容。再对脏数据做下剔除清洗。本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 outlook无法配置成功
- ¥30 这是哪个作者做的宝宝起名网站
- ¥60 版本过低apk如何修改可以兼容新的安卓系统
- ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
- ¥50 有数据,怎么建立模型求影响全要素生产率的因素
- ¥50 有数据,怎么用matlab求全要素生产率
- ¥15 TI的insta-spin例程
- ¥15 完成下列问题完成下列问题
- ¥15 C#算法问题, 不知道怎么处理这个数据的转换
- ¥15 YoloV5 第三方库的版本对照问题