用的beautifulsoap,其他网站都能爬取,但这个网站不行。
这个网站用的是webp图片,标签依旧是img,可以直接查看到图片的地址,但是爬取得到的网站解析出来缺失了关键内容。
换了htmlparser,html5lib都不行。
请问能否有人能解答为什么吗?
爬取静态网页,部分内容缺失,<div pathmatch = >这一块全部消失了
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- CSDN专家-showbo 2021-10-21 17:21关注
题主是用requests获取网页内容?requests只能获取源代码,ajax动态生成的需要找到接口,requests请求接口获取数据。如果不是ajax动态生成,源代码里面又找不到,那么数据可能是放在js文件里面,需要找到数据文件后requests请求
要么的得用selenium来解析相关js脚本后获取数据
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
- ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
- ¥15 手机接入宽带网线,如何释放宽带全部速度
- ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
- ¥15 ETLCloud 处理json多层级问题
- ¥15 matlab中使用gurobi时报错
- ¥15 这个主板怎么能扩出一两个sata口
- ¥15 不是,这到底错哪儿了😭
- ¥15 2020长安杯与连接网探
- ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么