SiriBen
2022-01-20 14:39
采纳率: 25%
浏览 27

爬虫抓取网络播放器渲染H5的video标签中的src值

大家都知道爬虫抓取网页元素,利用正则匹配规则截取想要的数据,例如我用scrapy,但是它不具备JS渲染,所以我加上了Splash,但真正的困难来了,网页其它都没问题,这些在抓取常规网站是完全没问题的,但现在我抓取一个视频网站,网页上的视频是H5的video标签,其实抓这个标签也是小事,但问题是,这个是JS渲染出来的,也不算大问题,可以用splsh抓取,但我试过了,渲染不了这个,原因是现在这些都是用的网络播放器,加载的播放器JS插件,按原理来说同样是JS,也应该能渲染,但不知道为什么,始终渲染不出来,我直接运行splash,把需要抓取的网址复制上去,解析后下载到电脑里看,里面的video既然未能渲染出来,所以就无法抓取这个视频的真实地址,但是用浏览器打开,F12,又能看到video和里面的视频地址
自己想过模拟url,但是这个url中间一段是动态加密的,所以无法去模拟拼接,例:

```
https://abcde.com/1800/lkjpoiwuqe0r70704325halsfdja/1853/1853.mp4

```,这个是video中src的真实视频地址,中间有一段是加密的,无法确认,其它的都是有一定规则也能找到规则。中途试过很多方法,均无效,大家肯定说用selsenium,我试过了,直接就被屏蔽了,该网站做了反selenium机制


全网寻找能解决这个难点的大伽指点迷津,给点思想也行,我这边用的python+scrapy+splash,先感谢之!~如果确实能搞定,愿意支付100供大伽抽根华子


  • 写回答
  • 好问题 提建议
  • 追加酬金
  • 关注问题
  • 邀请回答

1条回答 默认 最新

相关推荐 更多相似问题