SiriBen 2022-01-20 14:39 采纳率: 25%
浏览 89

爬虫抓取网络播放器渲染H5的video标签中的src值

大家都知道爬虫抓取网页元素,利用正则匹配规则截取想要的数据,例如我用scrapy,但是它不具备JS渲染,所以我加上了Splash,但真正的困难来了,网页其它都没问题,这些在抓取常规网站是完全没问题的,但现在我抓取一个视频网站,网页上的视频是H5的video标签,其实抓这个标签也是小事,但问题是,这个是JS渲染出来的,也不算大问题,可以用splsh抓取,但我试过了,渲染不了这个,原因是现在这些都是用的网络播放器,加载的播放器JS插件,按原理来说同样是JS,也应该能渲染,但不知道为什么,始终渲染不出来,我直接运行splash,把需要抓取的网址复制上去,解析后下载到电脑里看,里面的video既然未能渲染出来,所以就无法抓取这个视频的真实地址,但是用浏览器打开,F12,又能看到video和里面的视频地址
自己想过模拟url,但是这个url中间一段是动态加密的,所以无法去模拟拼接,例:

```
https://abcde.com/1800/lkjpoiwuqe0r70704325halsfdja/1853/1853.mp4

```,这个是video中src的真实视频地址,中间有一段是加密的,无法确认,其它的都是有一定规则也能找到规则。中途试过很多方法,均无效,大家肯定说用selsenium,我试过了,直接就被屏蔽了,该网站做了反selenium机制


全网寻找能解决这个难点的大伽指点迷津,给点思想也行,我这边用的python+scrapy+splash,先感谢之!~如果确实能搞定,愿意支付100供大伽抽根华子


  • 写回答

1条回答 默认 最新

  • a1765659645 2022-01-20 15:37
    关注

    可以给网址吗 我试一下

    评论

报告相同问题?

问题事件

  • 修改了问题 1月20日
  • 创建了问题 1月20日

悬赏问题

  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?