运行爬取m3u8视频代码，遍历了详情页面，运行出了每页的m3u8地址，但没有保存，是什么问题

遍历了详情页面，得到了所有的m3u8地址，解密了m3u8地址，然后得到了ts,再下载保存，用了try去捕获异常，没有异常得到每页的视频，运行了没有保存文件，运行出现了问题吗

import requests as rq, re
from lxml import etree
from Crypto.Cipher import AES

show = int(input('请输入show编号：'))
url = f'http://www.yinghuacd.com/show/{show}.html'
h = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}
r = rq.get(url, headers=h)
rr = r.content.decode('utf-8')
f = re.search(r'<h1><(.*?)</h1>', rr, re.S).group(1)
html = etree.HTML(rr)
li_list = html.xpath(r'//div[@class="movurl"]/ul/li')
for li in li_list:
    href = li.xpath(r'.//a/@href')
    jishu = li.xpath(r'.//a/text()')
    for hrf, ji in zip(href, jishu):
        hrf1 = 'http://www.yinghuacd.com' + hrf  # 遍历每一个m3u8地址详情页
        # print(hrf1)
        req = rq.get(url=hrf1, headers=h)
        htm = req.content.decode('utf-8')
        vid = re.search(r'<div data-vid="(.*?)"', htm, re.S).group(1)  # 加密m3u8地址
        v = vid.split('$mp4')[0]
        v1 = v.split('index.m3u8')[0] + '1500kb/hls/' + 'index.m3u8'
        v2 = v.split('index.m3u8')[0] + '1200kb/hls/' + 'index.m3u8'
        for u, k in [[v, ''], [v1, ' 1500kb'], [v2, ' 1200kb']]:
            filename = f'{f} {ji}{k}.mp4'
            print(filename, u)
            try:
                content = rq.get(url=u, headers=h).text
            except:
                print(u, "的视频链接出错！")
                continue

            if "#EXTM3U" not in content:
                print("这不是一个m3u8的视频链接！")
                continue
            cryptor = None
            base_url = u.replace(url.split('/')[-1], '')
            base_url2 = re.findall(r'https?://[^/]+', u)[0]
            if "EXT-X-KEY" not in content:
                print("没有加密")
            else:
                # 使用re正则得到key和视频地址
                jiami = re.findall('#EXT-X-KEY:(.*)\n', content)
                # print(jiami[0],jiami)
                keyurl = re.findall('URI="(.*)"', jiami[0])[0]
                # 得到每一个完整视频的链接地址
                if keyurl.startswith('/'):
                    keyurl = base_url2 + keyurl
                elif not keyurl.startswith('http'):
        keyurl = base_url + keyurl
    print(keyurl)
    keycontent = rq.get(keyurl, headers=h).content
    cryptor = AES.new(keycontent, AES.MODE_CBC, b'0000000000000000')

# 得到每一个ts视频链接
tslist = re.findall('EXTINF:(.*),\n(.*)\n#', content)
print(tslist)
# exit()
newlist = []
for i in tslist:
    newlist.append(i[1])

tslisturl = []
for i in newlist:
    if i.startswith('/'):
        tsurl = base_url2 + i
    elif not i.startswith('http'):
        tsurl = base_url + i
    else:
        tsurl = i
    tslisturl.append(tsurl)

# 得到解密方法，这里要导入第三方库  pycrypto
# 这里有一个问题，安装pycrypto成功后，导入from Crypto.Cipher import AES报错
# 找到使用python环境的文件夹，在Lib文件夹下有一个 site-packages 文件夹，里面是我们环境安装的包。
# 找到一个crypto文件夹，打开可以看到 Cipher文件夹，此时我们将 crypto文件夹改为 Crypto 即可使用了
# 必须添加b'0000000000000000'，防止报错ValueError: IV must be 16 bytes long

# for循环获取视频文件
with open(filename, 'wb') as fg:
    for i in tslisturl:
        print(i)
        res = rq.get(i, headers=h)
        # 使用解密方法解密得到的视频文件
        if cryptor == None:
            cont = res.content
        else:
            cont = cryptor.decrypt(res.content)
        fg.write(cont)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

天际的海浪 2022-07-07 04:06

关注

你代码没发完整啊

    for u in v  or u in v1 or u in v2: 这个不对应该是
    for u in [v, v1, v2]:

给你改好了：

import requests as rq, re
from lxml import etree
from Crypto.Cipher import AES
show = int(input('请输入show编号：'))
url = f'http://www.yinghuacd.com/show/{show}.html'
h = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}
r = rq.get(url, headers=h)
rr = r.content.decode('utf-8')
html = etree.HTML(rr)
li_list = html.xpath(r'//div[@class="movurl"]/ul/li')
for li in li_list:
    href =li.xpath(r'.//a/@href')
    jishu = li.xpath(r'.//a/text()')
    for hrf,ji in zip(href,jishu):
        hrf1='http://www.yinghuacd.com'+hrf#遍历每一个m3u8地址详情页
        print(hrf1)
        req = rq.get(url=hrf1, headers=h)
        htm = req.content.decode('utf-8')
        f=re.search(r'<h1><a .+?>(.*?)</a>', htm, re.S).group(1)
        vid = re.search(r'<div data-vid="(.*?)"', htm, re.S).group(1)#加密m3u8地址
        v = vid.split('$mp4')[0]
        v1 = v.split('index.m3u8')[0] + '1500kb/hls/' + 'index.m3u8'
        v2 = v.split('index.m3u8')[0] + '1200kb/hls/' + 'index.m3u8'
        for u,k in [[v,''], [v1,' 1500kb'], [v2,' 1200kb']]:
            filename=f'{f} {ji}{k}.mp4'
            print(filename,u)
            try:
                content=rq.get(url=u, headers=h).text
            except :
                print(u,"的视频链接出错！")
                continue

            if "#EXTM3U" not in content:
                print("这不是一个m3u8的视频链接！")
                continue
            cryptor = None
            base_url = u.replace(url.split('/')[-1], '')
            base_url2 = re.findall(r'https?://[^/]+',u)[0]
            if "EXT-X-KEY" not in content:
                print("没有加密")
            else:
                # 使用re正则得到key和视频地址
                jiami = re.findall('#EXT-X-KEY:(.*)\n', content)
                # print(jiami[0],jiami)
                keyurl = re.findall('URI="(.*)"', jiami[0])[0]
                # 得到每一个完整视频的链接地址
                if keyurl.startswith('/'):
                    keyurl = base_url2 + keyurl
                elif not keyurl.startswith('http'):
                    keyurl = base_url + keyurl
                print(keyurl)
                keycontent = rq.get(keyurl, headers=h).content
                cryptor = AES.new(keycontent, AES.MODE_CBC, b'0000000000000000')

            # 得到每一个ts视频链接
            tslist = re.findall('EXTINF:(.*),\n(.*)\n#', content)
            print(tslist)
            # exit()
            newlist = []
            for i in tslist:
                newlist.append(i[1])

            tslisturl = []
            for i in newlist:
                if i.startswith('/'):
                    tsurl = base_url2 + i
                elif not i.startswith('http'):
                    tsurl = base_url + i
                else:
                    tsurl = i
                tslisturl.append(tsurl)

            # 得到解密方法，这里要导入第三方库  pycrypto
            # 这里有一个问题，安装pycrypto成功后，导入from Crypto.Cipher import AES报错
            # 找到使用python环境的文件夹，在Lib文件夹下有一个 site-packages 文件夹，里面是我们环境安装的包。
            # 找到一个crypto文件夹，打开可以看到 Cipher文件夹，此时我们将 crypto文件夹改为 Crypto 即可使用了
            # 必须添加b'0000000000000000'，防止报错ValueError: IV must be 16 bytes long

            # for循环获取视频文件
            with open(filename, 'wb') as fg:
                for i in tslisturl:
                    print(i)
                    res = rq.get(i, headers=h)
                    # 使用解密方法解密得到的视频文件
                    if cryptor == None:
                        cont = res.content
                    else:
                        cont = cryptor.decrypt(res.content)
                    fg.write(cont)

如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

运行爬取m3u8视频代码，遍历了详情页面，运行出了每页的m3u8地址，但没有保存，是什么问题 python
2022-07-07 03:38

回答 1 已采纳你代码没发完整啊 for u in v or u in v1 or u in v2: 这个不对应该是 for u in [v, v1, v2]: 给你改好了： import req
解析几个m3u8地址了，报错了一个，找下是代码问题还是地址问题 python
2022-07-06 01:43

回答 1 已采纳 print(key[0]) 输出 /20220703/BcqtmF44/1500kb/hls/key.key 这是相对地址需要在前面加上网址 https://s7.fsvod1.com/ 变成绝对地
python异步爬取到的m3u8文件为0kb python
2021-08-31 20:01

回答 1 已采纳应该是file没有正常关闭，异步请分开存储，再合并。
python爬虫项目——自动批量抓取m3u8网页视频
2021-10-14 05:59

本项目专注于自动批量抓取m3u8网页视频，这是一个非常实用的技能，特别是对于那些需要收集网络视频数据的人来说。m3u8是一种基于HLS（HTTP Live Streaming）的多媒体播放列表文件格式，常见于流媒体服务，如在线直播...
当我爬取一个m3u8中的ts地址时，当下在最后一个文件时老是报错 python 有问必答
2021-05-20 17:33

回答 3 已采纳 post传入的参数不对，可能应该传入列表（list参数），但实际传入的是字符串，你检查下
m3u8中带png的转化，目标为MP4 python 爬虫
2022-07-29 18:40

回答 1 已采纳要不要我直接给你介绍一个下载视频的软件😶
爬虫问题批量获取m3u8 python 爬虫
2022-11-15 16:31

回答 6 已采纳链接发一下
python爬取m3u8连接的视频
2020-09-20 18:07

本篇文章将详细介绍如何使用Python来爬取并下载通过M3U8链接提供的视频。首先，我们需要理解M3U8文件的结构。M3U8文件本质上是一个文本文件，包含了视频文件的多个小片段（通常为TS格式）的URL列表。每个TS文件...
uniapp怎么播放m3u8格式的监控视频 android vue.js
2021-01-06 15:31

回答 7 已采纳
为什么很多视频网站都使用M3U8，相比与mp4直传视频流有何优势 ajax android java javascript
2020-01-08 15:12

回答 1 已采纳 1.HTML5 直接支持m3u8协议。 2.m3u8其实是一个协议而不是一种视频格式，m3u8里面包括的多是视频块索引。可以通过网络状态自动切换码率。MP4就没有这方面优势了。 3.m3u8允许客
video.js播放m3u8视频无法跨域访问 nginx
2020-03-21 19:51

回答 2 已采纳跨域头加到视频服务器，不是代理转发那里。你现在加法，跨域头没有加进去的，看一下客户端请求就知道
python3.8爬取拉勾教育mp4视频解密m3u8到本地一键执行
2020-08-26 10:26

解析TS文件，压制成mp4：遍历文章id，获取m3u8地址，解析每个ts的key解密，按顺序排列，压制成mp4文件(如果有ffmpeg压制方案可以追加，ffmpeg可以指定视频为h264编码格式，可用于OSS存储web端播放).目前是本地写了...
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
python爬虫多线程处理m3u8视频链接的下载，你还在一个一个遍历ts链接慢慢下载？
2024-06-08 15:10

Mr.Zwq的博客 python爬虫下载视频时多线程处理m3u8视频链接的下载，你还在一个一个遍历ts链接慢慢下载？
Python爬取某视频并下载
2021-01-08 15:31

Python爬取动态网页中的视频资源通常涉及到多个步骤，包括网页分析、动态内容抓取、视频链接定位以及视频文件的下载和合并。以下是对这个过程的详细说明：首先，我们需要了解动态网页的工作机制。动态网页是通过...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月7日

悬赏问题

¥15 Stata链式中介效应代码修改
¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 添加组件无法加载页面,某块加载卡住
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用

运行爬取m3u8视频代码，遍历了详情页面 ，运行出了每页的m3u8地址，但没有保存，是什么问题

1条回答 默认 最新

问题事件

悬赏问题

运行爬取m3u8视频代码，遍历了详情页面，运行出了每页的m3u8地址，但没有保存，是什么问题

1条回答默认最新