关于爬取电影过程中，下载步骤报错的问题？

问题具体就是：在爬取一个网站的过程中，进程是已经爬取到了视频的m3u8文件；准备对文件里面的每一段m3u8文件链接进行下载，写完下载流程后开始报错，望指教？

问题截图：

'''
思路：
1、拿到主页面的页面源代码，找到iframe
2、从iframe页面源代码中拿到m3u8文件
3、下载第一层m3u8文件，拿到真实地址 ——>下载第二层真实的m3u8文件
4、下载视频
5、下载key（密钥），进行解密操作
6、合并所有ts文件为一个MP4文件
'''

import requests
from bs4 import BeautifulSoup  #用来提取源代码里的数据
import re    #使用正则提取源代码数据
import asyncio
import aiohttp   #用来协程下载
import aiofiles   #协程文件处理模块

#正则提取规则
obj1=re.compile(r'2.html","link_pre":"","url":"(?P<src>.*?)","url_next":"https:')

#2.1子程序：找到主页面的源代码，找到iframe对应的url
#在这一步课程91看剧里面，这里只是找到了iframe的url，需要进一步在这里提取第一层m3u8地址；但是在自己实操用的片吧网址，正则提取完之后就是第一层m3u8地址了

def get_iframe_src(url):
    resp=requests.get(url)
    #print(resp.text)  #测试是否正常爬取到源代码


    #修改为正则爬取，这里提取完之后就是第一层的m3u8地址了
    content=resp.text  #把源代码变成text格式存储起来，用来提取
    main_page=obj1.finditer(content)
    for it in main_page:
        #print(it.group('src'))  #这两行是为了查看是否正常读取到m3u8地址,并且去掉‘/’是否成功
        src_modify=it.group('src').replace('\\','')   #去掉链接中的反斜杠‘/’
        #print(src_modify) #测试是否去除成功
        return src_modify  #输出正确的第一层m3u8地址
    resp.close()




#2.2、子程序：拿到第一层的m3u8文件下载地址；这一步只在课程里91看剧需要，实操的网址2.1里拿到的就是第一层m3u8了
def get_first_m3u8_url(url):
    resp=requests.get(url)
    #print(resp.text)
    obj2=re.compile(r'var main=''(?P<m3u8_url>.*?)''')
    m3u8_url=obj2.search(resp.text).group('m3u8_url')   #这里是把m3u8地址提取出来
    #print(m3u8_url)
    resp.close()
    return m3u8_url  #让函数返回这一个地址


#2.3、子程序：下载第一层m3u8文件
def download_m3u8_file(url,name):
    resp=requests.get(url)
    with open(name,mode='wb')as f:
        f.write(resp.content)
    resp.close()



#2.5.1、子程序：异步协程进行下载
async def download_ts(url,name,session):
    async with session.get(url)as resp:
        async with aiofiles.open(f'4.9-video2/{name}',mode='wb')as f:
            await f.write(await resp.content.read())  #把下载到的内容写入文件中
    print(f'{name}下载完毕')


#2.5、子程序：异步协程处理拼接下载
#实操版
async def aio_download(up_url):
    tasks=[]


    async with aiohttp.ClientSession() as session:

        async with aiofiles.open('4.93-抓取91看剧复杂版——second-m3u8.txt',mode='r',encoding='utf-8')as f:
            async for line in f:
                if line.startswith('#'):  #’#‘开头的行不要
                    continue
                # line就是xxxx.ts文件
                url = line.strip()  # 去掉没用的空格和换行
                name=line.rsplit('/',1)[1]  #取网址最后一个斜杠后面的字符作为文件名,意思是：从右边切，切一次，得到【1】的位置的内容
                task=asyncio.create_task(download_ts(url,name,session))
                tasks.append(task)
            await asyncio.wait(tasks)  #等待任务结束



#2、主程序
def main(url):
    #2.1、找到主页面的源代码，找到iframe对应的url
    iframe_src=get_iframe_src(url)
    #print(iframe_src)
    #2.3下载第一层m3u8文件
    download_m3u8_file(iframe_src,'4.93-抓取91看剧复杂版——first-m3u8.txt')  #按照课程正常的话括号里的’iframe_src‘要改为2.2里的’first_m3u8_url_ture‘
    #2.4下载第二层m3u8文件
    # 比对一下两层m3u8

    with open('4.93-抓取91看剧复杂版——first-m3u8.txt',mode='r',encoding='utf-8') as f:
        for line in f:
            if line.startswith('#'):  #让程序识别文件里面时，自动跳过‘#’开头的行段
                continue
            else:
                line=line.strip()  #去掉空白或者换行符
                #准备拼接第二层m3u8的下载路径
                second_m3u8_url=iframe_src.split('/20210730')[0]+line
                download_m3u8_file(second_m3u8_url,'4.93-抓取91看剧复杂版——second-m3u8.txt')
                print('第二层m3u8下载完毕')

    #2.5下载视频
   
    #实操写法
    up_url='开始'
    asyncio.run(aio_download(up_url))


#1、主程序调用处
if __name__=='__main__':
    url='https://www.pianba.net/yun/84961-1-1/'
    main(url)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CODE_9527SR 2021-10-18 10:03
关注
我觉得是你的文件名有问题，建议你文件名换个自己命名的试下

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬取解析下载页面图片报错不知道怎么解决啊 python 爬虫
2022-03-18 00:45

回答 2 已采纳看看这个 urlretrieve的用法_CSDN_Xying的博客-CSDN博客_urlretrieve什么意思 urlretrieve用作
爬取时间时，出现了报错 python
2022-10-01 01:46

回答 2 已采纳方括号就是列表，现在输出了空列表说明你的正则表达没有写对，匹配不到目标数据，再好好修改修改正则表达式
关于爬取图片下载问题 python 爬虫
2022-03-16 16:12

回答 1 已采纳根据报错，可知，你所爬取的网站并没有成功响应你的请求你的代码里没有给出url=" "，有可能是你的需要爬取的网址出错了。jpg格式？如果你需要爬取的内容是图片，那么你需要改一下你的代码了，要以.jpg
【python】爬取豆瓣电影排行榜Top250存储到Excel文件中【附源码】
2024-01-05 14:49

Yan-英杰的博客爬取豆瓣电影排行榜Top250存储到Excel文件中
关于 java 利用jsoup爬取图片的问题？ java 爬虫
2023-02-13 14:54

回答 3 已采纳每个网站的数据请求方式可能不一样，甚至有些网站不让下载，能够检测到不是人工下载。你可以手动打开那个不能下载的url，复制到浏览器上打开看能否正常显示，其次url是否发生了变化。望采纳！！
运行** ## 用python爬取东方财富股票 **报错 python 有问必答
2021-11-18 21:18

回答 1 已采纳这个应该版本更新导致的，建议用第三方的requests去爬取，标准库的urllib3 不太友好
问：这个爬取代码是哪里出问题了？ python
2023-03-19 15:23

回答 3 已采纳 open 只能创建文件，不能创建文件夹，你需要在写文件前验证文件是否存在，如果不存在需要在写入前创建文件夹 import requests import os # 追加 os 引用 header
Python 爬虫实现：抓取电影网站信息并入库
2020-09-22 15:57

盛夏温暖流年的博客运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下载安装包访问 Python官网下载地址：https://www.python.org/downloads// 下载适合自己系统的安装包：我用的是 ...
我在csdn下载了爬取飞卢小说的原码老报错 python 有问必答
2022-01-01 10:19

回答 1 已采纳 csdn上传的资源不一定都是可以完美使用的哦，遇到什么使用问题最好联系一下上传者解决问题
批量爬取数据中报错list index out of range（索引本身没问题）怎么办 pycharm python 爬虫
2022-05-25 19:20

回答 2 已采纳你是这句报的错， title = re.findall('<h1 id="video-title" title="(.*?)" class="video-title">', resp.te
爬取网页，html代码报错 html pycharm python
2022-01-11 17:25

回答 2 已采纳 htmls是你上面函数download_all_htmls返回值，你需要先调用该函数建议修改代码如下： if __name__=='__main__': htmls=download_all
项目二：python爬取豆瓣电影信息并分析
2021-02-25 19:51

&黄焖鸡米饭&的博客对豆瓣电影top250的爬取与分析爬虫时主要运用的库是re，request，Beautifulsoup，lxml，分析时主要运用的是pandas，matplotlib。通过 F12 查看网页源代码，ctrl+shift+i ctrl+shift+n，检查元素，定位要爬取的...
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
爬虫笔记，记录本此爬虫过程中遇到的问题和解决方法
2020-10-24 10:38

折纸之泪的博客方便爬取到的数据直接存入数据库，但是如果数据库字段的类型或长度出现问题，第一时间可能就会认为是爬虫的哪个步骤出现了问题，因而浪费时间，因此一定要确定数据库表的字段之后在进行爬取，会方便很多。...
Python学习（2）图片爬取
2022-04-22 07:45

mozun2020的博客 Python学习（2）（爬虫）图片爬取前言一. Python准备二. Python仿真三. 仿真结果四. 小结前言随着人工智能研究的不断兴起，Python的应用也在不断上升，由于Python语言的简洁性、易读性以及可扩展性，特别是在开源...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月17日
展开全部

悬赏问题

¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置

关于爬取电影过程中，下载步骤报错的问题？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新