pycharm爬虫下载视频python

用pycharm运行一个程序是没有报错，但没有预想的那样的效果，代码如下：

# ！/usr/bin/python3
# -*- coding: utf-8 -*-
import re
from lxml import etree
import requests
import time
from tqdm import tqdm
import os
from urllib.request import urlopen


def download_from_url(url, dst):
    """
    @param: url to download file
    @param: dst place to put the file
    :return: bool
    """
    # 获取文件长度
    try:
        file_size = int(urlopen(url).info().get('Content-Length', -1))
    except Exception as e:
        print(e)
        print("错误，访问url: %s 异常" % url)
        return False

    # print("file_size",file_size)
    # 判断本地文件存在时
    if os.path.exists(dst):
        # 获取文件大小
        first_byte = os.path.getsize(dst)
    else:
        # 初始大小为0
        first_byte = 0

    # 判断大小一致，表示本地文件存在
    if first_byte >= file_size:
        print("文件已经存在,无需下载")
        return file_size

    header = {"Range": "bytes=%s-%s" % (first_byte, file_size)}

    pbar = tqdm(
        total=file_size, initial=first_byte,
        unit='B', unit_scale=True, desc=url.split('/')[-1])

    # 访问url进行下载
    req = requests.get(url, headers=header, stream=True)
    try:
        with(open(dst, 'ab')) as f:
            for chunk in req.iter_content(chunk_size=1024):
                if chunk:
                    f.write(chunk)
                    pbar.update(1024)
    except Exception as e:
        print(e)
        return False

    pbar.close()
    return True


def DownloadFile(url, name):
    """
    下载文件
    :param url:
    :param name:
    :return:
    """
    try:
        resp = requests.get(url=url, stream=True)
        content_size = int(resp.headers['Content-Length']) / 1024
        with open(name, "wb") as f:
            print("package total size is:", content_size, 'k,start...')
            for data in tqdm(iterable=resp.iter_content(1024), total=content_size, unit='k', desc=name):
                f.write(data)

        print("%s 下载成功" % url)
        return True
    except Exception as e:
        print(e)
        print("%s 下载失败" % url)
        return False


# 头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}

# 访问页面
response = requests.get('https://play-9zh7eclb.pomoho.com/e98a9b83ae9e4cc050f7642a7dda2752/63b2e0b1/4947/49464230_11_1DE6A544C44D5EEF636C722178909A69.mp4', headers=headers)
data = response.text

# 构造了一个XPath解析对象并对HTML文本进行自动修正
html = etree.HTML(data)
# 获取视频播放链接
html_data = html.xpath('//div[@class="r_box"]/ul/li//a/@href')
# print("html_data", html_data, type(html_data))

# 遍历url
for i in html_data:
    url = "https://play-9zh7eclb.pomoho.com%s" % i
    print(url)

    # 访问url
    response_1 = requests.get(url, headers=headers)
    data_1 = response_1.text
    # 正则匹配视频地址
    video = re.findall('type: "video/mp4", src: "(.*?)"', data_1)
    video_1 = video[0]
    print("video_1", video_1)
    x = video_1.split('/')[-1]

    # 本地保存视频文件名
    name = f'{x}.mp4'
    print("name", name)

    # 下载视频
    download_from_url(video_1, name)

    # 这里只演示第一个视频，直接break
    break

预想结果：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjh4312 2023-01-04 12:02
关注
response = requests.get('https://play-9zh7eclb.pomoho.com/e98a9b83ae9e4cc050f7642a7dda2752/63b2e0b1/4947/49464230_11_1DE6A544C44D5EEF636C722178909A69.mp4', headers=headers)
你这个请求页面已经是后缀mp4的，怎么能不错呢？

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Pycharm-Python爬虫专业工具我的最爱使用
2024-04-20 16:54

PyCharm是一款由JetBrains公司开发的集成开发环境（IDE），尤其在Python编程领域内享有极高的声誉。它以其强大的功能、友好的用户界面和丰富的插件系统，深受广大程序员的喜爱，尤其是对于Python爬虫的开发工作，...
Python爬虫:利用爬虫下载B站视频
2025-02-11 18:20

瑆汵的博客爬虫是一种按照一定规则，从互联网上自动获取信息的脚本。本篇文章会介绍，如何利用网络爬虫，获取哔哩哔哩网站上的视频。
超详细Python+Pycharm下载安装教程！
2025-02-08 17:16

Python_trys的博客 dos命令输入python后获得当前Python的版本号，然后继续输入python的代码print（‘hello’），回车后能够输出hello就证明python的环境可以用了，要是第二步的时候出错没法输出hello，可能就是环境变量有问题，安装的...
pycharm爬虫模块（scrapy）基础使用
2024-04-15 22:48

瓜皮先生138的博客今天学了个爬虫。在此记录。
Python及Pycharm详细下载安装教程！
2025-02-05 17:33

Python_trys的博客在输入pip list 时，提示我们可以升级pip版本，并提示我们使用python -m pip install --upgrade pip命令进行升级。创建这个项目的时候默认使用一个虚拟的环境，我们把它修改成我们刚才创建好的一个本地的Python环境...
爬虫为什么常用Python语言？
2024-06-29 11:23

凯森森讲Python的博客其实不同的编程语言都可以写爬虫，只是有些语言更适合于某些场合和目的。在这篇文章中，从性能、难度、功能、风险等方面来比较几种常见的编程语言在写爬虫方面的优缺点，并且给出我的建议和看法。在探讨为什么爬虫非...
【Python matplotlib】简单爬虫4数据可视化 ~ matplotlib设置中文显示（pycharm设置） ~ python学习笔记2
2020-12-21 18:28

在Python编程中，数据可视化是一项重要的技能，可以帮助我们更好地理解和展示数据。`matplotlib`是Python中最常用的数据可视化库之一，能够创建各种类型的图表，如折线图、散点图、直方图等。本篇文章主要关注如何在...
【2024版】超详细Python+Pycharm安装保姆级教程，Python+Pycharm环境配置和使用指南，看完这一篇就够了
2024-07-17 14:04

进击的六角龙的博客本文将从 Python解释器安装到Pycharm专业版安装和配置汉化等使用都进行了详细介绍，希望能够帮助到大家。Python解释器&Pycharm安装包&Pycharm破姐插件我都打包好了。
Python爬虫——用Pycharm写一个爬虫程序，爬取糗图百科全部糗图，室友看了直呼牛逼_pycharm创建爬虫项目(1)
2024-04-30 13:47

m0_60721860的博客 python爬虫是非常常见的数据抓取工具，用Python能够很快地爬取我们需要的数据。作为一名新手，写的文章不好，希望大家能够多多批评指正，我将不胜感激。希望大家多多支持我哦，我会努力提高自己的编程能力，给大家奉...
Python爬虫实战：爬取视频到本地，超详细实战教程
2025-09-17 11:09

xcLeigh的博客该教程针对批量保存网站视频的需求，详解用 Python 实现爬取的方法。先介绍所需的 requests、BeautifulSoup4、you-get 等工具库及安装步骤，说明网站单视频与合集视频的 URL 特点。接着分阶段讲解核心功能，从单...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

pycharm爬虫下载视频python

2条回答 默认 最新

问题事件

2条回答默认最新