关于爬b站视频遇到的403问题

最近学习爬虫，想练练手，爬取b站的视频。然后选中了最近看的，

url = ‘https://www.bilibili.com/video/BV1eu4m1P7Pj/?spm_id_from=333.337.search-card.all.click&vd_source=a710d8ce6c660aea6bcb6930aeede828’

一共30P。
这里我先说一下我遇到的问题：视频和音频我是分开爬取的，问题出在爬取的视频上，日志返回的信息是403，并且视频 url 输出的 html文本里写着：

<html>
<head><title>403 Forbidden</title></head>
<body>
<center><h1>403 Forbidden</h1></center>
<hr><center>openresty</center>
</body>
</html>
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->

我的处理：
1.我试着将请求头里的信息完善（能抄的我都抄了上去），不管用
2.我将SSL证书关掉，也不管用
3.我又设置了代理，也不行
4.我又试了试HTTP2.0的请求，不行。
5.我搜索了其他博客相关的信息，有的说是服务器磁盘空间不足。

下面是我的代码，请各位赏脸帮帮我吧，我真的搞了好久（我太笨了，实在没办法了）QWQ

import requests
from lxml import etree
import re
import logging


base_url = 'https://www.bilibili.com/video/BV1eu4m1P7Pj/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'}
total_page = 30
logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s:- %(message)s')


'''爬取网页'''


def scrape_page(url):
    logging.info('开始爬取 %s...',url)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        logging.error('请求失败，响应状态码：%s  url:%s',response.status_code,url)
    except requests.RequestException:
        logging.error('发生其他错误。url: %s',url,exc_info=True)


'''爬取详情页'''


def scrape_index(page):
    url_index = f'{base_url}?p={page}&vd_source=a710d8ce6c660aea6bcb6930aeede828'
    return scrape_page(url_index)


'''解析网页'''


def analysis_page(html):
    result = etree.HTML(html)
    result1 = result.xpath('//script[4]/text()')  # 这里主要是在练习xpath
    url_video_pattern = re.compile('"bandwidth".*?"id":32,"baseUrl":"(.*?)","base_url"',re.S)
    url_music_pattern = re.compile('.*?"id":30280,"baseUrl":"(.*?)","base_url"',re.S)
    url_video = re.search(url_video_pattern,str(result1)).group(1).strip() if re.search(url_video_pattern,str(result1)) else None
    url_music = re.search(url_music_pattern,str(result1)).group(1).strip() if re.search(url_music_pattern,str(result1)) else None
    logging.info('获取的video: %s   music: %s',url_video,url_music)
    return url_video,url_music


'''转换成二进制数据'''


def bytes_data(url):
    logging.info('开始转换成二进制 %s...', url)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.content
        logging.error('请求失败，响应状态码：%s  url:%s', response.status_code, url)
    except requests.RequestException:
        logging.error('发生其他错误。url: %s', url, exc_info=True)


'''保存文件'''


def save_video(content):
    logging.info(f'开始保存video{i}中...')
    try:
       path = f'D:\\爬取的b站视频\\video\\video-{i}.mp4'
       with open(path,'wb') as f:
           f.write(content)
           logging.info(f'保存video{i}成功')
    except PermissionError:
        logging.error('没有足够的权限访问或修改文件')
    except TypeError:
        logging.error(f'保存video{i}失败')


def save_music(content):
    logging.info(f'开始保存music{i}中...')
    try:
        path = f'D:\\爬取的b站视频\\music\\music-{i}.mp3'
        with open(path, 'wb') as f:
            f.write(content)
            logging.info(f'保存music{i}成功')
    except PermissionError:
        logging.error('没有足够的权限访问或修改文件')
    except TypeError:
        logging.error(f'保存music{i}失败')


def main():
    global i
    i = 0
    for page in range(1,total_page+1):
        i = i+1
        html = scrape_index(page)
        data_url = analysis_page(html)
        contents_video = bytes_data(data_url[0])
        contents_music = bytes_data(data_url[1])
        save_music(contents_music)
        save_video(contents_video)


if __name__ == '__main__':
    main()

到目前为止，我只是实现了视频和音频的分别爬取和保存。但是令人遗憾的是我只成功的爬取了所有的音频，而视频除了第一个，其他的全失败，全是403. QWQ。

为了看的更清楚，我把我遇到的问题和尝试的思路再描述一下。
视频和音频我是分开爬取的，问题出在爬取的视频上，日志返回的信息是403，并且视频 url 输出的 html文本里写着：

<html>
<head><title>403 Forbidden</title></head>
<body>
<center><h1>403 Forbidden</h1></center>
<hr><center>openresty</center>
</body>
</html>
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->
<!-- a padding to disable MSIE and Chrome friendly error page -->

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
冰履踏青云 2024-02-23 17:00
关注
恰好刷到，我来解答一下，b站好像有refer检测，所以你只需要在scrape_page方法里加上headers['Referer'] = url应该就能解决你的问题，即：

def scrape_page(url): logging.info('开始爬取 %s...',url) try: headers['Referer'] = url response = requests.get(url,headers=headers) if response.status_code == 200: return response.text logging.error('请求失败，响应状态码：%s url:%s',response.status_code,url) except requests.RequestException: logging.error('发生其他错误。url: %s',url,exc_info=True)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

B站爬虫爬视频连接 B站爬虫爬视频连接
2024-10-11 07:34

在编程实践中，如果遇到B站视频链接加密或动态加载的问题，可能需要进一步的处理，如模拟登录、分析JavaScript执行逻辑、使用代理IP等技术手段。此外，爬虫程序还应该具备良好的错误处理机制，以应对网络请求失败、...
B站视频评论的爬虫与数据分析
2024-06-20 21:17

有一只飞鸟Faye bird的博客生成柱状图和饼状图来分析B站视频评论3基本功能描述3.1基本功能实现了使用Selenium库进行B站视频评论的爬取，并将评论数据保存到CSV文件中。然后使用Pandas和其他相关库对评论数据进行了基本的数据分析和可视化。...
手把手教你使用Python网络爬虫获取B站视频选集内容（附源码）
2021-10-14 19:49

小小程序员i549的博客一提到B站，第一印象就是视频，相信很多小伙伴和我一样，都想着去利用网络爬虫技术获取B站的视频吧，但是B站视频其实没有那么好拿到的，关于B站的视频获取，之前有介绍通过you-get库进行实现，感兴趣的小伙伴可以看...
最新Python爬虫入门教程05：B站视频弹幕的爬取
2024-05-03 14:23

2401_84563734的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
爬虫实战遇到的问题及解决汇总 / 爬虫原理介绍
2020-01-26 21:22

Quest_sec的博客简单地说，JSON 可以将 JavaScript 对象中表示的一组数据转换为字符串，然后就可以在网络或者程序之间轻松地传递这个字符串，并在需要的时候将它还原为各编程语言所支持的数据格式，例如在 PHP 中，可以将 JSON ...
基于Python的爬取B站小视频之获取要下载视频的大小.zip
2024-02-04 13:03

在B站小视频的爬取过程中，首先需要了解B站视频页面的结构，找到包含视频信息的元素，比如视频ID、播放地址等。这通常需要通过浏览器的开发者工具查看网页源代码来完成。一旦找到这些信息，我们可以编写Python脚本来...
Python爬虫实战：爬取视频到本地，超详细实战教程
2025-09-17 11:09

xcLeigh的博客该教程针对批量保存网站视频的需求，详解用 Python 实现爬取的方法。先介绍所需的 requests、BeautifulSoup4、you-get 等工具库及安装步骤，说明网站单视频与合集视频的 URL 特点。接着分阶段讲解核心功能，从单...
小白教程：5分钟学会提取B站充电视频
2026-01-08 12:30

GoldenleafLynx28的博客比如你可以说："帮我提取B站UP主的充电视频，需要能下载MP4文件，还要包含视频标题、发布时间等基本信息"。平台会自动理解你的需求，就像有个懂技术的朋友在帮你一样。这种"描述需求-自动实现"的体验，让我这个技术...
解决python爬虫假死问题(程序偷停问题)
2024-01-31 10:09

红目香薰的博客解决python爬虫假死问题(程序偷停问题)
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客《【Python爬虫】爬虫编程技术的解密与实战》深入剖析了爬虫技术的精髓，并提供了实际应用的实战经验。作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月23日

关于爬b站视频遇到的403问题

4条回答 默认 最新

问题事件

4条回答默认最新