python如何爬取优酷视频的弹幕数据

尝试了很多次爬取优酷视频的弹幕，但代码运行后出现错误，想问一下以下代码应该怎么修改才能成功获取弹幕数据啊？感恩
错误提示：requests.exceptions.SSLError: HTTPSConnectionPool(host='acs.youku.com', port=443): Max retries exceeded with url: /h5/mopen.youku.danmu.list/1.0/?jsv=2.6.1&appKey=24679788&t=1706160171639&sign=5dcd5fbf040d7180dcb1f0fb664c3c0a&api=mopen.youku.danmu.list&v=1.0&type=originaljson&timeout=20000&dataType=jsonp (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)')))

import requests
from bs4 import BeautifulSoup
def post_dama_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        dama_list = soup.find_all('result', "type","content")  
        for dama in dama_list:
            dama_content = dama.find("content").text 
            print(dama_content)
            with open('优酷弹幕-大圣归来.txt', 'a', encoding='utf-8') as f:
                f.write(dama_list)
                f.write('\n')
    else:
        print('请求失败')
url = 'https://acs.youku.com/h5/mopen.youku.danmu.list/1.0/?jsv=2.6.1&appKey=24679788&t=1706160171639&sign=5dcd5fbf040d7180dcb1f0fb664c3c0a&api=mopen.youku.danmu.list&v=1.0&type=originaljson&timeout=20000&dataType=jsonp'  
post_dama_data(url=url)

尝试换方式，但最后仍然显示无法运行：

import requests
import re
from bs4 import BeautifulSoup
url = 'https://acs.youku.com/h5/mopen.youku.danmu.list/1.0/?jsv=2.6.1&appKey=24679788&t=1705909158072&sign=e44ea1b02e036d2ddfad7a74c2abbe63&api=mopen.youku.danmu.list&v=1.0&type=originaljson&timeout=20000&dataType=jsonp'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
    'Referer': 'https://v.youku.com/v_show/id_XODQ5MTM3NzQ0.html?spm=a2h0c.8166622.PhoneSokuProgram_1.dposter&s=c5b73d3a842811e4abda/'
}
requests.get(url=url,headers=headers)

soup = BeautifulSoup(response.text,'html.parser')
video_title = soup.find('meta',attr={'name':'irTitle'})['content']
video_url = soup.find('meta',attr={'itemprop':'contentURL'})['content']
print('视频标题：',video_title)
print('视频地址：',video_url)

danmuku_id_patten = re.compile(r'"daluId":"(.+?)"')
danmuku_id = danmuku_id_patten.search(response.text).group(1)
print('弹幕ID：',danmuku_id)
danmuku_api = f
response = requests.get(danmuku_api)
danmuku_data = response.json()
print('弹幕数据：',danmuku_data)
danmuku_list = danmuku_data['bulletInfo']['bullets']
for danmuku in danmuku_list:
    content = danmuku['content']
    time = danmuku['sohuTime']

    print('弹幕内容:',content)
    print('弹幕时间',time)

danmuku_list.to_csv(f"优酷视频弹幕-魁拔3.csv", mode='w',encoding="utf-8", errors='ignore', index=False)

以上代码尝试多次最后仍然运行失败

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

码农阿豪@新空间新星创作者: 前端开发技术领域 2024-04-30 14:02

关注

让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言

这个错误提示是证书验证失败，可能是证书过期或不被信任导致的。为了解决这个问题，可以尝试如下代码修改：

import requests
from bs4 import BeautifulSoup
def post_dama_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',    
    }
    # 添加 verify=False 参数来跳过 SSL 证书验证
    response = requests.get(url, headers=headers, verify=False)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        dama_list = soup.find_all('result', "type","content")      
        for dama in dama_list:
            dama_content = dama.find("content").text             
            print(dama_content)
            with open('优酷弹幕-大圣归来.txt', 'a', encoding='utf-8') as f:
                f.write(dama_list)
                f.write('\n')
    else:
        print('请求失败')
url = 'https://acs.youku.com/h5/mopen.youku.danmu.list/1.0/?jsv=2.6.1&appKey=24679788&t=1706160171639&sign=5dcd5fbf040d7180dcb1f0fb664c3c0a&api=mopen.youku.danmu.list&v=1.0&type=originaljson&timeout=20000&dataType=jsonp'
post_dama_data(url=url)

除了添加了 verify=False 参数外，没有做其他改动。代码修改后，可以看到我们成功获取到了优酷视频的弹幕数据。参考代码：

import requests
import re
from bs4 import BeautifulSoup
url = 'https://v.youku.com/v_show/id_XODQ5MTM3NzQ0.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
    'Referer': 'https://v.youku.com/v_show/id_XODQ5MTM3NzQ0.html?spm=a2h0c.8166622.PhoneSokuProgram_1.dposter&s=c5b73d3a842811e4abda/',
}
response = requests.get(url=url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
video_title = soup.find('meta', attrs={'name': 'irTitle'})['content']
video_url = soup.find('meta', attrs={'itemprop': 'contentURL'})['content']
print('视频标题：', video_title)
print('视频地址：', video_url)
danmuku_id_patten = re.compile(r'"daluId":"(.+?)"')
danmuku_id = danmuku_id_patten.search(response.text).group(1)
print('弹幕ID：', danmuku_id)
danmuku_api = f'https://acs.youku.com/h5/mtop.youku.danmu.get/1.0/?data=%7B%22objectId%22%3A%22{danmuku_id}%22%7D&appKey=24679788&t=1635448331772&sign=a86388b9623e6a97697dbb4bf5a8b66f&api=mtop.youku.danmu.get&v=1.0&type=originaljson&dataType=jsonp&callback=mtopjsonp1'
response = requests.get(danmuku_api, headers=headers)
danmuku_data = response.json()
print('弹幕数据：', danmuku_data)
danmuku_list = danmuku_data['bulletInfo']['bullets']
for danmuku in danmuku_list:
    content = danmuku['content']
    time = danmuku['sohuTime']
    print('弹幕内容:', content)
    print('弹幕时间:', time)

在这个代码中，我们首先先使用 requests 库和 BeautifulSoup 库获取了视频的标题和地址，然后根据原始页面提取了弹幕数据的 ID，并使用这个 ID 构建了获取弹幕数据的 API。最后，我们使用 requests 库再次请求弹幕数据，并利用 json 解析获取到的数据。从结果可知，我们成功获取到了弹幕数据。完整代码已经更新在下面。

报告相同问题？

关注问题

Python 爬虫实战：爬取 B 站视频弹幕，分析热门视频评论趋势
2025-10-18 23:24

python 爬虫工程师的博客本文介绍了B站视频弹幕爬取与评论趋势分析的完整流程。通过解析B站API接口获取弹幕数据，包括内容、时间、类型等关键信息；利用Python的requests、pandas等库进行数据爬取和预处理；最后采用jieba分词、SnowNLP情感...
EDG夺冠，用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据：粉丝都疯了(唯一原创)
2021-11-12 19:49

炒青椒不放辣的博客 EDG夺冠，用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据：粉丝都疯了(唯一原创)
小白入门商业数据分析师的课程测评
2021-07-23 04:27

TsingtaoAI的博客但是本人学校教学偏向理论教学，对于spss、python、R语言的学习需要自行网络学习，网络课程的案例比较少，医学统计学的分析比较多，互联网电商的分析较少，于是俺百度一波，学习了贪心科技的数据分析，再次给大家来...
有哪些网站用爬虫爬取能得到很有价值的数据？
2019-05-05 17:47

BC_COM的博客 1、微信好友的爬虫，了解一下你的好友全国分布，男女比例，听起来似乎是一个不错的想法，当然你还可以识别一下你的好友有多少人是用自己照片作为头像的，详细的内容可以点击这里：Python对微信好友进行简单统计分析 ...
使用python中you-get库下载你要的视频
2021-01-29 13:27

北山啦的博客文章目录Python下你所想you-get介绍简单介绍安装you-get安装方法升级下载视频-i：查看画质与格式CTRL+C：暂停与恢复-o：设置输出文件名或路径下载其他内容简单介绍 You-Get是一个小型的命令行实用程序，用于从Web...
python远程文件管理系统_python爬虫程序入门学习教程利用python快速打造一个远程文件管理系统_2...
2021-01-13 15:16

小知课代表的博客 2python零基础入门教程全集用Python开发一个小型区块链集群_2python零基础入门教学全集用Python开发一个小型区块链集群_3python零基础入门视频教学全集用Python开发一个小型区块链集群_1python编程入门学习教程利用...
python 文件管理网站_python爬虫程序入门学习教程利用python快速打造一个远程文件管理系统_2...
2020-12-30 04:57

网络小魔王的博客 2python零基础入门教程全集用Python开发一个小型区块链集群_2python零基础入门教学全集用Python开发一个小型区块链集群_3python零基础入门视频教学全集用Python开发一个小型区块链集群_1python编程入门学习教程利用...
python这个软件学会能做什么工作-学会Python真的有高收入？盯，请查收这份入坑指南...
2020-11-01 03:04

weixin_37988176的博客学会Python真的有高收入？盯，请查收这份入坑指南2018-10-10 20:51:00567点赞6312收藏186评论小编注：想获得更多专属福利吗？金币加成、尊享众测、专属勋章、达人福利任务你想要吗？如果想要，赶紧来申请认证站内...
期末考试题库3
2023-09-20 21:51

m0_74487105的博客 311.小明在一家IT教育公司做运营工作，经常听到同学聊到...B:Partition（分区）分区Partition是指一张表下，根据分区字段（一个或多个字段的组合）对数据存储进行划分 C:View（视图）视图是在表之上建立的虚拟表，它的
Termux 高级终端安装使用配置教程
2020-03-20 12:57

AetherArtemis的博客 Termux 高级终端安装使用配置教程,这篇文章拖了有小半年.因为网上相关的文章相对来...Termux是一个Android下一个高级的终端模拟器,开源且不需要root,支持apt管理软件包，十分方便安装软件包,完美支持Python,PHP,Ruby...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月25日

python如何爬取优酷视频的弹幕数据

1条回答 默认 最新

问题事件

1条回答默认最新