b站评论区爬虫显示{'code': -403, 'message': '访问权限不足', 'ttl': 1}

有没有哪位能看看b站评论区爬虫一直显示这个样子的报错，该怎么解决呢

import requests
import datetime
import csv
import hashlib
from urllib.parse import quote
import re
import time


def hash(date, num):
    pagination_str = '{"offset":"{\\"type\\":3,\\"direction\\":1,\\"Data\\":{\\"cursor\\":%s}}"}' % num
    Zt = [
        "mode=2",
        "oid=898762590",
        f"pagination_str={quote(pagination_str)}",
        "plat=1",
        "type=1",
        "web_location=1315875",
        f"wts={date}"
    ]
    Ut = '&'.join(Zt)
    ct = 'ea1db124af3c7062474693fa704f4ff8'
    string = Ut + ct
    MD5 = hashlib.md5()
    MD5.update(string.encode('utf-8-sig'))
    w_rid = MD5.hexdigest()
    print(w_rid)
    return w_rid


def get_content(num):
    headers = {
        "Cookie": "i-wanna-go-back=-1; buvid_fp_plain=undefined; DedeUserID=358542448; DedeUserID__ckMd5=993191df0493e6c3; LIVE_BUVID=AUTO8816562569019759; CURRENT_FNVAL=4048; header_theme_version=CLOSE; CURRENT_PID=fc6ca410-cfd7-11ed-9e75-2546975c7231; FEED_LIVE_VERSION=V8; hit-new-style-dyn=1; buvid3=4E102E81D-A99C-8D49-1F5E-D5BFCD9982B954941infoc; b_nut=1686098454; b_ut=5; _uuid=10B17772A-1447-97EC-B291-76F8514A72ED57049infoc; buvid4=AF2FFFC5-E98E-0872-8D0C-8D37B69A9F4442284-022060213-ujeqZGTJGq3%2BD3CBl4%2BRLw%3D%3D; enable_web_push=DISABLE; CURRENT_QUALITY=0; fingerprint=c0c84de23185b5a2e7b7fcc56809c121; buvid_fp=c0c84de23185b5a2e7b7fcc56809c121; rpdid=|(u)~m|YJ))|0J'u~|JYlum~~; SESSDATA=aff3e6a4%2C1719881593%2C6b0f2%2A11CjC-a-HgCYRgt2Y5IEQAgWBm_2ysdPF0VT8A_nKzDrzmKUKw6ii-26bjonf_lfgOLA0SVk91XzZYZXdSWl9tV2djdk1nMGszMm1QdGVWVzcxX0NmOHUzbGQ0V1lUR05qWUJDZnJQdERYWmdSZHFXbl8tSkIwNERnVGtrM3cyUUxtNXJFSnFOTmxBIIEC; bili_jct=4519996fd3d7c71943b6d4ae4d2e5e19; bp_video_offset_358542448=882657036786991107; browser_resolution=1220-680; home_feed_column=4; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MDQ3NzkxNjMsImlhdCI6MTcwNDUxOTkwMywicGx0IjotMX0.kmWdpeukRHtQmyonkkvCvS-qIm-OA1dV4F5dYfxrxwA; bili_ticket_expires=1704779103; b_lsid=DDA26288_18CDE10B467; sid=g853q0b1; PVID=5",
        "Host": "api.bilibili.com",
        "Referer": "https://www.bilibili.com/video/BV1MN4y177PB/?spm_id_from=333.337.search-card.all.click&vd_source=71aed3cc1650a98dadae447f4df568fb",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0",
    }
    date = int(time.time())
    url = 'https://api.bilibili.com/x/v2/reply/wbi/main'
    w_rid = hash(date, num)
    # sss = '{"offset":"{\\"type\\":3,\\"direction\\":1,\\"Data\\":{\\"cursor\\":%s}}"}' % num
    # print(sss)
    # 查询参数
    data = {
        'oid': '898762590',
        'type': '1',
        'mode': '2',
        'pagination_str': '{"offset":"{\\"type\\":3,\\"direction\\":1,\\"Data\\":{\\"cursor\\":%s}}"}' % num,
        'plat': '1',
        'web_location': '1315875',
        'w_rid': w_rid,
        'wts': date,
    }
    # 发送请求
    response = requests.get(url=url, params=data, headers=headers)
    json_data = response.json()
    print(json_data)
    json_data: json字典数据
    replies = json_data['data']['replies']
    # for循环遍历, 把列表里面元素一个一个提取出来
    for index in replies:
        text = index['content']['message']  # 评论
        name = index['member']['uname']  # 昵称
        location = index['reply_control']['location'].replace('IP属地：', '')  # IP
        like = index['like']  # 点赞
        ctime = index['ctime']  # 时间戳
        # 保存字典里面
        dit = {
            '昵称': name,
            '地区': location,
            '点赞': like,
            '内容': text,
        }
        # print(text, name, sex, like, location, date)
        csv_writer.writerow(dit)
        print(dit)

    # 提取下一页的参数内容
    next_offset = json_data['data']['cursor']['pagination_reply']['next_offset']
    next_num = re.findall('"cursor":(\\d+)', next_offset)[0]
    return next_num

if __name__ == '__main__':
    """保存数据"""
    # 创建文件对象
    f = open('data.csv', mode='w', encoding='utf-8-sig', newline='')
    csv_writer = csv.DictWriter(f, fieldnames=[
        '昵称',
        '地区',
        '点赞',
        '内容',
    ])
    csv_writer.writeheader()
    num = '168701'
    for page in range(1, 11):
        num = get_content(num)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-01-07 13:30
关注
引自免费微信小程序：皆我百晓生

根据你提供的代码和错误信息，问题可能出现在以下几个方面：

1.网页访问权限不足：错误信息中显示"{'code': -403, 'message': '访问权限不足', 'ttl': 1}"，这意味着你的爬虫无法访问该网站的某些内容。可能是你没有提供足够的Cookie信息或者Headers中的User-Agent被服务器识别并拒绝访问。你可以尝试更新Headers中的User-Agent。

2. KeyError: 'data'：错误信息中显示"KeyError: 'data'"，这意味着在解析JSON数据时，找不到名为"data"的键。可能是你的请求返回的JSON数据结构有变化，没有包含"data"键。你可以尝试打印输出json_data查看返回的数据结构，然后根据实际情况更新代码中获取数据的方式。

综上所述，建议你尝试以下解决方法：

更新Headers中的User-Agent，让爬虫的请求看起来更像是正常的浏览器请求。
打印输出json_data，查看返回的数据结构，确认是否缺少"data"键，然后更新代码中获取数据的方式。

如果以上方法无法解决你的问题，请提供更多的错误信息、代码上下文或其他相关信息，以便我能够更准确地帮助你解决问题。
解决 1

无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫实战：如何爬取哔哩哔哩视频评论数据
2025-03-08 23:19

Python爬虫项目的博客在本文中，我们详细介绍了如何使用 Python 爬虫爬取 B 站视频的评论数据。首先，我们分析了 B 站视频评论的 API 接口和返回的 JSON 数据结构，接着编写了爬虫程序获取评论数据，并将数据保存到 CSV 文件中。通过本文...
Python爬虫:获取某站视频评论+数据可视化完整代码+展示图手把手教程
2024-11-25 11:39

终须有梦的博客爬虫+可视化分析
Python爬虫深度实战：基于Requests-HTML与异步技术高效爬取网易公开课全站数据
2025-07-12 00:37

Python爬虫项目的博客在当今信息爆炸的时代，网络教育资源如网易公开课等平台积累了海量的优质课程内容。如何高效地获取和分析这些数据，对于...本文将详细介绍如何使用Python最新爬虫技术，构建一个高效、稳定的网易公开课数据采集系统。
B站评论区的力量：构建大语言模型微调数据集的新策略
2024-08-31 21:41

大模型入门学习的博客作为 B 站用户，我突发奇想，想到了 B 站的视频评论区，这里的对话更加贴近生活，而且 B 站的视频评论区有很多热门视频，评论数也很多，能不能那它们来构建一个中文的对话数据集呢？后记：由于时间关系，我最终没有...
求助python爬取b站投稿视频响应码-352 风控校验失败？
2023-12-04 15:27

再来一碗www的博客 if 'code' in json_data: if json_data['code'] == -403: self.process.emit("解析异常") self.quit() return print(119, json_data['code']) # video_info列表 video_info_list = [] total = len(json_data['data']...
python如何解决爬虫ip被封- - -“您操作太频繁,请稍后再访问“
2021-07-02 14:23

Vivant-W的博客招聘网站的反爬机制会识别访问的ip地址，没有携带hearders字段时，机制会认为是爬虫，将访问ip封了解决方法需要添加header，用来模拟用户登陆。右键-》copy-》copy as cURL 将复制的url复制到此链接的curl c
Python哔哩哔哩爬虫报错403
2018-11-16 09:51

KaGaMi1027的博客本文章参考于steff720的“Python爬虫如何搞定反扒的...但访问网站获取视频时间的时候页面老是报403（权限错误）。下面是出问题的部分代码： import requests response2 = requests.get(apiurl,apiheaders) res2 ...
python 爬虫 url error : HTTP 403 Forbidden
2014-07-29 15:43

ShomyLiu的博客后来发现用火狐的firebug 查看访问的url时候，发现就算是浏览器直接访问，抓包工具上也是显示403错误，然后于是用谷歌浏览器自带的抓包工具结果正常访问返回200 ，就觉得可能是headers的问题，一开始设置的...
Python：B站“每周必看”栏目数据爬取和可视化
2024-04-22 21:23

TyreBurst的博客 :-1]) .set_series_opts(label_opts=opts.LabelOpts(position="right")) # 标签显示在右侧 .reversal_axis() .set_global_opts( title_opts=opts.TitleOpts(title="视频播放数统计TOP10"), ) ) bar.render("top10_...
爬虫Python报403或data为空问题
2022-03-05 21:50

aGreySky的博客在爬取B站数据时，部分API是需要cookie才能获取数据的，没有携带则结果可能是code:403或 {"code":0,"message":"0","ttl":1,"data":{}} 比如upstat，需要将标头中的cookie放在爬虫中。 headers['User-Agent'] ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月7日

b站评论区爬虫显示{'code': -403, 'message': '访问权限不足', 'ttl': 1}

3条回答 默认 最新

问题事件

3条回答默认最新