爬虫请求被拒代码412（相关搜索：服务器）

爬虫请求服务器被拒，代码412

编写爬虫程序向B站发送requests请求，想爬取B站弹幕数据，请求被拒，返回代码412。
希望有码神出来指点一下刚学习爬虫 ^.^

import requests
import re

# url = 'https://comment.bilibili.com/1473879133.xml'
url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=1473879133'
headers = \
    {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}
response = requests.get(url, headers)
response.encoding = 'utf-8'
print(response.text)
# {"code":-412,"message":"request was banned","ttl":1}
print(response.status_code)
# 412

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-03-30 04:25
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

这个问题是由于B站对爬虫进行了限制导致的。B站对于爬虫的请求会进行一些检测，如果检测到是爬虫请求，就会返回412错误码，拒绝服务。
要解决这个问题，你可以尝试以下方法：

更改请求头信息 ：尝试修改User-Agent等请求头信息，使其看起来更像是正常浏览器发出的请求。例如，将User-Agent设置为常见浏览器的User-Agent。
pythonCopy code
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36' }

使用代理 ：通过使用代理服务器发送请求，可以隐藏真实的IP地址，降低被检测为爬虫的风险。
降低访问频率 ：如果你的爬虫发送请求的频率过高，也容易被识别为爬虫。可以尝试降低请求的频率，增加访问的间隔时间。
模拟登录 ：如果需要登录才能获取数据，可以尝试模拟登录获取cookie，并在请求中带上cookie。
查看B站的API文档 ：如果B站提供了官方的API，建议查看官方文档，使用官方API获取数据，避免被封IP。
请注意，尽管以上方法可以降低被检测为爬虫的风险，但并不能保证完全解决问题。在进行任何爬取操作时，请遵守网站的相关规定，避免对网站造成不必要的影响。

如果该回答解决了您的问题，请采纳！如果没有，请参考以下方案进行修订
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 爬虫是一种利用 Python 编程语言
2024-07-12 15:03

### Python 爬虫知识点详解 #### 一、Python 爬虫基本概念与应用场景 1. **爬虫（Crawler）**： - 定义：爬虫是一种能够自动访问互联网并从中提取所需信息的程序。 - 特点：能够按照预定规则或策略自动抓取网页...
Python爬虫是一种使用Python编程语言来自动化获取网页数据的技术这项技术主要涉及到向目标服务器发送请求，获取HTML页
2024-05-02 14:49

Python爬虫是一种利用Python编程语言实现自动化的网页数据抓取技术。它的工作原理主要包括以下几个步骤：首先向目标服务器发送HTTP请求；接着获取服务器返回的HTML页面内容；然后对HTML进行解析以提取所需的数据。...
peer_编程代码_地震波爬虫_peer_
2021-10-03 16:38

在这个场景中，我们关注的是一个名为"peer"的项目，其中涉及到的关键词有"编程代码"、"地震波爬虫"以及"peer"。从标题和描述我们可以推测，这可能是一个利用编程技术对"peer"网站进行数据抓取，特别是与地震波相关...
Python爬虫核心技术解析：从请求到数据存储.md
2025-06-23 16:30

在使用Python爬虫时，开发者需要遵循一些基本的规则和最佳实践，确保爬虫行为的合法性与合理性，比如遵守网站的robots.txt协议，设置合理的请求间隔以避免对目标服务器造成压力，获取商业数据前应获得相应的授权等。...
Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

总的来说，Python爬虫是通过Python编程语言实现的自动化数据获取工具，它涉及到网络请求、网页解析、反爬策略、数据存储等多个方面，广泛应用于数据分析、市场研究、内容监控等场景。通过不断学习和实践，我们可以...
并发编程在爬虫中的应用.md
2024-04-20 08:13

标签中提到的“编程语言 爬虫并发编程在爬虫中的应用”，这意味着我们要讨论的内容涉及编程语言的并发模型，以及如何将并发模型应用于爬虫开发中。从提供的部分文件内容中，我们可以提取出以下知识点： 1. 并发...
Python爬虫详解[项目代码]
2025-11-14 10:42

Python爬虫是一种通过编程方式自动从互联网上抓取数据的程序。它的工作原理是首先定位到目标网页的URL，然后通过发送HTTP请求获取网页内容，最后解析返回的数据，提取出有价值的信息。整个过程类似于人类上网时的...
爬虫必备：网站蜘蛛UA[代码]
2025-11-25 07:12

编写爬虫时，用户代理不仅有助于网站识别访问者的类型，还可以用来判断是否对爬虫进行限制访问，或者对爬虫发送的请求做出特定的响应。整体而言，这篇文章为希望深入了解和利用爬虫技术的读者提供了一扇窗。它不仅...
python语言音乐爬虫程序代码QZQ.txt
2024-12-09 08:50

Python音乐爬虫程序是一种自动化脚本，它利用Python编程语言编写，目的是从互联网上获取音乐文件。在这个过程中，它模仿人类用户的行为，使用网络请求向音乐服务网站发送请求，并提取音乐文件的下载链接。爬虫程序...
携程网动态网页python爬虫代码恩施大峡谷
2022-02-20 13:57

【标题】：“携程网动态网页python爬虫代码恩施大峡谷”指的是使用Python编程语言编写的一段爬虫程序，专门用于抓取携程网关于恩施大峡谷的相关动态网页数据。爬虫是一种自动化工具，能够按照预设规则遍历互联网上的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月29日

爬虫请求被拒代码412（相关搜索：服务器）

爬虫请求服务器被拒，代码412

2条回答 默认 最新

问题事件

2条回答默认最新