request爬取时经常被封禁如何解决

最近学习python爬虫，在用requests爬取非正版小说网站时遇到问题，恳请各位解惑。我的目的是爬取一部小说，方法是先获取目录页的链接，然后依次访问并爬取文本，其中先后出现两种问题：

爬虫运行初期较为顺利，一定次数（10-40次）后频繁出现“max retries exceed with url”错误，估计是被服务器封锁IP，即便使用高匿IP也无法避免。一旦发生，更换IP也无法访问，只能等待解封。起初尝试关闭connection和增加等待时间，无果，后通过增加重连次数的方式，程序基本得以运行，但问题没有得到解决。
在规避上述问题后，新问题又产生了。在爬取40余次后，返回代码就变为403，无法获取内容，同上，更换IP也无法避免。

def get_html(url):
    proxies = {
        'https': '106.15.107.36:3128'
    }  # 免费高匿ip
    headers = {
        'User-Agent': random.random(agent-list),  # 随机user-agent
        'Referer': lambda x: re.search(
        "^((http://)|(https://))?([a-zA-Z0-9]([a-zA-Z0-9-+]{0,61}[a-zA-Z0-9])?.+)+[a-zA-Z]{2,6}(/)", url).group(),  # 正则表达式获取referer
        'DNT': "1",
        'Accept': 'text/novel_html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,'
                  'application/signed-exchange;v=b3;q=0.9',
        'Connection': 'close',  # 关闭链接
        'Accept-Language': 'zh-CN,zh;q=0.9,en-CN;q=0.8,en;q=0.7',
        'Accept-Encoding': 'gzip, deflate, br',
    }

    i = 0
    while i < 3:  # retry三次
        try:
            response = requests.get(url, headers=headers, proxies=proxies, timeout=5)  # 传递完整参数
            response.encoding = response.apparent_encoding
            response.keep_alive = False  # 再次关闭链接
        except requests.exceptions.RequestException as e:
            i += 1
            print(e)
            time.sleep(5)
        else:
            text = unicodedata.normalize('NFKC', response.text)  # 格式化，避免/xa0等占位字符
            html = pyquery.PyQuery(text)
            return html

部分代码如上，爬取小说目录和章节都是调用这个函数。为解决上述两种问题，我参阅了大量类似代码，都没有找到明确结论。我想非正版小说网站通常不会具备如此强大的反爬机制，然而我向request传递了完整的headers、proxies和render都不能完整爬取，而其他示例中往往只传递user-agent就能完成。

期望能有同志解答其中的逻辑关系，如不吝赐教，本人感激不尽。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱音斯坦牛全栈领域优质创作者 2022-09-20 19:22
关注
构建ip代理池和user-agent池，然后每次请求用time.sleep间隔一哈，然后试试

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何把request爬取的数据弄到SQL server数据库里面(语言-python) python sqlserver
2022-04-18 10:01

回答 2 已采纳 1、清洗你爬取的数据，使其符合数据库中表对数据的规则要求；2、 import pymssql3、连接你的数据库，执行写入，如下：
Tomcat10上传文件时,request类型不匹配怎么解决? java 开发语言有问必答
2021-06-25 21:03

回答 5 已采纳你的request要用servlet-api包下的m
爬虫实战-豆瓣Top250爬取实战 ip被禁 python
2022-03-30 21:34

回答 1 已采纳随便找的免费代理ip质量不行，十个未必能有一个有用的，需要花钱买
Python爬虫快速入门，静态网页爬取！
2020-08-24 14:57

爬遍天下无敌手的博客在爬取之前，我们需要检测下响应状态码是否为200，如果请求失败，我们将爬取不到任何数据： import requests re = requests.get('https://book.douban.com/top250') if re.status_code == 200: print('请求成功!...
python关于request的爬虫和对爬取的数据简单处理 python 其他
2021-06-23 17:41

回答 1 已采纳 df=pd.DataFrame(allUniv) #把数据放入csv文件 df100=df.loc[1:100] #增加一个中间变量 df100.to_csv('D:\\demo\\
爬虫爬取时返回空列表 python 有问必答正则表达式
2021-11-29 20:10

回答 1 已采纳正则去掉class内容，bilibili源代码没有class findLink=re.compile(r'<a href="(.*?)" target="_blank">.*?<
爬虫爬取数据时，Cannot find reference 'quote' in 'request.pyi' python 有问必答爬虫
2022-03-05 20:06

回答 2 已采纳检查一下代码中是如何导入quote的，导入方法是：from urllib.parse import quote
Python爬取练习：指定百度搜索的内容并提取网页的标题内容
2020-12-01 14:35

松鼠爱吃饼干的博客因为如果你在较短时间内访问了网站次数过多，可能会导致网站对你做出一些限制性举动，比如：增加验证码判断你是否为人类，严重点的短时间内封禁你的ip。因此，我们将网页源代码写入文件，这样在之后写解析代码的时候...
爬取解析下载页面图片报错不知道怎么解决啊 python 爬虫
2022-03-18 00:45

回答 2 已采纳看看这个 urlretrieve的用法_CSDN_Xying的博客-CSDN博客_urlretrieve什么意思 urlretrieve用作
如何有效的在爬取网站时输入邮编？ html python 爬虫
2022-05-30 11:04

回答 1 已采纳就两种方式啊，要么使用页面爬取要么通过请求接口的方式爬取，当然请求接口的方式速度是最快的，但是太频繁容易被检测出事爬虫，那就把爬取的速度稍微放慢一点，中间设置一个等待时间，尽量模拟是人的操作，还有就是
爬虫爬取图片时爬取的不完整的相关问题 python
2019-02-16 20:38

回答 1 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201902/16/1550326725_454691.png) 我运行了出来了一些，但是还是没有出来完全，主要是你这
Python3网络爬虫开发实战，Scrapy 爬取新浪微博
2020-08-11 16:09

Python新世界的博客接下来我们以一个反爬比较强的网站新浪微博为例，来实现一下 Scrapy 的大规模爬取。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，...
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
[Python3网络爬虫开发实战]使用代理爬取微信公众号文章
2019-12-08 20:56

adrry01的博客我们的主要目标是利用代理爬取微信公众号的文章，提取正文、发表日期、公众号等内容，爬取来源是搜狗微信，其链接为 http://weixin.sogou.com/，然后把爬取结果保存到 MySQL 数据库。准备工作首先需要准备并正常...
【python】爬取酷狗音乐Top500排行榜【附源码】
2023-11-14 23:16

Yan-英杰的博客爬虫案例、爬取酷狗音乐排行榜、爬虫top500
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月20日
展开全部

悬赏问题

¥17 pro*C预编译“闪回查询”报错SCN不能识别
¥15 微信会员卡接入微信支付商户号收款
¥15 如何获取烟草零售终端数据
¥15 数学建模招标中位数问题
¥15 phython路径名过长报错不知道什么问题
¥15 深度学习中模型转换该怎么实现
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 如何用python向钉钉机器人发送可以放大的图片？
¥15 matlab（相关搜索：紧聚焦）

request爬取时经常被封禁如何解决

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新