python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了

以下是全部代码

import requests
from lxml import etree
import time
from random import randint as rd

bookpath = r"books/"
bookname = "超级作死宝箱系统3"
bookurl = "http://www.777zw.net/30/30031/"
weburl = "http://www.777zw.net/30/30031/"
user_agent= "Mozilla/5.0 (Windows NT 5.1; WOW64) AppleWebKit/561.3 (KHTML, like Gecko) Chrome/21.0.1262.89 Safari/561.3"

headers = {
"Referer": bookurl,
"User-Agent": user_agent,
'Connection': 'close'
}

requests.DEFAULT_RETRIES = 20
s = requests.session()
s.keep_alive = False
def get_urls():
url = bookurl
response = requests.get(url, headers=headers, verify=False)
response.encoding = 'utf-8'
html = etree.HTML(response.text)

# 所有章节的url列表

url_list = [weburl + x for x in html.xpath('//li[@class="book-item"]/a/@href')]

print(f'{len(url_list)}')

    return url_list

def get_text(url):
rep = requests.get(url, headers=headers, verify=False)
rep.encoding = 'utf-8'
dom = etree.HTML(rep.text)
# 获取章节名weixin_38616018
name = dom.xpath('//h1[@class="title"]/text()')[0]
#获取章节内小说
text = dom.xpath('//div[@id="content"][@class="content"]/p/text()')
#写入txt文档
with open(bookpath + bookname + '.txt', mode='a', encoding='utf-8') as f:
f.write('\n'+ name + '\n')
for con in text:
f.write(' ' + con + '\n')
print(f'{name} ===> 下载完成')

def main():
urls = get_urls()
for url in urls:
get_text(url)
# 随机时间
c = rd(1000, 3000) / 1000
print(c)
time.sleep(c)

if name == 'main':
main()

基本会报错Max retries exceeded with url，有多次直接停止不动（不报错），加了timeout = 60 后就会报时间过长

尝试过random请求头，效果并不理想。每次重新启动有时能跑起来，有时直接停止不动。

我想要能一次性下载完

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-深度学习进阶 2022-08-18 08:42
关注
可能是访问次数频繁，被禁止访问，解决方法：使用代理
python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-CSDN博客在爬取boss直聘时出现这种错误，于是搜索了网上很多文章，总结如下： 1.http连接太多没有关闭导致的，解决方法：import requestsrequests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数s = requests.session()s.keep_alive = False # 关闭多余连接s.get(url) # 你需要的网址2.... https://blog.csdn.net/lb245557472/article/details/80239603

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫动态网页爬取报错 python 爬虫
2022-11-22 23:06

回答 2 已采纳 news 数据获取错误 import requests import json url = 'https://www.ptpress.com.cn/newsInfo/getCurrentAffairs
python网络爬虫指南二：多线程网络爬虫、动态内容爬取（待续）
2023-08-26 12:46

神洛华的博客生产者-消费者模式（Producer-Consumer Pattern）是一种常见的多线程设计模式，用于解决生产者和消费者之间的协作问题。负责生成（生产）数据或任务，并将它们放入共享的缓冲区（队列）中。生产者不断地生产数据，...
练习python爬虫，爬小说中途就报错，如何解决？ python 爬虫
2023-02-19 14:02

回答 2 已采纳根据截图显示的错误信息，可能是由于程序访问网站过于频繁导致被封禁了IP地址，需要等待一段时间才能继续访问。为了解决这个问题，可以考虑以下方法：减缓爬取速度：通过在请求头中设置User-Agent和
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
Python 爬虫性能相关（ asyncio 模块 --- 高性能爬虫）
2022-07-11 07:35

「已注销」的博客 From：...爬虫应用 asyncio 模块 ( 高性能爬虫 )：https://www.cnblogs.com/morgana/p/8495555.html python异步编程之asyncio(百万并发)：https://www.cnblogs.com/sh...
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
python爬虫中如果有两个相同的class标签，而爬取目标为第二个，如何解决 python 爬虫
2022-08-09 16:58

回答 3 已采纳 soup.find_all('div',class_='box_con')[1]这样呢
Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
2021-03-16 21:40

郭Albert的博客背景笔者曾经遇到一个学习性质的爬虫任务：爬取‘微博辟谣’账号的历史微博。具体要求如下：采集范围： 1.... 2....剔除的样例如下： ...采集方框中的如下文本信息。...每行一条记录。...一. 爬虫思路首先分
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
Python爬虫自学清单，没有基础也能学爬虫
2019-09-17 19:58

Python老王的博客 1.刚上手的时候肯定是先过一遍Python最基本的知识，比如说：变量、数据结构、语法等，基础过的很快，基本上1~2周时间就能过完了，我当时是在这儿看的基础：Python 简介 | 菜鸟教程 2.看完基础后，就是做一些小项目...
最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生
2019-07-03 17:22

逸少凌仙的博客一些经典的Python爬虫和网络编程面试题... 1 1、动态加载又对及时性要求很高怎么处理？... 1 2、分布式爬虫主要解决什么问题？... 1 3、什么是 URL？... 1 4、python 爬虫有哪些常用技术？... 1 5、简单说一下...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月17日

悬赏问题

¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分
¥15 delphi webbrowser组件网页下拉菜单自动选择问题

python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新