python多线程爬虫如何在中断后继续上次的断点下载数据

比如某个网站有几十万页的数据，爬虫经常会遇到各个异常

不可能每次异常后，都重新从首页下载数据

那么如何在某次中断后，继续上次的断点继续下载？

我试过在mysql上新建一个表格，来实时记录每一页数据的状态，比如某页开始下载是0，没成功是NaN，页面没有数据是-1，成功是1，共4个状态

但mysql数据库，在多线程的情况下，频繁读取数据库，会有异常，同时也觉得不安全

请问大神，有什么好的方案解决吗

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
=XHG78999= 2021-06-04 21:35
关注
redis记没成功的不就完事了，带同步访问，doge

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python多线程爬虫如何在中断后继续上次的断点下载数据 python sql 数据挖掘
2021-06-03 15:53

回答 3 已采纳 redis记没成功的不就完事了，带同步访问，doge
python爬虫怎么改成多线程 python 爬虫
2022-04-29 12:58

回答 6 已采纳楼上的这些线程改造方式放在这里行不通吧。楼主代码中IO操作在循环的地方，这里线程不是应该将循环改成多线程吗。。。##改了一个循环，试一下 ```python import parsel impor
python如何在多线程下完成键盘输入 python 有问必答
2022-05-12 17:23

回答 4 已采纳我给另一个例子你看看参考一下吧，是一个实际应用，多线程生成随机4位字符串，然后通过外部输入中断线程 import string import threading import time import
python多线程，断点续传下载程序
2013-03-05 20:37

python多线程，断点续传下载程序，功能比较简单，可以进行二次开发。实现更好用的功能。
python多线程下载+IP代理问题 python 爬虫
2023-02-08 13:16

回答 3 已采纳十分感谢，我已经解决问题了，原因是部分ip代理无效导致下载的文件损坏
python3 多线程执行后再执行主线程的问题 python
2018-05-16 01:40

回答 4 已采纳 import threading def pr(i): print(i) thread = [] for i in list(range(100)): k = threa
关于python网络爬虫多线程下载图片到本地的问题 python
2019-11-18 17:47

回答 2 已采纳 pool map的使用参考这篇：[https://blog.csdn.net/weixin_36637463/article/details/86496763](https://blog.csdn.n
python多线程文件的数据续传_python多线程爬取以及断点重下
2020-11-28 03:12

weixin_39777543的博客这是本人的第二篇文章在第一篇文章的基础上进行了内容的优化由于发现大量视频和图片下载难免遇见下载速度慢和时间久不能一直开着程序下载的问题于是乎增加两个功能让我们更加无忧无语的爬取想要的资源虽然urllib....
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
如何在爬取网页数据时用多线程？（python） python 有问必答
2021-05-12 18:21

回答 6 已采纳可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例： import requests from bs4 import Beautifu
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
python多线程爬虫实例
2020-02-22 00:28

YDDUONG的博客单线程爬虫已经写过了，这边文章就对上一篇...对于多线程爬虫，常见有2种写法，一种是继承threading.Thread类，还有一种是直接使用，至于线程池什么的，我还没了解过，本篇文章是直接使用Thread。一般来说： CPU密...
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
Python实现多线程并发下载大文件（断点续传支持）
2021-08-22 00:23

小小明-代码实体的博客本文非常浅层的演示了python如何实现多线程文件下载，核心取决于现代服务器基本都支持范围下载的前提下。关于断点续传，文章已提供基本理论和实现思路，有兴趣通过python实现下载器的朋友都可以专门去实现一下。.......
python多线程文件的数据续传_python多进程断点续传分片下载器
2020-11-28 03:12

weixin_39889642的博客 python多进程断点续传分片下载器标签：python 下载器多进程因为爬虫要用到下载器，但是直接用urllib下载很慢，所以找了很久终于找到一个让我欣喜的下载器。他能够断点续传分片下载，极大提高下载速度。#! /usr/bin/...
没有解决我的问题, 去提问

悬赏问题

¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真

python多线程爬虫如何在中断后继续上次的断点下载数据

3条回答 默认 最新

悬赏问题

3条回答默认最新