Python爬虫：爬取某网站时，有多个路径，每个路径有多种参数，要爬取全部数据，如何提速，多线程还是多进程？如何构架？怎样实现？

我是Python爬虫小白，假如某网站有多个栏目，他们的url路径不同，每个栏目又可以拼接多种不同参数。如果要爬取全部数据，我该如何提速，多线程还是多进程？

结合代码来看，我现在已经写好了每个栏目的爬取代码，单线程/进程的伪代码如下：

我想爬取该网站A栏目路径下的3种不同数据（3种不同的参数）和B栏目路径下的3种数据（3种不同的参数），我该如何提速？用多线程还是多进程？如何构架？怎么实现呢？

def login(url):
    登陆函数

def get_A(拼接参数):
    url = “A栏目对应的url?”
    params = {
    "参数":拼接参数
    }
    data = requests.get(url, headers=hearders,params=params)
    解析并获取A路径下拼接参数的数据
    return 爬取数据

def get_B=(拼接参数):
    url = “B栏目对应的url?”
    params = {
    "参数":拼接参数
    }
    data = requests.get(url, headers=hearders,params=params)
    解析并获取B路径下拼接参数的数据
    return 爬取数据


if__name__="__main__"
    login(登陆网站)
    get_A(“A栏目的第1种拼接参数”)
    get_A(“A栏目的第2种拼接参数”)
    get_A(“A栏目的第3种拼接参数”)
    get_B(“B栏目的第1种拼接参数”)
    get_B(“B栏目的第2种拼接参数”)
    get_B(“B栏目的第3种拼接参数”)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-09-16 13:55
关注
看瓶颈在哪里
如果是外部因素，比如服务器带宽、你的网络带宽、服务器限速等情况，无论哪种优化都没用
如果是cpu密集操作同时你有多个处理器，或者网络延迟比较大，那么多线程或者多进程可以提高速度
多进程可以增加稳定性，编写程序难度低，适合多计算机扩展
多线程在线程之间传递同步数据更方便，内存消耗少

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫中如果有两个相同的class标签，而爬取目标为第二个，如何解决 python 爬虫
2022-08-09 16:58

回答 3 已采纳 soup.find_all('div',class_='box_con')[1]这样呢
python多线程爬取图片_python 多线程爬取网站图片（详解）
2021-03-06 01:20

ShuYini的博客 1网站整个图片的意思是，网站有用的图片，广告推荐位，等等除外萌新上路，老司机请略过第一步找出网站url分页的规律选择自己要爬取的分类(如果要所有的图片可以不选，显示的就是所有的照片，具体怎么操作请根据实际...
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
python爬虫数据爬取清洗 python 有问必答
2021-06-22 16:13

回答 3 已采纳解题思路：1.用requests.get（网页+搜索关键词）获取搜索页面链接，再get信息页面，bs4解析获取文本保存到excel. 2.从excel读取文本，re.sub(r"[^\w]+", "
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
爬虫案例：爬取某小说网站（多线程版）
2020-12-09 00:12

hhj_py的博客 多线程版代码介绍优点：下载，保存速度很快。缺点：由于不能控制线程的速度，下载保存的文档顺序不对。思路介绍： 1：如下图全部代码： import requests from lxml import etree import threading # 多进程 ...
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
Python爬虫想要定时爬取数据 python 服务器负载均衡
2021-09-08 18:21

回答 2 已采纳你可以做一下异常处理，将拒绝访问的数据记录下来，然后第二次只爬取被拒绝访问的数据。另外，做爬虫最后还是要做一些应对反爬的措施，比如每次访问之间sleep几秒钟（最好用随机数）。如果，想要做定时的话，可
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
python 写csv scrapy_不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据
2020-11-21 18:13

weixin_39795325的博客 Python爬虫为什么受欢迎如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手...
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
Python多线程爬虫——数据分析项目实现详解
2024-01-17 16:35

雪碧有白泡泡的博客爬虫和池是爬虫领域中不可或缺的概念，池能够提高爬虫的稳定性和效率，同时帮助爬虫更好地适应目标的反爬虫策略。
Python高级进阶--多线程爬取下载小说(基于笔趣阁的爬虫程序)
2024-02-11 22:55

在猴站学知识的博客本帖将详细演示爬取笔趣阁中的一本小说，将其下载到本地。内容详实，代码详解。对爬虫感兴趣的小伙伴们和新手小白都可进入学习！学会之后，可以爬取自己感兴趣的小说内容！！！
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

Python爬虫：爬取某网站时，有多个路径，每个路径有多种参数，要爬取全部数据，如何提速，多线程还是多进程？如何构架？怎样实现？

4条回答 默认 最新

悬赏问题

4条回答默认最新