我是Python爬虫小白,假如某网站有多个栏目,他们的url路径不同,每个栏目又可以拼接多种不同参数。如果要爬取全部数据,我该如何提速,多线程还是多进程?
结合代码来看,我现在已经写好了每个栏目的爬取代码,单线程/进程的伪代码如下:
我想爬取该网站A栏目路径下的3种不同数据(3种不同的参数)和B栏目路径下的3种数据(3种不同的参数),我该如何提速?用多线程还是多进程?如何构架?怎么实现呢?
def login(url):
登陆函数
def get_A(拼接参数):
url = “A栏目对应的url?”
params = {
"参数":拼接参数
}
data = requests.get(url, headers=hearders,params=params)
解析并获取A路径下拼接参数的数据
return 爬取数据
def get_B=(拼接参数):
url = “B栏目对应的url?”
params = {
"参数":拼接参数
}
data = requests.get(url, headers=hearders,params=params)
解析并获取B路径下拼接参数的数据
return 爬取数据
if__name__="__main__"
login(登陆网站)
get_A(“A栏目的第1种拼接参数”)
get_A(“A栏目的第2种拼接参数”)
get_A(“A栏目的第3种拼接参数”)
get_B(“B栏目的第1种拼接参数”)
get_B(“B栏目的第2种拼接参数”)
get_B(“B栏目的第3种拼接参数”)