关于python 爬虫项目多线程的问题！

问题遇到的现象和发生背景

程序运行的比较慢，想要提速。能帮忙封装一下就最好了

相关代码

 ```python

# 多线程头像抓取
# 封装函数 并完美运行

import requests
from lxml import etree
import os
import threading
import time

def get_respose_text(url):
    #通过url 获取 respose 文本
    global session
    session = requests.sessions.Session()
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'

    }
    response = session.get(url=url, headers=headers)
    response.encoding = "utf-8"

    return response.text

def get_Date(response,a_urls_xpath,a_names_xpath):
    #抓取并返回 子链接，名称字典
    html = etree.HTML(response)
    a_urls = html.xpath(a_urls_xpath)  # 抓取<a>标签
    a_names = html.xpath(a_names_xpath)

    new_a_urls = {}
    for (a_url, a_name) in zip(a_urls, a_names):
        a_name = a_name.text
        a_url = index_url + a_url
        new_a_urls[a_name] = a_url #将子链接以及对应名称放入字典

    return new_a_urls

def save_date(src, s_path):
    # 保存一个数据
    src = "https:" + src
    src_name = src[-17:-13]
    src_path = s_path + '\%s.%s' % (src_name, src.split('.')[-1])
    src_date = session.get(src)
    with open(src_path, 'wb')as f:
        f.write(src_date.content)
        print("正在下载     >>>     %s" % src_path)

def url_name_replace(url_name):
    url_name = url_name.replace(' ','')
    url_name = url_name.replace('/', '')
    url_name = url_name.replace(':', '')
    url_name = url_name.replace('？', '')
    url_name = url_name.replace('，', '')
    url_name = url_name.replace('·', '')
    url_name = url_name.replace("‘", '')
    url_name = url_name.replace('”', '')
    url_name = url_name.replace('|', '')
    url_name = url_name.replace('?', '')
    url_name = url_name.replace('', '')
    url_name = url_name.replace('"', '')
    url_name = url_name.replace('<', '')
    url_name = url_name.replace('>', '')
    url_name = url_name.replace('：',"")
    url_name = url_name.replace('.','')


    return  url_name

def multi_thread(srcs, s_path):
    # 多线程
    threads = []
    for src in srcs:
        threads.append(
            threading.Thread(target=save_date, args=(src, s_path))
        )
    for thread in threads:
        thread.start()

    for thread in threads:
        thread.join()

def single_thread(srcs,s_path):
    #单线程
    for src in srcs :
        save_date(src,s_path)




def main():
    global  index_url
    index_url = "https://www.woyaogexing.com"
    #1.爬取主页面
    index_respose = get_respose_text(index_url)

    # 2.根据主页面响应抓取 数据
    urls = get_Date(index_respose,'//*[@id="indexMain"]/div[1]/div[1]/div[3]/div/a/@href','//*[@id="indexMain"]/div[1]/div[1]/div[3]/div/a')
    print(urls)

    for i,n in  urls.items():
        # 3.创建第一层目录
        i = url_name_replace(i)
        save_path = str(os.getcwd()) + r"\%s" % i
        if os.path.exists(save_path) == False:
            os.mkdir(save_path)
        print("在 %s 目录下保存数据" % save_path)

        #抓取第第一层页面下 数据
        list2_respose = get_respose_text(n)
        urls_1 = get_Date(list2_respose,'//*[@id="main"]/div[3]/div[1]/div[2]/div[*]/a[2]/@href','//*[@id="main"]/div[3]/div[1]/div[2]/div[*]/a[2]')
        # print(urls_1)

        for j,k in urls_1.items():
            #创建第二层目录
            j = url_name_replace(j)
            save_path1 = save_path + r"\%s" % j
            if os.path.exists(save_path1) == False:
                os.mkdir(save_path1)

            #抓取第三层节目的数据
            list3_respose = get_respose_text(k)
            html = etree.HTML(list3_respose)
            image_srcs = html.xpath('//*[@id="main"]/div[3]/div[1]/div[1]/ul/li[*]/a/img/@src')

            #多线程保存
            multi_thread(image_srcs,save_path1)

            #单线程保存
            # single_thread(image_srcs,save_path1)


if __name__ == '__main__':
    start = time.time()
    main()
    end = time.time()
    print("总运行时间为：%d",end-start,"秒")
# 多线程总运行时间为：%d 59.41753435134888 秒
# 单线程总运行时间为：%d 96.5646162033081 秒

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ningzip 2022-04-09 22:32
关注
用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）
用正则表达式更快，但适用性会降低
灵活运用异步
减少中间值的使用
少用for循环
控制线程数量，考虑协程、多进程，因为有GIL的存在，python的多线程无法发挥和其他语言一样的（理论上的）效果
导入库的时候注意使用from ... import ...，如非必要，不全导入
格式化字符串用f"string"更快

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫之多线程、多进程爬虫
2021-02-24 07:23

多线程对爬虫的效率提高是非凡的，当我们使用python的多线程有几点是需要我们知道的：1.Python的多线程并不如java的多线程，其差异在于当python解释器开始执行任务时，受制于GIL(全局解释所)，Python的线程被限制到...
python3爬虫中多线程的优势总结
2021-01-19 23:22

有些小伙伴跟小编讨论了python中使用多线程原理的问题，就聊到了关于python多线程的弊端问题，这点可能在使用的过程中大家会能感觉到。而且之前讲过的GIL也是对python多线程的一种限制。那么，我们为什么还要用多...
基于python3的多线程知乎用户爬虫项目
2024-07-22 10:37

基于python3的多线程知乎用户爬虫项目；基于python3的多线程知乎用户爬虫项目；基于python3的多线程知乎用户爬虫项目；基于python3的多线程知乎用户爬虫项目；基于python3的多线程知乎用户爬虫项目；基于python3的多...
python爬虫中多线程的使用详解
2020-09-18 15:26

本篇文章将深入探讨如何在Python爬虫项目中利用多线程和`queue`库来实现高效的并发处理。首先，`queue`是Python的标准库，它提供了线程安全的数据结构，特别适用于多线程环境中的数据交换。在Python 2.x中，这个...
python多线程爬虫爬取电影天堂资源
2024-03-15 12:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
python爬虫-python多线程爬虫爬取电影天堂资源.zip
2024-02-25 21:45

在爬取电影天堂资源的实例中，我们需要理解Python爬虫的基本原理，掌握多线程编程技巧，分析和处理目标网站的结构，以及应对可能出现的反爬策略。通过这些步骤，我们可以构建出一个高效且稳定的多线程爬虫，实现电影...
python多线程爬虫小白入门教程
2025-01-03 23:05

为了解决这一问题，本教程旨在帮助Python初学者入门多线程爬虫开发，提供一个基础的实战示例。首先，我们需要了解Python多线程编程的基础知识。Python中的多线程通过内置的threading模块来实现。该模块提供了创建...
【Python 爬虫】多线程爬取
2022-03-20 15:03

骑着蜗牛ひ追导弹'的博客文章目录前言一、多进程库（multiprocessing）二、多线程爬虫三、案例实操四、案例解析1、获取网页内容2、获取每一章链接3、获取每一章的正文并返回章节名和正文4、将每一章保存到本地5、多线程爬取文章前言简单...
Python爬虫 -多线程爬虫爬取电影天堂资源.zip
2024-02-03 11:44

总的来说，这个Python多线程爬虫项目涵盖了网络请求、HTML解析、多线程编程、数据存储以及应对反爬策略等多个技术点，是学习Python爬虫实战的一个典型例子。通过这个项目，开发者可以提升自己的Web数据抓取能力，并...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月9日

关于python 爬虫 项目 多线程的问题！

问题遇到的现象和发生背景

相关代码

2条回答 默认 最新

问题事件

关于python 爬虫项目多线程的问题！

2条回答默认最新