为什么经过线程池处理了Python爬虫效率还怎么低呢？

我用线程池，但感觉没起作用

import re
import requests
import json
import os
from concurrent.futures import ThreadPoolExecutor
from time import time
ltime = int(time())


# 拿到播放首页的页面源码
def get_sourse(page):
    # url不要写错了，不要带后面的参数，参数已经被封装到了params字典里！
    url = "https://www.bilibili.com/video/BV1Kh411r7uR"
    headers = {
        "User-Agent": "",
    }# ua需填
    params = {
        'p': page,
        'vd_source': '8d74638d8c4f1428cf1da9c50d5455f6',
              }
    resp = requests.get(url,headers=headers,params=params,stream=True)
    resp.encoding="utf-8"
    return resp.text


# 拿到源码中的嵌套的视频、音频链接
def get_dv_url():
    # 这里的正则对于不同的视频可能会不一样，要注意一下！
    pattern = re.compile('window.__playinfo__=(?P<playinfo>.*?)</script>', re.S)
    video_html = pattern.finditer(get_sourse(i))

    # 这里直接用迭代器__next__()方法取值，不用for循环
    playinfo = video_html.__next__().group("playinfo")
    # print(playinfo)
    result = json.loads(playinfo)
    # print(result)
    videourl = result['data']['dash']['video'][0]['baseUrl']
    audiourl = result['data']['dash']['audio'][0]['baseUrl']
    return videourl,audiourl

# 下载音视频
def download():
    headers = {
        "User-Agent": "",#ua需填
        "referer":"https://www.bilibili.com/video/BV1Kh411r7uR?p=1&vd_source=8d74638d8c4f1428cf1da9c50d5455f6"
    }
    resp_video = requests.get(get_dv_url()[0],headers=headers).content
    resp_audio = requests.get(get_dv_url()[1],headers=headers).content
    # 异常捕获用于当要创建的目录存在时跳过创建目录
    try:
        # 创建目录
        os.mkdir(f'D:\\video_data\\zhiyuanjsnx\\{i}')
    except FileExistsError:
        pass
    # 判断文件存在并跳过创建写入文件
    isExists_1 = os.path.exists(f"D:\\video_data\\zhiyuanjsnx\\{i}\\{i}_video.m4s")
    if not isExists_1:
        with open(f'D:\\video_data\\zhiyuanjsnx\\{i}\\{i}_video.m4s',mode="wb") as f:
            f.write(resp_video)
    isExists_2 = os.path.exists(f'D:\\video_data\\zhiyuanjsnx\\{i}\\{i}_audio.m4s')
    if not isExists_2:
        with open(f'D:\\video_data\\zhiyuanjsnx\\{i}\\{i}_audio.m4s',mode="wb") as f:
            f.write(resp_audio)


if __name__ == '__main__':
    page = int(input("请输入你要下载的集数："))
    t1 = time()
    # 创建线程池
    with ThreadPoolExecutor(50) as k:
        for i in range(36, page+1):
            k.submit(download())
    t2 = time()
    print("此次程序执行耗时：",t2-t1)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

【Python爬虫教程】还不会多线程和线程池？这篇教程直接搞定！
2023-10-24 11:23

白帽黑客艾登的博客线程是进程内的执行单位，它共享进程的资源，是实现并发编程的重要元素。Python代码的执行由Python虚拟机（解释器主循环）控制。Python在设计之初就考虑到在主循环中只能有一个线程执行，虽然Python解释器中可以...
php与python实现的线程池多线程爬虫功能示例
2020-10-21 08:38

标题中提到的“php与python实现的线程池多线程爬虫功能示例”，主要涉及知识点包括PHP和Python这两种编程语言，以及它们如何用来实现多线程编程与爬虫技术。内容中特别指出了“线程池”这一并行处理技术，在提高爬虫...
在Python网络爬虫程序中使用线程池
2022-12-17 20:20

smart_cat的博客本文介绍了python中的线程池用法，并示范了如何将线程池技术应用到python网络爬虫程序中。
Python中的线程池与进程池：并行编程的高效选择
2024-03-19 17:07

一键难忘的博客在Python编程中，实现并行处理任务是提高程序性能的关键。线程池和进程池是Python中常用的并行编程工具，它们能够有效地利用多核处理器的优势，加速程序的执行。本文将介绍线程池和进程池的基本概念，并通过代码示例...
python爬虫教程从入门到精通
2023-08-16 03:15

- Python语言特点及为什么适合用于编写爬虫程序。 - 课程整体结构介绍与学习路径推荐。 #### 二、环境搭建（第02章） - **章节目标**：教会学员如何搭建Python爬虫所需的开发环境。 - **主要内容**： - 安装...
python的线程池
2024-08-26 15:59

暖阳浅笑-嘿的博客在 Python 中，线程池是一种管理线程的机制，它可以重复利用已创建的线程来执行多个任务，避免频繁地创建和销毁线程所带来的开销。创建了一个线程池，最大线程数为 5。接着，通过循环提交了 10 个任务给线程池。函数...
python线程池处理大量并发任务提升效率解析
2025-07-23 09:33

安岁的笔记本的博客 线程池是多线程编程中提高效率的重要工具，通过复用线程减少创建销毁开销。其核心由线程池管理器、工作线程、任务队列和拒绝策略组成，工作原理是优先使用核心线程，超出后放入队列，再触发扩容或拒绝策略。Python中...
Python爬虫：并发抓取优化 - 使用多线程和异步IO提高抓取效率
2025-04-15 23:00

Python爬虫项目的博客通过具体的代码示例，您将学习如何实现并发抓取，如何使用最新的技术工具，以及如何处理并发爬虫中的一些常见问题。无论是通过多线程提高CPU的并发能力，还是通过异步IO提高网络请求的效率，都能大大加快抓取任务的...
python爬虫-python多线程爬虫爬取电影天堂资源.zip
2024-02-25 21:45

在爬取电影天堂资源的实例中，我们需要理解Python爬虫的基本原理，掌握多线程编程技巧，分析和处理目标网站的结构，以及应对可能出现的反爬策略。通过这些步骤，我们可以构建出一个高效且稳定的多线程爬虫，实现电影...
python爬虫最全教程从入门到精通
2024-04-24 16:17

第01章从零开始系统入门python爬虫工程师-课程导学第02章彻底解决让人头疼的环境搭建问题第03章我们从了解网络爬虫开始，重新认识爬虫第04章爬虫工程师基本功--计算机网络协议基础第05章爬虫工程师基本功-...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月14日
展开全部

为什么经过线程池处理了Python爬虫效率还怎么低呢？

0条回答 默认 最新

问题事件

0条回答默认最新