python多进程处理数据集图片

问题遇到的现象和发生背景

使用python多进程处理一个数据集，处理函数是对每张图片进行加噪并保存

问题相关代码，请勿粘贴截图

img_paths = get_file_path(path1, path2)
    print("all:", len(img_paths))

    # 1.pool.map
    avi_cpu = os.cpu_count()-30
    print('there is {} cpu'.format(avi_cpu))
    pool = Pool(avi_cpu) # 当前可用cpu数量
    # pool.map_async(process_image, img_paths)
    res = []
    for img in img_paths:
        r = [pool.apply_async(process_image, (img,))]
        res.append(r)

    #2.该情况处理时处理图片的子进程会直接跳过

    # pool = Pool(100)
    # cpus = os.cpu_count()
    # print('there is {} cpu'.format(cpus))
    # 任务切分
    # splits = list(divide(cpus, img_paths))
    # for split in splits:
    #     pool.apply_async(process_image, args=(split,))

    pool.close()
    pool.join()
    end = time.time()
    print("deal data cost:", end - start)

运行结果及报错内容

正常情况下一个进程处理一张图片在几百秒以内，但使用上述1代码时在处理快结束的时候，最后几个处理进程会变得很慢，单个进程的用时会达到几千甚至上万秒。搞笑的是，我之前用同样的代码处理另一个数据集的时候完全正常，两个数据集的图片数不同，图片大小也存在差异

我的解答思路和尝试过的方法

pool.map
pool.map_async
pool.apply_async

还有chunksize的设置，我试过设为文件总数/cpu数，开始效果就变的更慢一些

在使用2代码时，只会有主进程运行，跳过处理函数

我想要达到的结果

正常处理数据集，不会在最后几个进程停顿住

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
脚踏南山 2022-07-22 17:23
关注
之前另一个数据集的数量应该比较少吧，尝试把img_paths分成几段，多次运行吧，
你这有几张图片就有几个进程，压力太大

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python多进程修改共享变量的问题 python
2020-04-25 19:46

回答 4 已采纳多线程共享变量一般这么写： ``` from multiprocessing import freeze_support,Lock,Process,Value import time cn
Python多进程问题的报错问题 python
2019-12-09 11:11

回答 1 已采纳 multiprocessing.Process 写错了方法一：target=函数加()的话，在创建的时候就调用了函数，就不用调用start()方法 ``` p1=multiprocessing
python多进程问题，一个进程退出后其他进程也退出 python
2020-07-22 18:15

回答 2 已采纳两个办法，一个是退出的进程关闭其它进程一个是其它进程轮询主进程是否存在，不存在的话自己退出
深入探究Python多进程编程：Multiprocessing模块基础与实战
2024-02-25 04:45

一键难忘的博客在Python编程中，多进程处理是一项关键的技术，特别是在需要处理大规模数据或执行耗时任务时。为了充分利用多核处理器的优势，Python提供了`multiprocessing`模块，使得并行编程变得更加容易。本文将深入探讨`...
自然语言处理与python相关知识错误 python 自然语言处理
2018-07-19 02:23

回答 4 已采纳 u只是说明它是UTF编码的，这个只在python2中有，python3中已经没有这个u了
python开多进程 开发语言
2020-11-09 14:59

回答 2 已采纳实例化了吗，就开始调
请教python调用multiprocessing使用多进程修改全局变量问题 python
2020-05-12 18:08

回答 1 已采纳 https://blog.csdn.net/sinat_35360663/article/details/78328380?locationNum=8&fps=1
Python 中的多进程
2022-06-20 15:36

佛系的老肖的博客本文简要而简洁地介绍了Python编程语言中的多进程。什么是多进程？为什么选择多进程？python中的多进程是如何实现的，以及模拟多进程运行方式的方法
python多进程程序打包后，运行出现多个窗口，应该如果解决 python
2021-04-13 21:29

回答 1 已采纳 multiprocessing.freeze_support() 放在入口py文件（你的主程序）的if __name__=="__main__":的后面
python处理图片，如何判断图片是否损坏 python
2017-03-28 01:26

回答 2 已采纳用imghdr模块 https://docs.python.org/3/library/imghdr.html ``` >>> import imghdr >
python 处理图片，计算不同颜色面积 python 有问必答
2021-06-23 19:12

回答 3 已采纳 https://www.jb51.net/article/174823.htm题主可以参考下，有帮助，还请采纳，谢谢
性能爆炸！Python多进程模式实现多核CPU并行计算
2023-11-13 22:00

只存在于虚拟的King的博客 Python作为一门高级编程语言，提供了多进程、多线程等多种方式来实现并行计算。在本文中，我们将重点介绍在Python中如何利用多进程模式提高程序的执行效率。在Python中，使用多进程模式可以实现多核CPU的并行计算，...
Python多线程多进程问题 python
2018-01-10 01:47

回答 6 已采纳你在函数传参时后面加了小括号就成函数调用了不是把函数当做参数传参正确的代码： import threading import time class Test: def run(
使用 Python 多处理库处理 3D 数据
2021-12-23 19:06

老贡讲Python的博客今天我们将介绍处理大量数据时非常方便的工具。我不会只告诉您可能在手册中找到的一般信息，而是分享一些我发现的小技巧，例如tqdm与 ...幸运的是，现代编程语言允许我们生成在多核处理器上完美运行的多个进程
用Python 处理文本数据
2022-06-17 17:00

Iridescent-Boy的博客编程我真的要学哭了，还好有python 要么拼尽全力，要么干脆放弃
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月22日

悬赏问题

¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么