如何实现python的多个子进程对同一个变量的操作，并保存这种操作的结果？

问题描述：

假设我现在有一个python对象（pybloom模块实例化后的），名称是bf，它有一个add方法，可以向其中添加元素：bf.add(1)——说明将数字1经过一些运算添加到了bf中了。

现在问题是：我有一百万个元素需要往bf中添加，逐个添加的话，耗时较长，而我windows的CPU是4核的，因此想着创建4个python进程，分别向bf中添加元素，然然后利用pickle模块进行结构化存储，我的代码是这样的：

    from multiprocessing import Pool
    from pybloom import BloomFilter
    import pickle

    #待添加的元素列表
    L = list(range(int(1e6)))

    bf = BloomFilter(2*len(L),0.001)

    def func(i):
        bf.add(i)

    if __name__=='__main__':
        p = Pool(4)
        for i in L:
            p.apply_async(func,args=(i,))
        p.close()
        p.join()
        with open('tmp.bf','wb') as f:
            pickle.dump(bf,f)

但是由于进程间的通信问题，序列化后的bf对象再读入python中并没有达到预期的效果，即并不包含L中的一百万个数字。

求大神指教。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-08-07 14:21
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

你提出的问题是一个典型的多进程并发处理任务的例子。Python本身不支持多进程的并发执行，而是通过线程来完成。在你的例子中，你可以使用multiprocessing库中的Pool类来并行运行你的函数。

这里是一个简单的示例，演示如何使用Pool并行运行你的函数：

import os import time from functools import partial from pybloom import BloomFilter import pickle # 创建一个Bloom Filter实例 bf = BloomFilter(2 * len(range(1, 10 ** 5)), 0.001) def func(i): # 将数字i添加到Bloom Filter中 bf.add(i) # 使用Pool并行运行你的函数 if __name__ == '__main__': pool = Pool(processes=4) start_time = time.time() results = [pool.apply_async(func, (i,)) for i in range(len(range(1, 10 ** 5)))] end_time = time.time() print(f"Total time: {end_time - start_time} seconds") for result in results: result.get() with open('tmp.bf', 'wb') as f: pickle.dump(bf, f)

这个程序首先创建了一个Bloom Filter实例，然后定义了一个函数func，该函数接受一个参数并将这个参数添加到Bloom Filter中。然后，我们创建了一个Pool对象，设置了进程的数量为4，然后使用apply_async方法并行运行我们的函数。最后，我们将结果写入文件，以供将来访问。

注意，这个程序不能直接读取或修改内存中的Bloom Filter，因为Python不支持多进程并发。如果你需要修改内存中的数据，你需要使用其他技术，比如共享内存或者异步编程等。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python多文件修改同一变量_如何实现python的多个子进程对同一个变量的操作，并保存这种操作的结果？...
2020-12-12 05:33

weixin_39581318的博客 {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、...
基于python的多进程共享变量正确打开方式
2021-01-20 04:21

多进程共享变量和获得结果由于工程需求，要使用多线程来跑一个程序。但是因为听说python的多线程是假的，于是使用多进程，反正任务需要共享的参数少。查阅资料，发现实现多进程主要使用Multiprocessing，有两种...
python使用Queue在多个子进程间交换数据的方法
2020-09-22 05:38

下面是一个简单的例子，展示了如何在Python中使用`Queue`在多个子进程间交换数据： ```python from multiprocessing import Process, Queue def f(q): # 子进程向队列中添加数据 q.put([42, None, 'hello']) if...
基于Python实现多进程的发送邮件.zip
2022-01-06 14:36

在Python编程中，多进程是并行处理的一种方式，它允许多个任务同时运行，以提高程序执行效率。尤其在处理耗时较长的任务，如发送大量邮件时，使用多进程可以显著缩短整体处理时间。本课程设计的目标是利用Python实现...
Python基于进程池实现多进程过程解析
2020-09-16 22:50

Python提供了`multiprocessing`模块来实现多进程，其中进程池`Pool`是常用的一个工具。本篇文章将详细解析如何基于Python的进程池实现多进程。 1. **进程池（Pool）**： `multiprocessing.Pool` 是一个进程池对象...
python实现多进程按序号批量修改文件名的方法示例
2020-09-18 04:59

综上所述，本文详细地介绍了Python多进程编程技术以及文件操作的知识，通过一个具体的批量修改文件名的实例，演示了如何将这些技术应用于解决实际问题，极大地提高了代码的执行效率，并且给出了实践中的注意事项和...
python多进程重复加载的解决方式
2020-09-18 07:31

因为Python的多进程是通过fork机制来实现的，当执行到import语句时，模块会被加载到内存中，但当程序运行在多进程中时，fork出的子进程会继承父进程的内存空间，从而导致每个子进程都有一个资源的副本。如果模块加载...
python打开一个软件并进行操作_python程序中的进程操作
2020-11-23 21:00

weixin_39533361的博客之前我们已经了解了很多进程相关的理论知识，了解进程是什么应该不再困难了，刚刚我们已经了解了，运行中的程序就是一个进程。所有的进程都是通过它的父进程来创建的。因此，运行起来的python程序也是一个进程，那么...
探究Python多进程编程下线程之间变量的共享问题
2020-09-22 03:15

在给定的例子中，作者通过一段代码展示了在没有正确使用共享变量的情况下，多个进程尝试修改同一个列表会导致最终的结果为空列表。具体代码如下： ```python from multiprocessing import Process, Manager import ...
python多进程
2025-05-27 17:28

hutaotaotao的博客 python多进程基础知识、进程间通信
没有解决我的问题, 去提问

如何实现python的多个子进程对同一个变量的操作，并保存这种操作的结果？

1条回答 默认 最新

1条回答默认最新