python中multiprocessing.pool和pandas如何结合使用？

我有一个DataFrame表"all_urls_df"，有十亿条数据，一共两列（title列，url列）。对url列进行检测，在DF表中新增status列，如果检测返回值是200，status列值为1，否则为0。

我想采用多进程的方式来实现该功能，部分代码如下：

def pandas_data_washed(df):
pool = multiprocessing.Pool(processes=35)
all_urls_df = df
all_urls_df["status"] = all_urls_df.apply(lambda x: 1 if pool.apply_async(check_url_ok, (x.url,)) else 0, axis=1)
pool.close()
pool.join()


def check_url_ok(url):
    """检测连接是否可用"""
    useragent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"
    # print("正在检查URL %s" % url)

    try:

        result = requests.get(url, headers={"User-Agent": useragent}, timeout=(5, 5))
        if result.status_code == 200:

            print("访问正常 %s" % url)
            return True
        else:
            print("访问超时 %s" % url)
            return False
    except requests.exceptions.ConnectionError as e:
        # print("URL %s 访问超时" % url)
        # print("URL访问超时")
        print("访问超时 %s" % url)
        return False

现在遇到的问题如下，如果我用pool.apply，"all_urls_df"的status列出来的结果是正确的，但是数据是逐条检测，无法实现进程池并行效果；如果我用pool.apply_async，可以实现并行检测，但是status列的结果却全部都是1。请问我的代码是哪里写错了呢，该如何调整呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
python收藏家 2021-07-12 09:03
关注
apply_async 返回的是对象，不能直接if pool.apply_async...

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Vmware制作Ubuntu虚拟机，使用第三方库时，报错多线程问题multiprocessing.pool.RemoteTraceback: python ubuntu
2022-05-02 16:29

回答 2 已采纳看看Vmware为虚拟机指定了几个内核
为什么Python的multiprocessing.Queue不会阻塞 python
2018-12-22 06:30

回答 1 已采纳 Give a queue length of 1 and it will block as required Python 2.7.12 (default, Nov 12 2018, 1
请教python调用multiprocessing使用多进程修改全局变量问题 python
2020-05-12 18:08

回答 1 已采纳 https://blog.csdn.net/sinat_35360663/article/details/78328380?locationNum=8&fps=1
[python] Multiprocessing.Pool使用-多线程并发执行代码
2022-07-26 13:20

洛央虲的博客当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新的进程用来执行该请求；但如果池中的进程数已经达到规定最大值，那么该请求就会等待，直到池中有进程结束，才会创建新的进程来执行它。传入不同进程...
python多进程中使用Queue后，无法退出进程，出现僵尸进程，如下，求解 python 后端有问必答
2022-02-13 18:00

回答 2 已采纳题主您好，由于自身能力有限，无法为您解答。为您找到以下文章：https://blog.csdn.net/Freshduke/article/details/111544319
pytohn 多进程 Process , pool , ProcessPoolExecutor 这三个库有什么区别？ python
2022-11-07 11:03

回答 1 已采纳打个比方吧process就是手动挡开车pool和processpoolexecutor就是自动挡开车不用操心细节
爬虫代理池中proxypool.方法/函数报错 python 爬虫
2021-08-19 19:34

回答 1 已采纳看老催的书，我们就是朋友。我是看他的视频入门的。那个代理池我改过，你这个属于模块导入错误，找一下就好了，有帮助记得采纳哦
python3 multiprocessing.Pool 占用cpu不充分的问题
2023-02-14 22:52

七个包的博客 python3 multiprocessing.Pool 占用cpu不充分的问题,原因是有大量的IO,导致给进程派任务的时候堵塞了
通过Python multiprocessing库的Pool进程池实现多进程并等待所有进程执行完毕的问题 python
2022-11-11 11:37

回答 5 已采纳看例子，用队列来实现，监测每个子进程的执行完成状态，子进程执行完成后入队： import subprocess as sp import multiprocessing as mp import ti
Python multiprocessing Queue为什么判断队列一直是空的呢？ python 爬虫
2023-01-17 10:40

回答 2 已采纳在使用 multiprocessing.Queue 时，队列是在不同进程中共享的。如果您在一个进程中检查队列是否为空，而在另一个进程中将元素添加到队列中，则可能会出现队列被认为是空的情况。队列是空的
请教python multiprocessing的问题 python
2021-04-05 12:57

回答 1 已采纳和线程不同，进程间不能共享全局变量，也不共享对象，进程间只能通过共享内存、管道、信号量、事件等手段通讯。如果题主一定要进程间共享这个全局变量，恐怕只能像下面的代码一样将全局变量作为参数传进去——这已经
python多进程multiprocessing.Pool的坑你想象不到（多目标遗传算法）
2019-09-04 16:18

NaH的博客用geatpy包求解多目标问题，明明看起来没啥问题，但是就是跑不出来，后来发现必须用cmd跑才行，打开anaconda prompt，然后cd Desktop，再python [文件绝对路径]，运行即可。然后中间弹框图像，要关闭后程序才能接着...
python 进程池调用自定义类没有反应大佬们来看看 python
2018-11-29 07:00

回答 1 已采纳定义入口函数 ``` if __name__ == '__main__': pool = multiprocessing.Pool(processes=3) list =
multiprocessing.pool.MaybeEncodingError
2021-04-09 22:02

Joey Chen&Wpl的博客 multiprocessing.pool.MaybeEncodingError: Error sending result: '<multiprocessing.pool.ExceptionWithTraceback object at 0x000000000B5D6EC8>'. Reason: 'PicklingError("Can't pickle <class '...
python的multiprocessing.Pool使用
2020-12-28 21:51

101之歌的博客因为要用到python的多进程测试个东西，所以特此记录一下： import pandas as pd import multiprocessing import time import traceback def read_data(path): try: data = pd.read_csv(path,encoding='utf-8') ...
python multiprocessing 共享内存_multiprocessing.shared_memory
2021-01-15 00:35

蓝精灵国王乄的博客为了帮助共享内存的生命周期管理，特别是在不同的进程中，一个 BaseManager 子类， SharedMemoryManager ，也在 multiprocessing.managers 模块。在这个模块中，共享内存指的是“SystemV样式”的共享...
python多进程map_Python多进程.Pool.map无法处理大型数组。
2021-01-12 03:31

weixin_39824834的博客这是我用来在熊猫.DataFrame对象：from multiprocessing import cpu_count, Poolfrom functools import partialdef parallel_applymap_df(df: DataFrame, func, num_cores=cpu_count(),**kargs):partitions = np....
使用multiprocessing Pool 对 pandas groupby apply加速
2020-06-14 14:13

roamer314的博客 1.multiprocessing Pool 的使用 import multiprocessing def func(args): # do something return df #返回一个df if __name__ == "__main__": pool = multiprocessing.Pool() result=pd.DataFrame() ...
multiprocessing.Pool python多进程最佳实践
2019-03-26 09:58

墨叶凌风的博客 /usr/bin/python3 import ember from keras.models import load_model import os import argparse from preprocess import preprocess import lightgbm as lgb import time import multiprocessing import nump...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月12日

悬赏问题

¥15 matlab数据降噪处理，提高数据的可信度，确保峰值信号的不损失？
¥15 怎么看我在bios每次修改的日志
¥15 python+mysql图书管理系统
¥15 Questasim Error: (vcom-13)
¥15 船舶旋回实验matlab
¥30 SQL 数组，游标，递归覆盖原值
¥15 为什么我的数据接收的那么慢呀有没有完整的 hal 库并代码呀有的话能不能发我一份并且我用 printf 函数显示处理之后的数据，用 debug 就不能运行了呢
¥20 gitlab 中文路径，无法下载
¥15 用动态规划算法均分纸牌
¥30 udp socket，bind 0.0.0.0 ，如何自动选取用户访问的服务器IP来回复数据

python中multiprocessing.pool和pandas如何结合使用？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新