分布式dask无法完成计算tsfresh extract_features

我有一个时间序列dataframe，1千个id，2万行，100列，用tsfresh的MultiprocessingDistributor，参数n_workers=12，在一台64G的单机上花40分钟就可以计算完全量的extract_features。
但如果用ClusterDaskDistributor，worker在4台64G机器上，scheduler是单独一个64G机器，这些机器都没有其他任务，最终却怎么也算不完，sheduler机器最终因为outofmemory把整个任务自我kill了。
如果使用MinimalFCParameters，只扩张10倍左右的因子，MultiprocessingDistributor和ClusterDaskDistributor都能正常结束。
另外，从dashboard上看，worker都能正常结束计算，最后在gather结果的时候，总是不停地增加内存消耗，直至把内存耗尽。但实际上这个任务在单机上用多进程的MultiprocessingDistributor顶峰期才使用了30多G内存就计算完成了。
请问，可能是哪里出了问题？谢谢！

版本信息
python 3.10
tsfresh：0.20.2
dask：2024.7.0
pandas：2.2.2
操作系统：ubuntu 22.04.1 LTS (Jammy Jellyfish)


```python
Distributor = ClusterDaskDistributor("10.23.173.171:8786")
X = extract_features(timeseries_container=data_roll,
                     column_id='id',
                     column_sort='TRADE_DATE',
                     distributor=Distributor)

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-07-16 20:57
关注
引自免费微信小程序：皆我百晓生

根据您提供的信息，我认为可能的问题出在调度器（例如Dask的ClusterDistributor）和数据集大小之间。虽然您已经尝试使用不同的调度器，并且在单机上使用多进程时可以正常运行，但在多节点集群上，似乎遇到了一些挑战。

首先，让我们分析一下这个问题的关键点：

使用的是Dask的ClusterDistributed调度器。
数据集大小约为1千个ID和2万行，每行有100个特征。
您在单机上使用多进程（MultiProcessingDistributed）时可以正常工作，表明系统有足够的资源。
在多节点集群上，尽管调度器（比如ClusterDistributed)可以正确地分配任务给每个节点，但整体来说，计算并没有达到预期的时间效率。

分析可能的原因

内存限制：由于您的系统只有一个CPU核心和较少的RAM，这可能导致在多节点环境中，即使调度器能够有效地将任务分发到各个节点，但由于内存不足，最终导致所有任务无法同时执行而被终止。
网络延迟：尽管您提到没有其他任务，但可能存在网络延迟或其他通信瓶颈，导致某些节点无法及时接收到或发送任务请求。
资源竞争：当多个任务同时进行时，可能会发生资源竞争，尤其是在大型数据集的情况下，这可能会影响系统的性能。
任务调度算法：Dask中的ClusterDistributed调度器通常具有一定的并发处理能力，但它可能没有充分利用这一点来最大化任务的并行性。
硬件配置：如果您正在使用的是较旧的硬件设备，它们可能不足以支持高负载环境下的高效运行。

解决方案

为了解决这些问题，您可以考虑以下几个策略：

提高硬件配置：确保您的集群至少包含足够的CPU核心数和内存来处理大量的计算任务。
优化任务调度算法：通过调整Dask的默认设置（如num_workers），以及在实际应用中观察和调整，以找到最优的资源利用方式。
监控和优化网络延迟：检查是否有网络连接中断或延迟，特别是对于远程任务请求和响应。
使用更高级的任务调度工具：考虑使用专门设计用于大规模计算任务的调度工具，如Joblib、Parallel等，这些工具通常具有更好的并发处理能力和故障恢复机制。
适当的数据结构选择：在处理大量数据时，可能需要考虑使用适合的存储和计算数据结构，例如分布式数据库或缓存技术。

实现示例

为了演示如何使用joblib库实现类似的操作，我们可以创建一个简单的Python脚本，使用joblib.Parallel和joblib.delayed函数来并行化计算过程。

import joblib from dask.distributed import Client, LocalCluster # 创建本地Dask集群 cluster = LocalCluster(n_workers=12) # 创建Client client = Client(cluster) # 准备数据 timeseries_container = ... # 计算提取特征 def compute_extract_features(timeseries): # 这里应该调用tsfresh的extract_features函数 pass # 使用joblib并行化计算 with client: results = client.compute( [compute_extract_features(timeseries) for timeseries in timeseries_container] ) # 获取并行化的结果 for result in results: print(result)

这段代码展示了如何使用joblib.Parallel并行化compute_extract_features函数的结果。注意，这里我们只是简单地打印结果，而在实际应用中，您可能需要进一步处理结果或保存它们。

请根据您的具体需求和环境调整上述建议。希望这些建议对解决您的问题有所帮助。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

dask_cudf包安装出错，无法使用 python 有问必答
2021-07-07 11:28

回答 2 已采纳 github有版本要求，你看看，你按照这个版本安装一下
python dtale使用 import dtale 时报错 python
2022-08-31 16:02

回答 2 已采纳 conda更新一下所有包 conda update -n base conda
虚拟打包时用什么命令可以去除系统自带的包啊？具体在哪里加指令还望详细指导，我脑壳疼 python
2022-04-14 15:09

回答 1 已采纳加个参数 --no-site-packages
特征工程：tsfresh构造时间序列特征
2022-02-28 19:44

wbzhang233的博客时间序列特征工程构造工具tsfresh
求助大佬，html图片等距离屏幕有距离的问题! css css3 html5
2019-05-15 09:50

回答 3 已采纳 *{ margin:0; padding:0; border:0; }
几行 Python 代码就可以提取数百个时间序列特征
2024-04-13 08:30

冻感糕人~的博客时间序列数据是随着时间的推移反复捕获的变量值，随着时间的推移可以产生一系列的按时间顺序索引的数据点...python的tsfresh包可以为时间序列数据生成标准的数百个通用特性。在本文中，我们将深入讨论tsfresh包的使用。
适应急流分布式ml生态系统的第1部分
2020-09-08 00:04

weixin_26756255的博客该脚本在您的本地计算机上创建一个分布式Dask群集(尽管使用了dask.distributed ，所有节点都在您的本地计算机上运行，因此它不是真正的分布式的)，将一些假数据读入dask.dataframe并计算其和。 The great thing...
aws 分布式数据库_使用AWS和Prefect简化分布式数据管道
2020-09-07 12:58

weixin_26711867的博客 aws 分布式数据库Building distributed systems for ETL & ML data pipelines is hard. If you tried implementing one yourself, you may have experienced that tying together a workflow orchestration ...
Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh –A Python package)
2022-07-24 11:40

星空&逆行者的博客【英文翻译】Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh –A Python package)
Python数据分析实战：物流业数据分析
2024-02-19 10:33

光剑书架上的书的博客可以评估特征重要性缺点：对于某些噪声很大的分类问题，容易过拟合计算量大，训练时间长对于高度倾斜的数据集，可能会产生偏差 3.3.4 遗传算法优点：能处理复杂的优化问题可以并行化，提高效率不需要问题的...
hadoop集群搭建教程
2022-11-23 17:57

冰帆<的博客设置完成后使用hostname命令查看编辑hosts sudo vi /etc/hosts 192.168.1.130 hd.m1 192.168.1.131 hd.m2 192.168.1.132 hd.n1 192.168.1.133 hd.n2 192.168.1.134 hd.n3 192.168.1.135 hd.n4 其他几台机器配置...
c#视觉应用开发中如何在C#中实现支持向量机（SVM）进行图像分类？
2024-07-17 09:00

openwin_top的博客 public class ImagePreprocessing { public static double[] ExtractFeatures(Bitmap image) { // Resize the image to a standard size ResizeBilinear resizeFilter = new ResizeBilinear(64, 64); Bitmap ...
apache工程源码_apache的气流足以满足当前数据工程的需求
2020-09-05 10:30

weixin_26631359的博客 The community put in an amazing amount of work building a wide range of features and connectors. However, it has several weak spots that prevent me from truly loving working with it. Some of them may...
数据仓库 python_python新手如何通过即时转换彻底改变收藏的数据仓库
2020-10-14 09:00

weixin_26735933的博客数据仓库 python A user ... 然后，我们让Python脚本实时收听Kafka主题的组合，其中每个主题都对应于原始表的事件***，并利用Dask简化了并行计算。从连接到展平到解码再到充实到实际上任何有益的计算都将在这一点上...
TF卡里删掉文件后内存没变大_如何写一个高效的输入流 [TF 笔记 2 ]
2020-11-19 23:49

weixin_39983350的博客模型在训练时会不断地消耗数据，计算损失函数，更新模型。模型训练时需要的数据是一个个的 batch ，而原始的数据往往是零散的单个样例。所以我们需要将原始的数据通过一系列的组合操作，拼装为一个个的 batch，送给...
如何学习Python：糙快猛的大数据之路（学习地图）
2024-07-23 08:00

数据小羊的博客这时，我们需要借助分布式计算框架。使用PySpark进行分布式数据处理 from pyspark.sql import SparkSession from pyspark.sql.functions import col, sum # 创建SparkSession spark = SparkSession.builder \ ....
数据特征工程 | Python实现时间序列数据特征提取
2022-08-20 19:40

前程算法屋的博客 分布式框架：tsfresh还实现了一个自己的分布式框架，将特征计算分布在多台机器上加快计算速度。 Spark兼容：tsfresh还可以使用spark或Dask来处理非常大的数据。拓展学习数据可视化程序设计与学习 #--------------...
阅读笔记：Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests（Python package）
2018-08-23 15:59

图不灵的博客阅读笔记：Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh – A Python package) 摘要：时间序列特征工程是一个耗时的过程，因为科学家和工程师必须考虑信号处理和时间序列分析...
python 基础知识之（numpy、pandas、matplotlib、tensorflow）
2020-02-26 15:23

qq_41627642的博客 Numpy库：创建一个 ndarray 只需调用 NumPy 的 array 函数即可： numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0) 名称描述 object 数组或嵌套的数列 ...
tensorflow学习笔记（六）：TF.contrib.learn大杂烩
2017-06-14 21:16

我愛大泡泡的博客这个API使配置、训练和计算变得更简单。现在依然是依照官方教程进行一些学习和补充。而且程序依然会放在github里。而且从这里开始一直是按照最新的tensorflow版本（目前是r1.2）来进行。一、API简略浏览　在写...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月16日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

分布式dask无法完成计算tsfresh extract_features

5条回答 默认 最新

分析可能的原因

解决方案

实现示例

问题事件

悬赏问题

5条回答默认最新