但是发现在聚类时它总会使模型中的很多0参数都会被聚类成其他数字，请问一下有什么办法可有在聚类时使参数0保存下来吗

我在模型参数聚类使用的是tfmot.clustering.keras.cluster_weights。但是发现在聚类时它总会使模型中的很多0参数都会被聚类成其他数字，请问一下有什么办法可有在聚类时使参数0保存下来吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

Code_King1 2023-04-24 19:34

关注

tfmot.clustering.keras.cluster_weights默认的聚类算法是基于K-means，由于每个聚类都由一组高度相关的权重组成，因此很可能将值接近0的参数聚为一类，从而使得一些原本是0的参数被分配到非0的聚类中。如果需要在聚类时保留0参数，则可以使用硬聚类（Hard Clustering）算法。硬聚类就像是对相似度矩阵应用指示器函数一样，在相似度足够大的前提下才进行聚类划分。因为属于同一个簇的数据点彼此间距离较近，所以不容易将0和非0的数据点分开。与之不同，软聚类（Soft Clustering）会考虑到一组权重（向量）中每个元素的平方和，这可能会导致约束过松，并使得偏向于将某个小特征记为非零。 tfmot.clustering.keras.cluster_weights并不支持直接启用硬聚类，但您可以使用自定义聚类来实现这一点。您可以利用tf.cluster.KMeans API或其他自定义算法来建立聚类模型，以在训练期间进一步精细化控制具体聚类效果，并根据实际情况重新定义聚类标准。例如，您可以按以下方式定义一个自定义聚类回调来实现此目的：



import tensorflow as tf
from tensorflow_model_optimization.python.core.clustering.keras import cluster_config
from tensorflow_model_optimization.python.core.clustering.keras import clustering_algorithm


class CustomClusteringAlgorithm(clustering_algorithm.ClusteringAlgorithm):
    def __init__(self, number_of_clusters, percentile=0.1, **kwargs):
        super(CustomClusteringAlgorithm, self).__init__(**kwargs)
        self.number_of_clusters = number_of_clusters
        self.percentile = percentile
        self.cluster_axis = kwargs.get("cluster_axis")

    def get_cluster_centers(self, values):
        # Compute representations for each weight
        similarity_mtx = tf.matmul(values, values, transpose_b=True)

        # Use top Kth percentile to determine whether or not to cluster a given input
        similarity_threshold = tfp.stats.percentile(similarity_mtx, self.percentile)

        # Convert similarity matrix into binary indicators
        mask_nonzeros = tf.greater(similarity_mtx, similarity_threshold) # keep the data points > threshold 相似度之间相差不是太大就类别，否则认为两个点不属于同一类别
        mask_nonzeros = tf.cast(mask_nonzeros, tf.float32)

        # Generate cluster centers by simply taking the mean of every group defined by the above binary mask
        return [
            tf.reduce_mean(tf.boolean_mask(values, tf.transpose(tf.equal(mask_nonzeros, i)), axis=-1), axis=-1)
            for i in range(self.number_of_clusters)]

    @staticmethod
    def configure_params_for_model(input_tensor_shapes, output_tensor_shapes, *args, **kwargs):
        return {"cluster_config": cluster_config.ClusterConfig(
                    number_of_clusters=kwargs["number_of_clusters"],
                    cluster_centroids_init=kwargs.get("cluster_centroids_init", None),
                    # `custom_get_cluster_centers` method will be called.
                    clustering_algorithm=CustomClusteringAlgorithm(kwargs["number_of_clusters"],
                                                                    percentile=kwargs.get("percentile", 0.1),
                                                                    layer_name=kwargs.get("layer_name"),
                                                                    cluster_axis=kwargs.get("cluster_axis"))
            )}

在此自定义算法中，我们使用相似度矩阵的上Kth百分位来判断是继续聚类还是保持原始值不变。如果要继续聚类，则对输入应用K-means聚类。你可以这样使用上面的自定义回调：

import tensorflow_model_optimization as tfmot

n_clusters = 8
clustering_params = {
    'number_of_clusters': n_clusters,
}

# 开启型聚类
model_for_clustering = tfmot.clustering.keras.cluster_weights(model, **clustering_params)

请根据项目实际情况调整算法细节和参数，并进行适当的调优以实现最佳效果。同时，请注意自定义算法可能会带来更高的时间和计算性能成本，在训练大型模型时可能需要进行优化处理。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

大数据分析案例-基于RFM模型对电商客户价值分析（聚类）
2022-10-31 07:00

艾派森的博客面对这些挑战，就需要能够及时发现店铺经营中的问题，并且能够有效解决这些实际的问题，从而提升自身的竞争力。根据已有数据对店铺整体运营情况进行分析，了解运营状况，对未来进行预测，已经成为电商运营必不可少...
什么是K-means聚类算法
2024-08-04 13:04

为我喧哗的博客第一步，既然现在有了 K 个质心，对于其他数据点来说，根据其距离哪个质心近就归为哪个簇的办法，可以聚成 K 个簇。但请注意，这只是第一步，并不是最后完成聚类的结果；第二步，对于聚成的 K 个簇，需要重新选取...
简述 K-means聚类算法
2022-06-21 12:36

季布，的博客有监督学习，主要对有标签的数据集（即有“参考答案”）去构建机器学习模型，但在实际的生产环境中，其实大量数据是处于没有被标注的状态，这时因为“贴标签”的工作需要耗费大量的人力，如果数据量巨大，或者调研...
【数据挖掘实战】——使用 word2vec 和 k-mean 聚类寻找相似城市
2022-11-08 18:58

Lingxw_w的博客在旅行场景下，城市——我们通常称为目的地，是一个很重要的信息。根据用户对于目的地的偏好，我们既可以把目的地作为一个特征用于推荐系统中，也可以把目的地当作一个被推荐的信息直接推荐给用户。所以，我们有一个...
【人工智能与机器学习】——聚类（学习笔记）
2022-12-15 17:16

HinsCoder的博客但在很多实际问题中，数据并没有语义标签，解决此类问题就要用到**无监督学习**（unsupervised learning）。无监督学习有很多技术方向，聚类（clustering）是其中一个重要的方向。聚类的本质就是把特征相近的数据...
【SPSS】基于RFM+Kmeans的电商客户价值聚类分析
2024-06-24 09:20

艾派森的博客使用RFM模型+聚类算法对电商客户进行分群，进行精准营销。
K-means聚类算法
2023-08-15 12:45

ZhangJiQun&MXP的博客第一步，既然现在有了 K 个质心，对于其他数据点来说，根据其距离哪个质心近就归为哪个簇的办法，可以聚成 K 个簇。但请注意，这只是第一步，并不是最后完成聚类的结果；第二步，对于聚成的 K 个簇，需要重新选取...
白话机器学习算法理论+实战之EM聚类
2020-02-14 20:58

翻滚的小@强的博客如果想从事数据挖掘或者机器学习的工作，掌握常用的机器学习算法是非常有必要的，比如我之前写过的一篇十大机器学习算法的小总结，在这简单的先捋一捋，常见的机器学习算法：监督学习算法：逻辑回归，线性回归，...
python中文短文本的预处理及聚类分析（NLP）
2018-12-21 15:28

普通攻击往后拉的博客 python中文短文本的预处理及聚类分析（NLP）对于中文短文本而言，其有着单个...对于原始文本，总会有很多东西是我们不需要的，比如标点、网址来源、表情转换符（[西瓜]、[大笑]）等，如下图所示。因此我们首...
手把手的K-means聚类算法教程（含简介及教育数据应用实例 Python实现）
2022-10-29 21:24

张鹏99的博客无监督学习K-MEANS聚类算法的实操过程。多维教育行为数据转换，数据标准化/归一化，K值的选择，聚类的评价
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月24日

悬赏问题

¥30 使用matlab将观测点聚合成多条目标轨迹
¥15 Workbench中材料库无法更新，如何解决？
¥20 如何推断此服务器配置
¥15 关于github的项目怎么在pycharm上面运行
¥15 内存地址视频流转RTMP
¥100 有偿，谁有移远的EC200S固件和最新的Qflsh工具。
¥15 有没有整苹果智能分拣线上图像数据
¥20 有没有人会这个东西的
¥15 cfx考虑调整“enforce system memory limit”参数的设置
¥30 航迹分离，航迹增强，误差分析

但是发现在聚类时它总会使模型中的很多0参数都会被聚类成其他数字，请问一下有什么办法可有在聚类时使参数0保存下来吗

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新