kmeans++聚类聚成这样合理吗

kmeans++聚类聚成这样合理吗
聚类的算法代码如下

class Kmeans:
    def __init__(self, k, threshold=1e-5):
        self.k = k
        self.threshold = threshold
    
    def centroid_init(self,X):
        centroids = []
        centroids.append(X[np.random.choice(X.shape[0])])
        for i in range(self.k-1):
            D = []
            for x in X:
                D.append(np.min([np.linalg.norm(x - c) for c in centroids]))
            centroids.append(X[np.argmax(D)])
        return np.array(centroids)
                              
    def train(self, X):
        # 初始化聚类中心
        self.centroids = self.centroid_init(X)
        y_pred = np.zeros(shape=(X.shape[0],))
        while True:
            # 涂色
            for i, x in enumerate(X):
                y_pred[i] = self.predict(x)
            
            # 计算新的聚类中心
            new_centroids = self.centroids.copy()
            for i in range(self.k):
                new_centroids[i] = X[y_pred==i].mean()
            
            # 如果聚类中心位置基本没有变化，那么终止
            if np.max(np.abs(new_centroids - self.centroids)) < self.threshold:
                break
            
            # 否则更新聚类中心，重复上述步骤
            self.centroids = new_centroids
        return y_pred

    def predict(self, x):
        dis = []
        # 计算每个样本与中心的距离
        for c in self.centroids:
            dis.append(np.linalg.norm(x - c))
        # 将样本索引添加到距离最小的中心对应的分类中
        return np.argmin(dis)

下图左边是原数据分布，右边是上面的算法生成的聚类分布

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

柳成荫~ 2021-11-13 21:22

关注

唉，终究是解决了，求均值的时候X[y_pred==i].mean()没加axis=0
顺便把新实现的代码贴一下吧

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

class Kmeans:
    def __init__(self, k, init='pp-soft', max_iter=300, thresh=1e-5):
        self.k = k
        self.thresh = thresh
        self.max_iter = max_iter
        self.init = init

    def random_centroid_init(self,X):
        # 随机选取K个样本作为聚类中心
        return X[np.random.choice(X.shape[0], size=self.k)]
    
    def max_centroid_init(self,X):
        centroids = []
        centroids.append(X[np.random.choice(X.shape[0])])
        for i in range(self.k-1):
            index = np.argmax([np.min(self.dist(x)) for x in X])
            centroids.append(X[index])
        return np.array(centroids)

    def soft_centroid_init(self,X):
        centroids = []
        centroids.append(X[np.random.choice(X.shape[0])])
        for i in range(self.k-1):
            D = [np.min(self.dist(x)) for x in X]
            number = np.random.choice(int(np.sum(D)))
            for i,d in enumerate(D):
                number -= d
                if number<0:
                    centroids.append(X[i])
                    break
        return np.array(centroids)

    def dist(self, x):
        return [np.linalg.norm(x - c) for c in self.centroids]

    def fit_predict(self, X):
        # 初始化聚类中心
        if self.init == 'random':
            self.centroids = self.random_centroid_init(X)
        elif self.init == 'pp-max':
            self.centroids = self.max_centroid_init(X)
        else:
            self.centroids = self.soft_centroid_init(X)
        for _ in range(self.max_iter):
            # 涂色
            y_pred = np.array([np.argmin(self.dist(x)) for x in X])
            
            # 计算新的聚类中心
            new_centroids = self.centroids.copy()
            for i in range(self.k):
                new_centroids[i] = np.mean(X[y_pred==i],axis=0)
            
            # 如果聚类中心位置基本没有变化，那么终止
            if np.max(np.abs(new_centroids - self.centroids)) < self.thresh:
                break
            
            # 否则更新聚类中心，重复上述步骤
            self.centroids = new_centroids
        return y_pred
    
X, y = make_blobs(n_samples=1000, n_features=2, centers=3)

model = Kmeans(3)
y_pred = model.fit_predict(X)

plt.figure()
plt.subplot(121)
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.subplot(122)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

聚类算法 | Kmeans：肘方法、Kmeans++、轮廓系数 | DBSCAN
2024-04-05 15:49

ToBeCertain的博客聚类算法 | 无监督算法 | K类别选择&聚类中心选择 | 肘方法&Kmeans++
【聚类】基于PCA+kmeans实现数据聚类附matlab代码
2023-04-17 22:02

matlab科研助手的博客将基于PCA-Kmeans++的多属性融合聚类技术应用于沁水盆地南部3#煤层的储层预测中,对融合聚类属性进行分析,确定有利储层分布.首先提取常规的叠后地震属性,叠后波阻抗反演以及叠前AVO属性;然后利用PCA主成分分析方法,...
kmeans python自定义初始聚类中心_聚类算法——K-Means原理、k选择、质心初始化、Python实现...
2020-12-10 16:34

weixin_39603265的博客引入聚类是一种无监督学习，将相似的样本(对象/实例)归到同一簇(cluster)中。通常用样本的相似度或距离来衡量。eg:天空中的星星，靠得近的星星可以被归为一个星团，而星团之间的星星距离比较远。(CheungRN：聚类算法...
聚类算法和Kmeans算法
2025-04-15 23:09

郜太素的博客这篇文章围绕聚类算法展开，介绍了聚类算法的基本概念、应用场景和分类，包含划分、层次、密度、谱聚类等。以 K-means 为例，阐述其 API 使用、算法流程，通过随机数据集演示聚类过程。介绍了 SSE、SC、CH 等评价...
Kmeans聚类算法
2025-03-12 21:16

闭月之泪舞的博客 Kmeans算法属于无监督学习算法。a.获取到一堆的数据，数据没有被分类很杂乱b.如果要将这些数据点分为两类，则随机选择两个质心，计算每个（所有的）样本点距离这两个质心之间的距离，距离那个质心更近就会被分到哪个...
scikit-learn kmeans++
2018-01-19 17:59

AI算法网奇的博客聚类分析在客户细分中极为重要。有三类比较常见的聚类模型，K-mean聚类、层次（系统）聚类、最大期望EM算法。在聚类模型建立过程中，一个比较关键的问题是如何评价聚类结果如何，会用一些指标来评价。原文：...
KMeans算法( 聚类分析)
2019-11-21 21:03

郑德帅的博客比如Gmail邮箱里有垃圾邮件分类器，一开始的时候可能什么都不过滤，在日常使用过程中，我人工对于每一封邮件点选“垃圾”或“不是垃圾”，过一段时间，Gmail就体现出一定的智能，能够自动过滤掉一些垃圾邮件了。...
Pytorch机器学习（十）—— 目标检测中k-means聚类方法生成锚框anchor
2021-10-14 21:12

lzzzzzzm的博客 Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言前面文章说过有关锚框的一些知识...
聚类算法讲解：KMEANS和DBSCAN
2024-04-20 23:22

一直有梦想的兔子的博客 K-MEANS主要是用来处理无监督问题的聚类算法，是聚类算法最简单也是最实用的算法。
Python 人工智能实战| 基于K-means算法的模式聚类进行数字图像处理
2024-05-23 10:07

是瑶瑶子啦的博客二、概要设计1.Kmeans——一种无监督机器学习的聚类算法基本原理：在不给出数据类别标签而直接给出样本数据情况下，该算法首先需要确定结果要把样本聚成k类。2.本次实验需要完成的聚类任务介绍：用K-means算法实现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月13日

kmeans++聚类聚成这样合理吗

1条回答 默认 最新

问题事件

1条回答默认最新