机器学习算法—聚类分析之Kmeans

在做Kmeans算法的时候，聚类类别数是由参数k决定的，而在做这个算法的时候，k值在传参时是由人为指定的，也就是自己想分成几类就分成几类，但是这样做下来并不严谨，我们不知道k值指定为多少的时候分类效果是最好的，所以我查找了很多关于k值的选择的资料，常见的方法有手肘法则和轮廓系数，但是用这两个方法基本上都是通过作图来观察如何选k值，最后还是需要人为输入传参的k值。
最重要的来了，自动确定k值的Kmeans聚类！，写出一个能自动确定最好分类效果的k值的算法并返回k值，作为最后传参的值，我同样也查了很多资料，找到了一个博主的文档：

我用#CSDN#这个app发现了有技术含量的博客，小伙伴们求同去《Kmeans算法 python实现》, 一起来围观吧 https://blog.csdn.net/m0_37783096/article/details/79704517?utm_source=app&app_version=4.21.1

但是里面代码并不完整，就导致有些地方看不懂。
在这里呢，我自我介绍一下，本人是一名读计算机专业的大学生，对于机器学习算法就学到一些基础知识，想请看到我发布的问题的朋友能帮忙解决一下我所提出的问题。我把完整代码上传，求在这方面厉害的朋友帮忙写一个自动确定k值并返回这个值的算法。


import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt
import matplotlib as mpl

def loadDataSet():
    data = np.random.uniform(-6,6,size=(500,2))
    return data

# 中心点在k个样本点中随机选取
def createCent(dataSet, k):
    center = random.sample(list(dataSet), k)
    return np.array(center)

# 计算聚类中心和数据点之间的距离
def evaDistan(vectA, vectB):
    return np.sqrt(np.sum(np.power((vectA - vectB), 2)))

def kMeans(dataSet, k, evaDistance, createCenter):
    numSamples = np.shape(dataSet)[0]
    clusterAssment = np.mat(np.zeros((numSamples, 2)))
    clusterCenter = createCenter(dataSet, k)
    changeFlag = True
    while changeFlag:
        changeFlag = False
        for i in range(numSamples):
            minDist = float("inf"); minIndex = -1
            for j in range(k):
                distJI = evaDistance(clusterCenter[j, :], dataSet[i, :])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i, 0] != minIndex:
                changeFlag = True
            clusterAssment[i, :] = minIndex, minDist ** 2
        # 重新计算聚类中心
        for cent in range(k):
            sameCluster = dataSet[np.nonzero(clusterAssment[:, 0].A == cent)[0]]
            clusterCenter[cent, :] = np.mean(sameCluster, axis=0)
    return clusterCenter, clusterAssment

def show(dataSet, labelSet, k, clusterCenter):
    mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
    mpl.rcParams['axes.unicode_minus'] = False
    fig = plt.figure(figsize=(20, 18))
    
    plt.subplot(221)
    for i in range(np.shape(dataSet)[0]):
        plt.scatter(dataSet[i, 0], dataSet[i, 1], color='black')
    plt.xlabel(u'X', fontsize=18)
    plt.ylabel(u'Y', fontsize=18)
    plt.xticks(fontsize=18)
    plt.yticks(fontsize=18)
    plt.title(u"无聚类结果", fontsize=18)
    
    plt.subplot(222)
    """
    's' : 方块状, 'o' : 实心圆, '^' : 正三角形, 'v' : 反正三角形, '+' : 加号
    '*' : 星号， 'x' : x号, 'p' : 五边形, '1' : 三脚架标记, '2' : 三脚架标记
    """
    mark = ['sr', 'ob', '^g', '*y', '+m', 'vc', 'xk', 'pb', '<r', 'pg', '*k', '^g']
    for i in range(np.shape(dataSet)[0]):
        plt.plot(dataSet[i, 0], dataSet[i, 1], mark[labelSet[i]], markersize=6)
    for lei in range(k):
        plt.plot(clusterCenter[lei][0], clusterCenter[lei][1], mark[lei], markersize=15)
    plt.xlabel(u'X', fontsize=18)
    plt.ylabel(u'Y', fontsize=18)
    plt.xticks(fontsize=18)
    plt.yticks(fontsize=18)
    plt.title(u"聚类结果", fontsize=18)
    plt.grid(True)
    plt.show()

if __name__ == "__main__":
    dataSet = loadDataSet()
    k = 4
    clusterCenter, clusterAssment = kMeans(dataSet, k, evaDistance=evaDistan, createCenter=createCent)
    labelSet = [int(x[0]) for x in clusterAssment]
    show(dataSet, labelSet, k, clusterCenter)

这是人为指定的k值，希望各位以我上传的代码来帮忙写一个自动确定k值的算法
十分感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
De-Chang Wang 2022-05-27 21:47
关注
获得0.35元问题酬金

kmeans算法中的K是无法自动确定的，这是kmeans算法的本质决定的。你能做的要么是换其它算法，要么是在kmeans之前通过其它方式来设定K值

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

kmeans++聚类聚成这样合理吗 kmeans 机器学习聚类
2021-11-13 16:07

回答 1 已采纳唉，终究是解决了，求均值的时候X[y_pred==i].mean()没加axis=0顺便把新实现的代码贴一下吧 import numpy as np import matplotlib.pyplot
举例讨论聚类算法与其他算法的组合应用机器学习聚类
2022-03-29 17:07

回答 2 已采纳聚类和演化算法，利用聚类分析PSO粒子分布状况聚类还可以帮助演化算法选参
Kmeans聚类算法应用问题，八维数据的分类 kmeans python 有问必答聚类
2021-11-08 09:09

回答 1 已采纳分类： km = KMeans(n_clusters=4) km.fit_predict(data) 分完类之后得到了聚类中心，也就是km.cluster_centers_，你可以print出来：
聚类分析，kmeans聚类分析，输出聚类坐标点。matlab2021a测试仿真。
2022-05-01 00:32

聚类分析，kmeans聚类分析，输出聚类坐标点。matlab2021a测试仿真。
R语言，用系统聚类法对数据进行聚类分析，并与Kmeans聚类结果进行比较 r语言有问必答
2021-10-05 19:11

回答 2 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
聚类算法/ip聚类/可视化 kmeans 算法聚类
2023-02-19 16:37

回答 9 已采纳针对日志分析可视化中使用聚类算法的问题，以下是一些思路和建议： 1.确定聚类算法：首先需要选择一种适合日志数据的聚类算法，例如k-means、层次聚类等。选择算法时需要考虑数据量、数据维度、聚类结果的
kmeans聚类实现python python 机器学习机器学习算法工程师-陶瑞
2021-03-07 23:56

回答 3 已采纳 matplotlib画出来呗。。。三维以内的都能画
ai-机器学习算法实现之KMeans聚类.zip
2024-04-25 09:04

ai ai_机器学习算法实现之KMeans聚类
运用kmeans 算法对数据进行聚类 python
2022-05-05 10:03

回答 1 已采纳可以参考https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/89037409
机器学习中什么是推断？和聚类、回归这些术语有什么关系？人工智能机器学习
2022-02-04 17:06

回答 1 已采纳推断是根据已知随机变量求未知随机变量条件分布的过程，例如我从一段语音推断对应的文字。预测是推断的一种，其已知变量、未知变量具有因果关系，分类、回归都属于预测问题。
python运行层次聚类Agnes算法报错 python 有问必答机器学习聚类
2022-02-11 21:14

回答 2 已采纳元组的索引越界，打印一下len(dataset)，n取值已经超过了a,b元组元素个数。
机器学习领域，聚类算法，kmeans自动计算gap，自动确定k值
2024-03-29 16:42

机器学习领域涉及多种算法，其中聚类算法是一个重要分支，常见的聚类算法有kmeans，虽然原理简单，简单易用，但通常需要事先确定K值，k值选取与具体数据和业务场景紧密相关，一旦k值选取不合理会导致模型效果出现...
三种聚类算法适用场景分类机器学习聚类
2023-04-23 09:09

回答 6 已采纳这篇文章：训练K-Means与DBSCAN算法模型也许有你想要的答案，你可以看看除此之外, 这篇博客: 学习笔记1 三大聚类方法：K-means聚类、层次聚类、DBSCAN聚类中的二、层次聚类部
机器学习算法之KMeans聚类算法实现.zip
2024-04-20 05:46

机器学习算法 机器学习算法之KMeans聚类算法实现
机器学习-聚类分析之KMeans
2020-11-18 19:16

gao_vip的博客 聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月27日

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

机器学习算法—聚类分析之Kmeans

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新