使用Python实现K均值聚类算法使用什么变成思想

请问大神，使用Python实现K均值聚类算法，使用面向对象和面向过程，
这两种设计思想的区别，和优劣是什么，是结合这个具体的实现算法谈一下，

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答

threenewbee 2018-06-28 15:27

关注

如果你去看python的数学函数库，比如numpy pandas scipy 等等，很少有用到面向对象的，而这些库都是很知名的，具有影响力的库。成熟并且大量使用。

你要搞明白一个问题，就是使用python进行科学运算和统计优化的都是领域专家而不是职业程序员，他们需要的是简单高效的调用，而不是学院派的“面向对象”，也许专业开发者认为面向对象有利于编写那种健壮强大易于维护的软件，但是这些对于科学运算和数据处理没有什么实际用处。

如果你非要结合程序来讨论，我们就看一个这样的程序：

 import numpy
import random
import codecs
import copy
import re
import matplotlib.pyplot as plt

def calcuDistance(vec1, vec2):
    # 计算向量vec1和向量vec2之间的欧氏距离
    return numpy.sqrt(numpy.sum(numpy.square(vec1 - vec2)))

def loadDataSet(inFile):
    # 载入数据测试数据集
    # 数据由文本保存，为二维坐标
    inDate = codecs.open(inFile, 'r', 'utf-8').readlines()
    dataSet = list()
    for line in inDate:
        line = line.strip()
        strList = re.split('[ ]+', line)  # 去除多余的空格
        # print strList[0], strList[1]
        numList = list()
        for item in strList:
            num = float(item)
            numList.append(num)
            # print numList
        dataSet.append(numList)

    return dataSet      # dataSet = [[], [], [], ...]

def initCentroids(dataSet, k):
    # 初始化k个质心，随机获取
    return random.sample(dataSet, k)  # 从dataSet中随机获取k个数据项返回

def minDistance(dataSet, centroidList):
    # 对每个属于dataSet的item，计算item与centroidList中k个质心的欧式距离，找出距离最小的，
    # 并将item加入相应的簇类中

    clusterDict = dict()                 # 用dict来保存簇类结果
    for item in dataSet:
        vec1 = numpy.array(item)         # 转换成array形式
        flag = 0                         # 簇分类标记，记录与相应簇距离最近的那个簇
        minDis = float("inf")            # 初始化为最大值

        for i in range(len(centroidList)):
            vec2 = numpy.array(centroidList[i])
            distance = calcuDistance(vec1, vec2)  # 计算相应的欧式距离
            if distance < minDis:    
                minDis = distance
                flag = i                          # 循环结束时，flag保存的是与当前item距离最近的那个簇标记

        if flag not in clusterDict.keys():   # 簇标记不存在，进行初始化
            clusterDict[flag] = list()
        # print flag, item
        clusterDict[flag].append(item)       # 加入相应的类别中

    return clusterDict                       # 返回新的聚类结果

def getCentroids(clusterDict):
    # 得到k个质心
    centroidList = list()
    for key in clusterDict.keys():
        centroid = numpy.mean(numpy.array(clusterDict[key]), axis = 0)  # 计算每列的均值，即找到质心
        # print key, centroid
        centroidList.append(centroid)

    return numpy.array(centroidList).tolist()

def getVar(clusterDict, centroidList):
    # 计算簇集合间的均方误差
    # 将簇类中各个向量与质心的距离进行累加求和

    sum = 0.0
    for key in clusterDict.keys():
        vec1 = numpy.array(centroidList[key])
        distance = 0.0
        for item in clusterDict[key]:
            vec2 = numpy.array(item)
            distance += calcuDistance(vec1, vec2)
        sum += distance

    return sum

def showCluster(centroidList, clusterDict):
    # 展示聚类结果

    colorMark = ['or', 'ob', 'og', 'ok', 'oy', 'ow']      # 不同簇类的标记 'or' --> 'o'代表圆，'r'代表red，'b':blue
    centroidMark = ['dr', 'db', 'dg', 'dk', 'dy', 'dw']   # 质心标记 同上'd'代表棱形
    for key in clusterDict.keys():
        plt.plot(centroidList[key][0], centroidList[key][1], centroidMark[key], markersize = 12)  # 画质心点
        for item in clusterDict[key]:
            plt.plot(item[0], item[1], colorMark[key]) # 画簇类下的点

    plt.show()

if __name__ == '__main__':

    inFile = "D:/ML/clustering/testSet.txt"            # 数据集文件 
    dataSet = loadDataSet(inFile)                      # 载入数据集
    centroidList = initCentroids(dataSet, 4)           # 初始化质心，设置k=4
    clusterDict = minDistance(dataSet, centroidList)   # 第一次聚类迭代
    newVar = getVar(clusterDict, centroidList)         # 获得均方误差值，通过新旧均方误差来获得迭代终止条件
    oldVar = -0.0001                                   # 旧均方误差值初始化为-1
    print '***** 第1次迭代 *****'
    print 
    print '簇类'
    for key in clusterDict.keys():
        print key, ' --> ', clusterDict[key]
    print 'k个均值向量: ', centroidList
    print '平均均方误差: ', newVar
    print 
    showCluster(centroidList, clusterDict)             # 展示聚类结果

    k = 2
    while abs(newVar - oldVar) >= 0.0001:              # 当连续两次聚类结果小于0.0001时，迭代结束          
        centroidList = getCentroids(clusterDict)          # 获得新的质心
        clusterDict = minDistance(dataSet, centroidList)  # 新的聚类结果
        oldVar = newVar                                   
        newVar = getVar(clusterDict, centroidList)

        print '***** 第%d次迭代 *****' % k
        print 
        print '簇类'
        for key in clusterDict.keys():
            print key, ' --> ', clusterDict[key]
        print 'k个均值向量: ', centroidList
        print '平均均方误差: ', newVar
        print
        showCluster(centroidList, clusterDict)            # 展示聚类结果

        k +=

数据载入、运算、显示结果清清楚楚，你告诉我面向对象你打算怎么面向？

报告相同问题？

关注问题

关于#python#的问题：数据结构算法 python 数据结构算法
2022-09-23 22:37

回答 2 已采纳可以用python的pandas的dataframe结构去处理，不管你的数据是在sql中，还是在excel，json，csv，tsv等等不同的地方，或者说实在程序运行过程中产生的，没有额外存储的别的地
python 学了爬虫和一些数据结构、算法以后，再学点什么好 python 数据结构算法
2022-04-11 20:44

回答 2 已采纳事实上，爬虫的知识体系也是比较庞大的（在技能树中）：如果你还有兴趣，可以深挖一下爬虫工程。没兴趣的话，那你可以尝试下web开发、GUI编程、AI，这些都很有趣。你还可以尝试设计一个大型项目，在学习新
关于使用python完成龙贝格算法 python 数据分析
2022-10-26 22:57

回答 2 已采纳题主的问题恐怕不是数组元素多而是计算错误，比如，T数组的第2个元素应该是3.1，题主计算出来却是1.5。下面是我写的一个算法，请测试。 def romberg(f, a, b, eps): T
python实现K均值聚类算法
2021-05-14 21:13

小陈皓的博客 K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。如何计算？如果用数据表达式表示，假设簇划分为(C1,C2,...Ck
python有排序函数和为什么要使用排序算法？ python 排序算法有问必答算法
2022-03-11 11:18

回答 5 已采纳内置函数并不一定是最优算法，但一定是通用性，稳定性最好的。有时候面临性能瓶颈，或者个性化的排序需求，就需要自己写排序，Python的易用容易上手，就在于这些封装好的函数功能。
Python数据结构 python 排序算法数据结构
2023-03-01 11:12

回答 1 已采纳如果有帮到你，请采纳一下~ import time import tkinter as tk from tkinter import messagebox class SortingAlgori
python数据结构与算法设计 python 有问必答
2022-07-13 11:26

回答 2 已采纳队列：代码如下： class Queue: def __init__(self): self.s = [] def pop(self): va
关于聚类问题的算法python代码实现-K-均值聚类方法
2022-06-25 15:54

海星？海欣！的博客关于聚类问题的算法python代码实现-K-均值聚类方法
python算法问题 python 数据结构算法
2023-03-02 23:20

回答 1 已采纳该回答引用ChatGPT 要求只改变(1,1)的状态，我们可以暴力枚举所有可能的状态，然后计算需要的最少操作次数。由于每个开关只有两种状态，因此共有2^9=512种可能的状态，可以通过遍历这些状态来
使用K近邻算法进行分类 python 机器学习近邻算法
2022-11-02 13:52

回答 2 已采纳按要求完成的，输入100537得到结果 [2]可以绘图看一下分类正确与否，不需要绘图，可把25行后删除即可 # KNeighborsClassifier进行分类demo # -*- coding:
Kmeans聚类算法应用问题，八维数据的分类 kmeans python 有问必答聚类
2021-11-08 09:09

回答 1 已采纳分类： km = KMeans(n_clusters=4) km.fit_predict(data) 分完类之后得到了聚类中心，也就是km.cluster_centers_，你可以print出来：
Python数据分析笔记：聚类算法之K均值
2022-10-27 16:13

qq_38220914的博客我们之前接触的所有机器学习算法都有一个共同特点，那就是分类器会接受2个向量：一个是训练样本的特征向量X，一个是样本实际所属的类型向量Y。上图其实很快能发现，0,1,2,3,4用户紧密联系在一起，而5,6,7,8,9组成了...
求大捞帮看看python plt散点图动态绘测不显示散点的问题，二分k均值算法 python 均值算法
2022-05-18 16:15

回答 1 已采纳 OK了是我自己的问题，数据范围没有设置好
Python实现10种聚类算法
2022-05-26 08:16

Sim1480的博客最近看到一篇介绍聚类算法的文章（来自海豚数据科学实验室），总结了10种聚类算法及Python实现，分享给大家聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的...
fuzzyclustering:模糊c均值算法的Python实现
2021-04-19 17:17

模糊聚类该软件包实现了模糊c均值（FCM）分类算法，以及用于可视化分类结果的一组图形工具。 FCM执行软分类。不是将样本分配给单个类别，而是为每个样本赋予每个类别一个成员资格评分（类似于归属概率）。该算法...
没有解决我的问题, 去提问

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

码龄粉丝数原力等级 --

使用Python实现K均值聚类算法使用什么变成思想

3条回答

码龄粉丝数原力等级 --

悬赏问题