python聚类问题

问题遇到的现象和发生背景

部分数据集
d=[[1994.0, 9.6], [1957.0, 9.5], [1997.0, 9.5], [1994.0, 9.4], [1993.0, 9.4], [2012.0, 9.4], [1993.0, 9.4], [1997.0, 9.4], [2013.0, 9.4], [1994.0, 9.4], [2003.0, 9.3], [2016.0, 9.3], [2009.0, 9.3], [2009.0, 9.3], [2008.0, 9.3], [2008.0, 9.3], [1957.0, 9.3], [2008.0, 9.3], [2001.0, 9.2], [2009.0, 9.2], [1931.0, 9.2], [1961.0, 9.2], [2010.0, 9.2], [2004.0, 9.2], [1998.0, 9.2]]

import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 计算欧拉距离
def calcDis(dataSet, centroids, k):
    clalist=[]
    for data in dataSet:
        diff = np.tile(data, (k, 1)) - centroids  #相减   (np.tile(a,(2,1))就是把a先沿x轴复制1倍，即没有复制，仍然是 [0,1,2]。 再把结果沿y方向复制2倍得到array([[0,1,2],[0,1,2]]))
        squaredDiff = diff ** 2     #平方
        squaredDist = np.sum(squaredDiff, axis=1)   #和  (axis=1表示行)
        distance = squaredDist ** 0.5  #开根号
        clalist.append(distance) 
    clalist = np.array(clalist)  #返回一个每个点到质点的距离len(dateSet)*k的数组
    return clalist

# 计算质心
def classify(dataSet, centroids, k):
    # 计算样本到质心的距离
    clalist = calcDis(dataSet, centroids, k)
    # 分组并计算新的质心
    minDistIndices = np.argmin(clalist, axis=1)    #axis=1 表示求出每行的最小值的下标
    newCentroids = pd.DataFrame(dataSet).groupby(minDistIndices).mean() #DataFramte(dataSet)对DataSet分组，groupby(min)按照min进行统计分类，mean()对分类结果求均值
    newCentroids = newCentroids.values
 
    # 计算变化量
    changed = newCentroids - centroids
 
    return changed, newCentroids

# 使用k-means分类
def kmeans(dataSet, k):
    # 随机取质心
    centroids = random.sample(dataSet, k)
    
    # 更新质心 直到变化量全为0
    changed, newCentroids = classify(dataSet, centroids, k)
    while np.any(changed != 0):
        changed, newCentroids = classify(dataSet, newCentroids, k)
 
    centroids = sorted(newCentroids.tolist())   #tolist()将矩阵转换成列表 sorted()排序
 
    # 根据质心计算每个集群
    cluster = []
    clalist = calcDis(dataSet, centroids, k) #调用欧拉距离
    minDistIndices = np.argmin(clalist, axis=1)  
    for i in range(k):
        cluster.append([])
    for i, j in enumerate(minDistIndices):   #enymerate()可同时遍历索引和遍历元素
        cluster[j].append(dataSet[i])
        
    return centroids, cluster
 
# 创建数据集
def createDataSet():
   
    return d
    
if __name__=='__main__': 
    dataset = createDataSet()
    
    centroids, cluster = kmeans(dataset, 3)
    print('质心为：%s' % centroids)
    print('集群为：%s' % cluster)
    for i in range(len(dataset)):
        label_pred = estimator.labels_  # 获取聚类标签
        # 绘制k-means结果
        x0 = X[label_pred == 0]
        x1 = X[label_pred == 1]
        x2 = X[label_pred == 2]
        plt.scatter(x0[:, 0], x0[:, 1], c="deeppink", marker='o', label='label0')
        plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label1')
        plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='+', label='label2')
      
        for j in range(len(centroids)):
            plt.scatter(centroids[j][0],centroids[j][1],marker='x',color='red',s=70,label='质心')
        
    plt.show()

运行结果及详细报错内容

想知道错在哪里，怎么修改

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ShowMeAI 2022-12-08 20:02
关注
你的数据中有非数值型的字符串型数据，你检查一下新使用的数据

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python编程的RFM细分聚类案例
2023-08-21 21:32

本文将深入探讨一个基于Python编程的RFM细分聚类案例。通过代码实现，我们将学习如何加载和预处理电商历史订单数据，计算RFM指标，使用KMeans算法进行聚类分析，以及如何将用户分为不同的价值层级。最终，我们将通过...
python 聚类效果图.rar
2023-04-10 17:32

在Python编程语言中，聚类是一种无监督学习方法，用于将数据集中的对象根据它们的相似性或距离分组到不同的类别中。这种技术在数据分析、图像处理、市场分割等领域广泛应用。本篇将深入探讨Python中实现聚类的常用库...
Python实现简单层次聚类算法以及可视化
2020-09-19 12:55

标题中的"Python实现简单层次聚类算法以及可视化"是指使用Python编程语言来实施层次聚类（Hierarchical Clustering）算法，并通过图形化展示聚类结果的过程。层次聚类是一种无监督学习方法，常用于数据挖掘领域，...
Python聚类分析：DBSCAN算法优化.pdf
2025-04-20 15:44

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
Python聚类案例源代码.zip
2021-05-24 19:36

在Python编程语言中，聚类是一种无监督学习方法，用于将数据集中的对象根据它们的相似性分成不同的组，即“簇”。这个压缩包“Python聚类案例源代码.zip”包含了一些实现聚类算法的实际代码示例。让我们深入探讨一下...
python-d_rearndf_python聚类_python-d_聚类_
2021-10-03 14:53

在Python编程语言中，聚类是一种无监督学习方法，用于将数据自动分为不同的组或簇，无需预先知道每个数据点的类别。这个过程基于数据之间的相似性或距离。"rearndf"可能是一个拼写错误，正确的可能是"random forest...
TrajectoryClustering-master，phthen_python_轨迹聚类_everywherevsy_聚类_
2021-09-11 12:59

首先，"phthen_python_轨迹聚类"表明该项目使用Python编程语言实现。Python因其简洁易读的语法和丰富的库支持，成为数据处理和科学计算的首选语言。在这个项目中，可能用到了像NumPy和Pandas这样的库进行数据预处理...
Python聚类算法可视化研究.zip
2026-01-11 11:40

Python作为一种广泛使用的高级编程语言，在数据科学和机器学习的各个领域发挥着日益重要的作用，其丰富的库资源如NumPy、Pandas、Matplotlib等，为聚类算法的研究和应用提供了便利。本次研究主要集中在使用Python...
python实现聚类算法原理
2020-09-20 19:05

Python作为一种流行的编程语言，因其简洁易读和丰富的库支持，在实现聚类算法方面显示出极大的优势。本文将详细介绍在Python中实现聚类算法的原理，并通过示例展示如何实现K均值聚类算法。聚类算法的特点主要在于...
python实现的聚类算法.zip
2024-09-06 16:15

Python作为一种高级编程语言，因其简洁的语法和强大的库支持，在数据分析和机器学习领域得到了广泛的应用。Python中实现了多种聚类算法，其中最著名的库之一是Scikit-learn。Scikit-learn是一个开源的机器学习库，它...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月8日

python聚类问题

问题遇到的现象和发生背景

运行结果及详细报错内容

1条回答 默认 最新

问题事件

1条回答默认最新