python kmeans聚类后如何获取到分类的数据？

本人在用python做文本聚类分析，由于文本数据过大了，所以可视化看不清层次。请问我想要以数据的形式看到每一个小类应该怎么办呀，我现在只会获取每类的个数和中心点，有没有什么函数或者包呢？

tfidf_vectorizer = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b",ngram_range=(1,1),
                                    max_features=200000,use_idf=True,
                                    )
tfidf_matrix = tfidf_vectorizer.fit_transform(files) #files为原始文本
#使用 K-means 算法进行聚类
mykms = KMeans(n_clusters=4).fit(tfidf_matrix)
#接下去怎么写呢
'''
想得到这样的结果:
第1类：[(xx,dd),(ss,ff),(gg,kk)]
第2类：[(xx,dd),(ss,ff),(gg,kk)]
'''

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

youcans 领域专家: 人工智能技术领域 2022-01-17 09:23

关注


    # 整理聚类结果
    listName = dfData['地区'].tolist()  # 将 dfData 的首列 '地区' 转换为 listName
    dictCluster = dict(zip(listName,kmCluster.labels_))  # 将 listName 与聚类结果关联，组成字典
    listCluster = [[] for k in range(nCluster)]
    for v in range(0, len(dictCluster)):
        k = list(dictCluster.values())[v]  # 第v个城市的分类是 k
        listCluster[k].append(list(dictCluster.keys())[v])  # 将第v个城市添加到 第k类
    print("\n聚类分析结果(分为{}类):".format(nCluster))  # 返回样本集的分类结果
    for k in range(nCluster):
        print("第 {} 类：{}".format(k, listCluster[k]))  # 显示第 k 类的结果

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

Python大数据分析——Kmeans聚类分析
2024-08-11 16:00

啥都鼓捣的小yao的博客对于有监督的数据挖掘算法而言，数据集中需要包含标签变量（即因变量y的值）。但在有些场景下，并没有...Kmeans聚类算法利用距离远近的思想将目标数据聚为指定的k个簇，进而使样本呈现簇内差异小，簇间差异大的特征。
实验报告——Kmeans聚类方法.docx
2022-01-22 22:37

实验报告——Kmeans聚类方法 K-means 聚类方法是最为经典的基于划分的聚类方法之一，其基本思想是以空间中 k 个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好...
Python源码-电商-广告投放效果分析-约250行（KMeans聚类、数据分析）.zip
2025-05-25 20:08

本项目“Python源码-电商-广告投放效果分析-约250行（KMeans聚类、数据分析）”是一个集数据分析、机器学习和web自动化于一体的综合性项目。通过对电商广告效果的深入分析，该项目旨在帮助电商企业在广告投放上做出...
Kmeans 聚类：实现简单的数据分类
2024-01-07 02:06

光子AI的博客 K-means 聚类是一种常用的无监督学习算法，主要用于对数据进行分类和分群。它的核心思想是将数据集划分为 K 个群集，使得每个群集内的数据点与群集中心(中心点)之间的距离最小化。K-means 聚类算法广泛应用于数据...
人工智能-项目实践-图像聚类-使用SIFT算法提取图像特征，再使用KMeans聚类算法进行图像分类
2022-03-23 17:06

基于无监督学习，无需训练数据, 使用SIFT算法提取图像特征，再使用KMeans聚类算法进行图像分类。对源代码进行了优化，实现了对应图片自动分类到各自文件夹功能，并且优化了分类准确率。设计思路： 1）首先编写...
[Python数据分析]最通俗入门Kmeans聚类分析，可视化展示附代码。
2024-09-29 22:22

William数据分析的博客 k-means分析是一种常用的聚类算法，它会将数据集中的数据点分成k个不同的簇。每个簇都有一个中心点，这个中心点就是簇中所有数据点的平均值。算法的目标是使得每个数据点都属于离它最近的中心点对应的簇，从而使得簇...
Python之kmeans聚类分析
2021-01-27 15:10

Hey_XXP的博客 [Kmeans聚类选择最优K值python实现](https://blog.csdn.net/xyisv/article/details/82430107) [Kmeans算法学习笔记](https://www.cnblogs.com/wuchuanying/p/6218486.html) 动手前可以先看下这三部分，对于一些数据...
请给出python的Kmeans聚类代码
2023-02-18 22:16

贫僧法号止尘的博客 KMeans聚类代码的python实现如下：from sklearn.cluster import KMeans# 定义要聚类的数据集 X = [[1,2], [3,4], [5,6], [7,8], [9, 10]]# 定义KMeans聚类模型 kmeans = KMeans(n_clusters=2, random_state=0).fit(X...
【机器学习】全面解析Kmeans聚类算法（Python）
2021-12-27 10:00

风度78的博客一、聚类简介Clustering (聚类)是常见的unsupervised learning (无监督学习)方法，简单地说就是把相似的数据样本分到一组（簇），聚类的过程，我们并不清楚某一类...
全面解析 Kmeans 聚类算法（Python）
2021-12-31 17:00

AI科技大本营的博客作者 | 泳鱼来源 | 算法进阶一、聚类简介Clustering (聚类)是常见的unsupervised learning (无监督学习)方法，简单地说就是把相似的数据样本分到一组（簇）...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月16日

python kmeans聚类后如何获取到分类的数据？

2条回答 默认 最新

问题事件

2条回答默认最新