kmeans聚类出现AssertionError该如何解决

代码如下：
def get_tfidf():
try:
with open('./clean.txt', "r", encoding='ANSI') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("no file like this")
transformer=TfidfVectorizer()
tfidf = transformer.fit_transform(lines)
# 转为数组形式
tfidf_arr = tfidf.toarray()
return tfidf_arr

def get_cluster(tfidf_arr,k):
kmeans = KMeansClusterer(num_means=k, distance=cosine_distance) # 分成k类，使用余弦相似分析
kmeans.cluster(tfidf_arr)
# 获取分类
kinds = pd.Series([kmeans.classify(i) for i in tfidf_arr])
fw = open('./cluster.txt', 'a+', encoding='ANSI')
for i, v in kinds.items():
fw.write(str(i) + '\t' + str(v) + '\n')
fw.close()

def cluster_text():
index_cluser = []
try:
with open('./cluster.txt', "r", encoding='ANSI') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("no file like this")
for line in lines:
line = line.strip('\n')
line = line.split('\t')
index_cluser.append(line)
# index_cluser[i][j]表示第i行第j列
try:
with open('./clean.txt', "r", encoding='ANSI') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("no file like this")
for index,line in enumerate(lines):
for i in range(28):
if str(index) == index_cluser[i][0]:
fw = open('Cluster' + index_cluser[i][1] + '.txt', 'a+', encoding='ANSI')
fw.write(line)
fw.close()

def get_title(cluster):
for i in range(cluster):
try:
with open('Cluster' + str(i) + '.txt', "r", encoding='ANSI') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("no file like this")
all_words = []
for line in lines:
line = line.strip('\n')
line = line.split('\t')
for word in line:
all_words.append(word)
c = Counter()
for x in all_words:
if len(x) > 1 and x != '\r\n':
c[x] += 1

    print('主题' + str(i+1) + '\n词频统计结果：')
    # 输出词频最高的那个词，也可以输出多个高频词
    for (k, v) in c.most_common(1):  
        print(k,':',v,'\n')

if name == 'main':
# 定义聚类的个数
cluster = 10
# 获取tfidf矩阵
tfidf_arr = get_tfidf()

print(tfidf_arr)
print(tfidf_arr.shape)

# K-means聚类
get_cluster(tfidf_arr,cluster)
# 获取分类文件
cluster_text()
# 统计出主题词
get_title(cluster)

运行结果
tfidf矩阵可以输出
但是

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

R语言；kmeans聚类 kmeans r语言聚类
2023-03-03 10:05

回答 8 已采纳以下答案由GPT-3.5大模型与博主波罗歌共同编写：以下是实现k-means聚类的步骤以及代码： Step 1: 读入数据到 R 语言利用 readxl 包读取 Excel 文件里面的数据 libr
R语言，用系统聚类法对数据进行聚类分析，并与Kmeans聚类结果进行比较 r语言有问必答
2021-10-05 19:11

回答 2 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
如何将提取到的特征矩阵进行Kmeans的聚类操作 kmeans python 有问必答聚类
2022-04-07 11:20

回答 1 已采纳提供一个思路，多个矩阵你把他的维度reshape到一个一维的向量，这个一维度向量过一个函数得到某一个值，比如求和，比如求方差。这个函数需要你自己根据特征去设计。你得到每个矩阵的值，把所有值resha
利用kmeans三维聚类进行冲突分析
2020-05-08 15:12

搬砖来的八块腹肌的博客原始数据如图完整代码如下： #coding:utf-8 import random from sklearn import datasets ...from sklearn.cluster import KMeans import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mpl...
kmeans聚类；R语言 r语言聚类
2023-03-06 15:27

回答 10 已采纳 K-means聚类R语言代码： # 读取数据 data <- read.csv("C:/Users/lenovo/Desktop/data.csv", header=TRUE, strings
python kmeans聚类后如何获取到分类的数据？ kmeans python 有问必答聚类
2022-01-16 22:16

回答 2 已采纳 # 整理聚类结果 listName = dfData['地区'].tolist() # 将 dfData 的首列 '地区' 转换为 listName dictCluster
Kmeans聚类算法应用问题，八维数据的分类 kmeans python 有问必答聚类
2021-11-08 09:09

回答 1 已采纳分类： km = KMeans(n_clusters=4) km.fit_predict(data) 分完类之后得到了聚类中心，也就是km.cluster_centers_，你可以print出来：
一些量化(quantization)技巧
2021-10-04 06:24

wujianming_110117的博客 1.2 1.3 6.1 0.9 0.7 6.9 -1.0 -0.9 1.0 设定类别数k=3，通过kmeans聚类。得到： A类中心： 1.0 , 映射下标： 1 B类中心： 6.5 , 映射下标： 2 C类中心： -0.95 , 映射下标： 3 储存矩阵可以变换为(距离哪个中心近...
sklearn Kmeans聚类三维列表 kmeans python sklearn
2023-04-13 09:13

回答 1 已采纳将三维列表转换为二维数组。具体来说，可以将三维列表中的每个二维数组展开成一行，并将所有行组成一个大的二维数组。然后将这个二维数组作为输入数据，调用sklearn库中的KMeans函数进行聚类: fro
kmeans++聚类聚成这样合理吗 kmeans 机器学习聚类
2021-11-13 16:07

回答 1 已采纳唉，终究是解决了，求均值的时候X[y_pred==i].mean()没加axis=0顺便把新实现的代码贴一下吧 import numpy as np import matplotlib.pyplot
kmeans聚类实现python python 机器学习机器学习算法工程师-陶瑞
2021-03-07 23:56

回答 3 已采纳 matplotlib画出来呗。。。三维以内的都能画
day03-Embedding实战
2024-07-19 14:56

Cx330_zhahui的博客嵌入对于处理自然语言和代码非常有用，因为其他机器学习模型和算法（如聚类或搜索）可以轻松地使用和比较它们。
k-means聚类，写python代码出现报错，请问要如何解决 kmeans python 机器学习
2022-05-02 19:09

回答 2 已采纳你这不是个警告而已吗
[Spark版本更新]--Spark-2.4.0 发布说明
2018-11-09 09:33

往事随风ing的博客 ] - 将KMeans distanceMeasure param添加到PySpark [ SPARK-23352 ] - 在Pandas UDF中明确指定支持的类型 [ SPARK-23362 ] - 将Kafka 微量滴定源迁移至v2 [ SPARK-23380 ] - 使用...
Yolov3 和 Yolov3-tiny目标检测算法理论与实现（TensorFlow2）
2021-09-24 19:48

__不想写代码__的博客优点：检测速度快，背景误检率低，泛化性强缺点：召回率低，定位精度较差，对于靠近或遮挡的目标，小目标检测能力弱，容易出现漏检。 1.网络结构网络结构中包含了很多基础块，我们先实现这些基本的块，然后像搭...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月7日

悬赏问题

¥15 onlyoffice编辑完后立即下载，下载的不是最新编辑的文档
¥15 求caverdock使用教程
¥15 Coze智能助手搭建过程中的问题请教
¥15 12864只亮屏不显示汉字
¥20 三极管1000倍放大电路
¥15 vscode报错如何解决
¥15 前端vue CryptoJS Aes CBC加密后端java解密
¥15 python随机森林对两个excel表格读取，shap报错
¥15 基于STM32心率血氧监测（OLED显示）相关代码运行成功后烧录成功OLED显示屏不显示的原因是什么
¥100 X轴为分离变量（因子变量），如何控制X轴每个分类变量的长度。

kmeans聚类出现AssertionError该如何解决

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新