鸢尾花数据集聚类分析将其补充完成
数据可视化分析,k-means聚类
1#从数据集中读入数据
filename = 'data/iris.data'
数据无头,将文件中列名作为数据列名读入数据
2#绘制散点图矩阵,观察特征维度的区分度
3#生成k-means模型
4#输出聚类结果,使用‘petal length'和’petal width’绘制散点图,即X的2、3列
5#比较数据类别标签与聚类结果 ARI(Adjusted Rand Index)
6#将类名转换为整数值
7#肘部”观察法,分析合理的簇值
clusters = [2,3,4,5,6,7,8]
sc_scores = []
8#计算各个簇模型的轮廓系数
for i in clusters:
kmeans = KMeans( n_clusters = i).fit(X)
sc = metrics.silhouette_score( X, kmeans.labels_, metric='euclidean' )
sc_scores.append( sc )
9#绘制曲线图反应轮廓系数与簇数的关系