Hakutaku
2019-05-04 14:34
采纳率: 83.3%
浏览 2.6k

请问Python K-means算法 求 SSE的值

题目要求是:produce a plot of the SSE value of the k-means clustering of the dataset(y-axis),versus k value (x axis)。
k 的范围是2-26。

我在网上看到两种写法
一种是cdist
图片说明
另外一种是 km.inertia_
图片说明

请问这两种区别是什么,到底哪个才是求SSE的值,哪一种才符合题目要求?

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

1条回答 默认 最新

  • weijun05 2019-05-05 10:46
    已采纳

    理论上说,两种都是可以算作是SSE,因为都是在计算所有数据点到与其最近的cluster center的距离总和,越小说明选择的k越适合这个数据.两种方法的不同之处在于:
    cdist 计算的是euclidean distance,而km.inertia 计算的是squared distance, 也就是说一个算的是我们常用的距离的概念, 而另一个算了距离的平方. 两种操作都不影响最后对k 的选择, 后者无非是省略了一步开方运算罢了.

    点赞 评论

相关推荐 更多相似问题