Hakutaku 2019-05-04 14:34 采纳率: 100%
浏览 3510
已采纳

请问Python K-means算法 求 SSE的值

题目要求是:produce a plot of the SSE value of the k-means clustering of the dataset(y-axis),versus k value (x axis)。
k 的范围是2-26。

我在网上看到两种写法
一种是cdist
图片说明
另外一种是 km.inertia_
图片说明

请问这两种区别是什么,到底哪个才是求SSE的值,哪一种才符合题目要求?

  • 写回答

1条回答 默认 最新

  • weijun05 2019-05-05 10:46
    关注

    理论上说,两种都是可以算作是SSE,因为都是在计算所有数据点到与其最近的cluster center的距离总和,越小说明选择的k越适合这个数据.两种方法的不同之处在于:
    cdist 计算的是euclidean distance,而km.inertia 计算的是squared distance, 也就是说一个算的是我们常用的距离的概念, 而另一个算了距离的平方. 两种操作都不影响最后对k 的选择, 后者无非是省略了一步开方运算罢了.

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 找一个QT页面+目标识别(行人检测)的开源项目
  • ¥15 有没有整苹果智能分拣线上图像数据
  • ¥20 有没有人会这个东西的
  • ¥15 cfx考虑调整“enforce system memory limit”参数的设置
  • ¥30 航迹分离,航迹增强,误差分析
  • ¥15 Chrome Manifest扩展引用Ajax-hook库拦截请求失败
  • ¥15 用Ros中的Topic通讯方式控制小乌龟的速度,走矩形;编写订阅器代码
  • ¥15 LLM accuracy检测
  • ¥15 pycharm添加远程解释器报错
  • ¥15 如何让子窗口鼠标滚动独立,不要传递消息给主窗口