Hakutaku 2019-05-04 14:34 采纳率: 100%
浏览 3486
已采纳

请问Python K-means算法 求 SSE的值

题目要求是:produce a plot of the SSE value of the k-means clustering of the dataset(y-axis),versus k value (x axis)。
k 的范围是2-26。

我在网上看到两种写法
一种是cdist
图片说明
另外一种是 km.inertia_
图片说明

请问这两种区别是什么,到底哪个才是求SSE的值,哪一种才符合题目要求?

  • 写回答

1条回答 默认 最新

  • weijun05 2019-05-05 10:46
    关注

    理论上说,两种都是可以算作是SSE,因为都是在计算所有数据点到与其最近的cluster center的距离总和,越小说明选择的k越适合这个数据.两种方法的不同之处在于:
    cdist 计算的是euclidean distance,而km.inertia 计算的是squared distance, 也就是说一个算的是我们常用的距离的概念, 而另一个算了距离的平方. 两种操作都不影响最后对k 的选择, 后者无非是省略了一步开方运算罢了.

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

    报告相同问题?

    悬赏问题

    • ¥15 求一个智能家居控制的代码
    • ¥15 ad软件 pcb布线pcb规则约束编辑器where the object matpcb布线pcb规则约束编辑器where the object matchs怎么没有+15v只有no net
    • ¥15 虚拟机vmnet8 nat模式可以ping通主机,主机也能ping通虚拟机,但是vmnet8一直未识别怎么解决,其次诊断结果就是默认网关不可用
    • ¥20 求各位能用我能理解的话回答超级简单的一些问题
    • ¥15 yolov5双目识别输出坐标代码报错
    • ¥15 这个代码有什么语法错误
    • ¥15 给予STM32按键中断与串口通信
    • ¥15 使用QT实现can通信
    • ¥15 关于sp验证的一些东西,求告知如何解决,
    • ¥35 关于#javascript#的问题:但是我写的只能接码数字和字符,帮我写一个解码JS问题