方法如图所示:(https://img-ask.csdn.net/upload/201505/09/1431153790_310284.png)
第一个点随机选取,第二个点是距离第一个最远的点,第三个点还有之后该怎么选?方法中说说的什么最近距离最大啥的根本看不懂,我理解是第三个点采取标准是与前两个点的距离之和最大,但是这样好像不对。
方法如图所示:(https://img-ask.csdn.net/upload/201505/09/1431153790_310284.png)
第一个点随机选取,第二个点是距离第一个最远的点,第三个点还有之后该怎么选?方法中说说的什么最近距离最大啥的根本看不懂,我理解是第三个点采取标准是与前两个点的距离之和最大,但是这样好像不对。
学习数据挖掘和机器学习,推荐你去参考经典的教材,而不是看一些自身水准未达标的博客文章。
聚类的实质是什么?
你看看下面的图,是不是最后形成了一个一个的簇(红簇、绿簇、蓝簇),簇是什么?就是簇里面的点都紧紧围绕着一个核心。
这个核心就是簇的代表。
所以找出了一个一个的核心,就相当于找出了类的代表,这个就是簇心的寻找过程。
那么在初始阶段,就是k阶段,你得预先指定好了,你要聚出几个类,或者说你要指定出几个簇心?
第一个簇心A随机找,是因为一开始你不知道哪个是簇心;
第二个簇心B要找距离A最远的,是因为簇心之间要相距远一些,如果很近的话,很容易当作一类,影响聚类效果;
第三个簇心C也是同样的,它得离A、B远一些;
其它依次类推。
指定好簇心后,你就开始按means方式来迭代聚类,直至所有的簇心稳定不再移动。