ning51812 2016-10-21 01:06 采纳率: 0%
浏览 2455
已采纳

为什么k均值只能(或最好)使用连续变量?

在使用k均值算法做聚类的时候为什么只能使用连续变量?分类变量只能做哑变量,哑变量如何使用?另外在聚类的时候如果计算出某些点为一类了,那么如何在计算出这一类点的中心点呢?我的币不多还请各位高手哥哥姐姐多多指教... ....

  • 写回答

2条回答 默认 最新

  • Rondapapi 2016-10-22 03:23
    关注
        首先你得知道,k均值算法中,当已经计算出几个点为一类,算法会求这一类的中心点,即聚类中心。求中心的方法一般用的就是欧几里得距离,比如说数轴上有一个区间中三个点 1, 3, 8  为一类,那么这类的中心点就为 ( 1+3+8 )/3=4 。你可以拓展到二维,三维。。。反正就是平均值,即所谓的 k均值 算法。
        那么,为什么要求连续呢?那就要看这几个点的实际意义了。比如说如果这些点只能以整数的形式存在,整数不连续,在数轴上只能是一个一个跳跃出现的点。那么,当你求平均的时候,可能求出小数,而实际不允许用小数描述这些数据。
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 Error in check.length("fill") : 'gpar'成分'fill'的长度不能为零
  • ¥15 python:excel数据写入多个对应word文档
  • ¥60 全一数分解素因子和素数循环节位数
  • ¥15 ffmpeg如何安装到虚拟环境
  • ¥188 寻找能做王者评分提取的
  • ¥15 matlab用simulink求解一个二阶微分方程,要求截图
  • ¥30 乘子法解约束最优化问题的matlab代码文件,最好有matlab代码文件
  • ¥15 写论文,需要数据支撑
  • ¥15 identifier of an instance of 类 was altered from xx to xx错误
  • ¥100 反编译微信小游戏求指导