sinat_22991367
麻子来了
采纳率0%
2018-12-05 15:37

机器学习为什么熵可以衡量数据集划分的优劣?

在机器学习实战第三章中,为什么用熵衡量数据集划分的优劣?能不能具体讲下原因?

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

2条回答

  • Moluth Moluth 3年前

    这里的熵是信息熵,信息熵是用来衡量不确定性的,信息熵越大对目标越不确定,反之越确定。
    第一次看到这个概念我也很懵逼,后来慢慢理解了,给你举个例子吧:
    (1)袋子中有10个红球,随机取一个,你猜球是什么颜色
    p红球=1,p白球=0
    H=-log(2,1)=0
    非常确定一定是红球,熵为0

    (2)袋子中有5个红球,5个白球,随机取一个,你猜球是什么颜色
    p红球=0.5,p白球=0.5
    H=-(0.5*log(2,0.5)+0.5*log(2,0.5))=1
    没有把握确定球的颜色,熵为1

    (3)袋子中有9个红球,1个白球,随机取一个,你猜什么颜色
    p红球=0.9,p白球=0.1
    H=-(0.9*log(2,0.9)+0.1*log(2,0.1))=0.1368027841+0.3321928095=0.46xxxx
    有比较大的把握确定球的颜色

    什么例子中可以看到,信息熵可以衡量不确定性,不确定性越大,熵越大。
    机器学习的目标是根据数据得到正确结果或者比较正确的结果,要根据数据来消除不确定性,所以对数据划分时,数据熵越小,不确定性越小,效果就越好。
    其实可以使用概率来代替的,熵是对概率的综合评分。

    点赞 1 评论 复制链接分享
  • caozhy 从今以后生命中的每一秒都属于我爱的人 3年前

    熵是表示数据随机程度的指标,熵越大,说明数据越随机,熵越小,说明数据越有序。

    点赞 1 评论 复制链接分享

相关推荐