weixin_42059102 2020-08-30 21:44 采纳率: 0%
浏览 77
已结题

求助交叉熵的定义中,“按照真实分布p来衡量识别一个样本的所需要的编码长度”是什么意思?

如题,求助~我看到“https://blog.csdn.net/FrankieHello/article/details/80613952”中说:

现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:

图片说明

怎么分布还分真实分布和非真实分布呢? 还有就是,“按照真实分布p来衡量识别一个样本”是什么意思?分布就是分布呗,还有“按照分布来识别样本”的作用?很奇怪呀~

  • 写回答

2条回答 默认 最新

  • threenewbee 2020-08-30 22:02
    关注

    p表示真实分布,q表示p的拟合分布(所谓非真实分布只是一种不规范的说法)
    识别一个样本的所需要的编码长度,在分类算法中你可以理解为log以2为底,分类个数 bit。比如说对手写数字0~9编码,至少需要4bit

    评论

报告相同问题?