如题,求助~我看到“https://blog.csdn.net/FrankieHello/article/details/80613952”中说:
现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:
怎么分布还分真实分布和非真实分布呢? 还有就是,“按照真实分布p来衡量识别一个样本”是什么意思?分布就是分布呗,还有“按照分布来识别样本”的作用?很奇怪呀~
如题,求助~我看到“https://blog.csdn.net/FrankieHello/article/details/80613952”中说:
现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为:
怎么分布还分真实分布和非真实分布呢? 还有就是,“按照真实分布p来衡量识别一个样本”是什么意思?分布就是分布呗,还有“按照分布来识别样本”的作用?很奇怪呀~
p表示真实分布,q表示p的拟合分布(所谓非真实分布只是一种不规范的说法)
识别一个样本的所需要的编码长度,在分类算法中你可以理解为log以2为底,分类个数 bit。比如说对手写数字0~9编码,至少需要4bit