机器学习中分类器验证AUC值不理想，能否比较验证集实际频率和预测概率均值来说明模型准确性。

大家好，我目前在用一批土壤数据做二分类模型，尝试了随机森林、SVM、逻辑斯蒂回归、朴素贝叶斯等常用分类算法，但是结果不太理想。不理想指的是采用常规的ROC曲线法进行模型精度验证时，曲线基本就在0.5随机线附近，AUC也就0.53左右的样子。
之前看到过一篇关于贝叶斯概率预测模型的文章（Wu Bo, 2018），他在检验模型准确性时没有采取ROC曲线法或类似基于混淆矩阵的方法，而是把验证数据集当作一个整体，计算了两个分类各自的频率，然后将验证数据集参数的平均值带入训练好的贝叶斯模型，求出一个后验概率，通过比较后验概率与实际频率，来说明模型的好坏。
于是尝试用这种思路，去把我的验证数据集每个样本带入模型计算得到的那个数字（例如贝叶斯和逻辑斯蒂回归都可以给出后验概率）求平均，发现这个平均数确实和实际两个类别的频率很接近。我又通过改变数据的分类阈值（比如说原来是170cm以上算高个，现在调整成160就是高个儿），发现不同阈值下求得的这个平均数和相应的实际频率都很一致。
本人数学底子挺差的，不知道这种验证方法是否可行？如果可行的话，后面是什么原理？能否指点个参考文献？如果不行的话，又是为什么呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2018-11-28 07:03
关注
感觉你的描述就是计算交叉熵(Cross Entropy)

https://blog.csdn.net/tsyccnh/article/details/79163834

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容