tuzhiyoyo 2018-11-28 14:57 采纳率: 100%
浏览 4696
已采纳

机器学习中分类器验证AUC值不理想,能否比较验证集实际频率和预测概率均值来说明模型准确性。

大家好,我目前在用一批土壤数据做二分类模型,尝试了随机森林、SVM、逻辑斯蒂回归、朴素贝叶斯等常用分类算法,但是结果不太理想。不理想指的是采用常规的ROC曲线法进行模型精度验证时,曲线基本就在0.5随机线附近,AUC也就0.53左右的样子。
之前看到过一篇关于贝叶斯概率预测模型的文章(Wu Bo, 2018),他在检验模型准确性时没有采取ROC曲线法或类似基于混淆矩阵的方法,而是把验证数据集当作一个整体,计算了两个分类各自的频率,然后将验证数据集参数的平均值带入训练好的贝叶斯模型,求出一个后验概率,通过比较后验概率与实际频率,来说明模型的好坏。
于是尝试用这种思路,去把我的验证数据集每个样本带入模型计算得到的那个数字(例如贝叶斯和逻辑斯蒂回归都可以给出后验概率)求平均,发现这个平均数确实和实际两个类别的频率很接近。我又通过改变数据的分类阈值(比如说原来是170cm以上算高个,现在调整成160就是高个儿),发现不同阈值下求得的这个平均数和相应的实际频率都很一致。
本人数学底子挺差的,不知道这种验证方法是否可行?如果可行的话,后面是什么原理?能否指点个参考文献?如果不行的话,又是为什么呢?

  • 写回答

1条回答 默认 最新

  • threenewbee 2018-11-28 15:03
    关注

    感觉你的描述就是计算交叉熵(Cross Entropy)

    https://blog.csdn.net/tsyccnh/article/details/79163834

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 帮我做下照片上的PLC题
  • ¥15 labview2022 使用modbus报缺少依赖?
  • ¥15 谷歌地图是不是不开通结算功能,api会使用不了哦
  • ¥15 unity腾讯云对象存储机型适配
  • ¥15 求全国交通咨询模拟代码,要求如下,可以完全在dev c++运行
  • ¥15 根据要求修改程序编码
  • ¥15 用 Python 做一个用 Excel 表导入的答题系统
  • ¥15 使用微信开发者工具实现一个“婚博会”小程序
  • ¥15 ros的rviz仿真机器人
  • ¥15 关于#linux#的问题(输入输出错误):出现这个界面接着我重新装系统,又让修电脑的师傅帮我扫描硬盘(没有问题)用着用着又卡死(相关搜索:固态硬盘)