关于机器学习中的交叉验证,有一个问题向问问大家? 5C

将数据集随机分为训练集(80%),验证集(10%),测试集(10%)。进行一轮交叉验证操作后,得到了一组最优参数。但是由于数据集是随机划分的,同样的数据集,同样按照8:1:1随机划分数据,当我再一次进行交叉验证,得到的最优参数结果却与上次不同。那么利用交叉验证获取最优参数组合的意义何在?

3个回答

用模型拟合不一样的两组随机选取的数据, 导致模型的参数本身就不同吧, 比如最简单的线性回归模型, 拟合不同的数据集, 尽管这两个数据集整体分布一样,
但是由于可能这两个数据集跟整体数据分布还是有些差异, 导致交叉验证得到不同的权值.
当你手上的数据集越大, 跟整体的数据分布越接近的时候, 估计用交叉验证拟合得到的参数变化越小.

所以我的做法是,首先分出两部分,train+validate,test,前两个混合,后面的独立出来。

cunxinlitian
Gary.fu 回复caozhy: 我所说的效果这里指的是以AUC(Area under the Curve of ROC)评估二元分类模型(这里是20种不同参数组合)的好坏,并不是追求对已知数据的拟合。如果再次随机划分训练集,验证集(对20种模型进行验证,选择AUC最大的那种模型),测试集;那么这次选择的模型与上次的不同,那么到底应该如何去选择模型呢?
大约一年之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 回复cunxinlitian: 你理解错了,机器学习的目的是使得算法具有泛化能力(未知数据上预测良好),而不是追求已知数据上的“效果”。
大约一年之前 回复
cunxinlitian
Gary.fu 没太懂?
大约一年之前 回复

交叉验证不是还有参数调校的功能吗?比如有两种参数:a和b,假设a有4个备选值,b有5个备选值,那么共有4*5=20种组合,使用验证集的数据来对这20种组合进行评估(利用AUC),最后选出效果最好的一组组合,再对测试集数据进行测试。可是当我再次重复这个步骤时,由于训练集,验证集,测试集的数据虽然还是原来的数据,比例也相同,但是是随机分配的,所以再一次的参数调校却获得是另外一组参数组合,那么利用验证集来进行参数调校获得的最优参数又有什么意义呢?

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!

相似问题

2
机器学习实战第8章交叉验证岭回归对标准化后数据还原数据还原的
1
机器学习中分类器验证AUC值不理想,能否比较验证集实际频率和预测概率均值来说明模型准确性。
1
怎么对机器学习后的的acc和epoch进行绘图啊
1
学校机器学习的目录, 全部英文
2
机器学习模型及其算法的框架疑问
1
为什么我在使用机器学习中的softmax来进行学习时预测时预测时间太短而且精确度一直为零
1
C# 图形界面中是否有办法使用机器学习
1
有什么机器学习的办法可以求两个60个数据的向量的距离
0
机器学习 西瓜书 hold-out留出法 疑问
1
交叉验证获取最佳决策树深度报错
1
机器学习中的一个函数:fit() 的相关问题
0
交叉验证cross_val_score中y出现错误
1
吴恩达 机器学习课程Regularized linear regression gradient 为什么在求J和求grad时要把第一项theta去掉
2
主成分分析降维会影响到机器学习的精度么?
2
用python对图片进行CNN机器学习分类时,图片格式的不同会对学习的结果造成影响吗?
0
深度学习中训练集和验证集拟合很好,但是实际预测中远不如验证效果?
3
7.28(周日)中午之前要:如何使用Matlab或python或其他语言解决机器学习中KNN与GMM的问题?
2
进行循环确定机器学习参数时出现memory error
2
Python爬取电影磁力下载链接,被识别为机器人+验证登录 如何破?
3
关于shiro在跨域情况下的验证码存session取不到的问题请教下会shiro的大神们。