对于机器学习数据集的归一化问题

我是先将训练集进行归一化，再将训练集的归一化方法适用到测试集上，这样建立SVM模型效果很好。
但是，当我想用该模型进行预测的时候，发现对一个新的数据集进行归一化，出现了数值大于1的情况（原因是训练集中已经明确了在该维度上的最大值，比如2，但是新的数据集在该维度出现了大于2的情况）这样归一化结果很影响预测结果，想问问大家遇到这种问题应该如何解决

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-06-20 10:57
关注
训练集和测试集必须同时规一化
对于实际预测数据，经过相同比率缩放超过范围，要么视作无效数据，丢弃，要么视作饱和数据，也就是无论多大，都当作1处理。
具体用什么方法，要看你的实际的情况。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何调用训练好的机器学习模型处理新数据集？人工智能数据挖掘机器学习
2022-02-07 01:05

回答 1 已采纳直接加载模型然后对新数据集进行预测啊，结果就是0或者1，然后把结果按照之前训练的数据集格式写入一个新的csv，这就是相当于打上标签了，但是这个标签不一定是全部对的，除非你能保证你的模型推理结果一定是正
机器学习提取数据集问题 python 机器学习
2023-02-14 23:33

回答 3 已采纳数据清洗，用正则匹配清洗掉就行了。或者读数据时用a.startswith('>Negative')判断下。
使用pandas进行数据归一化一些问题 python 机器学习
2022-04-14 10:56

回答 1 已采纳可尝试修改 data=pd.read_csv('dating.txt', encoding = 'gbk')
六、机器学习基础知识：数据归一化
2023-05-08 17:00

七层楼的疯子的博客分别从归一化的原因、最大最小归一化、Z-score标准化以及不同方法的应用四个部分对机器学习中常见的数据归一化方法进行介绍，介绍过程中对数据归一化时具体的公式进行了说明。
简单的机器学习更改，指定数据集预测人工智能机器学习深度学习
2019-11-07 07:01

回答 1 已采纳首先，不建议这么做，如果把train和test都用来训练，没测试集来看效果。如果真要这么做，可以在训练前先把两个文件合并再投入训练
深度学习KolektorSDD数据集和DAGM 2007数据集的使用问题 python 机器学习深度学习
2021-05-26 15:27

回答 2 已采纳都默认为单通道的图像即可如果你做分类一类是有缺陷的一类是无缺陷的；如果你做目标检测检测正样本与负样本的区别；模型训练过程中建议统一图像格式比如都是.jpg或者png 同时用可以但
机器学习，训练时数据集分段了 python 机器学习神经网络
2021-04-28 11:04

回答 1 已采纳你为什么不一次性把数据读进去，随机选取样本进行训练，设置每个batch128或者多少个数据输入，进行训练，这样得到的曲线就是一个有上下波动的曲线，而不是个折线
机器学习_数据归一化
2024-01-18 00:11

you_are_my_sunshine*的博客 机器学习_数据归一化
如何使用python对excel做归一化处理并保存？ python 数据挖掘有问必答机器学习
2022-03-27 15:20

回答 2 已采纳按列试试 axis=0
机器学习中的估计集是什么人工智能机器学习
2023-02-08 21:05

回答 3 已采纳估计集是机器学习中用来估计模型参数的样本集，其中每个样本都有一个与之相关联的标签。估计集与其他样本集的关系是，估计集用来估计模型参数，而其他样本集用来测试模型的性能好坏。
#机器学习，比较不同模型在同一个数据集上的表现性能。 python 机器学习
2021-07-20 10:51

回答 1 已采纳简单一点, 可以比较二者的Loss和Acc曲线, 复杂一点可以用单因素方差分析做对比
机器学习数据特征归一化和标准化
2022-08-20 15:20

RuiClear的博客数据特征处理方法
机器学习是做什么的？人工智能数据挖掘有问必答机器学习
2022-11-11 15:51

回答 4 已采纳 机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。很多东西可以cv出来，但是业务不一样，怎么整合你的业务，就是技术问题了。
基于机器学习的糖尿病检测系统内含数据集和论文.zip
2024-03-09 12:21

基于机器学习的糖尿病检测系统是一种利用人工智能算法分析医疗数据，以辅助诊断糖尿病及其相关并发症的技术。这类系统通常依赖于大量的医疗数据，包括患者的个人信息、临床检测结果、生活方式等，通过机器学习算法对...
【Python机器学习系列】一文彻底搞懂机器学习中的归一化与反归一化问题
2023-12-05 14:18

数据杂坛的博客一文彻底搞懂机器学习中的归一化与反归一化问题
没有解决我的问题, 去提问

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记

对于机器学习数据集的归一化问题

1条回答 默认 最新

悬赏问题

1条回答默认最新