训练好的模型发展差距很大

用v8训练的，best 和last 的pt是130MB，但是epoch20 和epoch 40的大小有七百多MB，这是为啥呀

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-08-20 22:11
关注
【以下回答由 GPT 生成】

问题原因可能是模型的训练过程中发生了梯度爆炸或者梯度消失的问题。这种情况下，模型的参数会发散或者趋于零，导致模型文件大小增加。

为了解决这个问题，可以尝试以下几个步骤：

检查模型的训练代码，确保在训练过程中使用了合适的梯度裁剪（gradient clipping）机制。梯度裁剪可以限制梯度的范围，防止梯度爆炸的发生。例如，在PyTorch中，可以使用torch.nn.utils.clip_grad_norm_()函数来裁剪梯度。

调整模型的超参数，如学习率、批量大小等。过大的学习率可能导致梯度爆炸，而过小的学习率可能导致梯度消失。可以尝试减小学习率或者调整其它相关的超参数。

使用合适的激活函数。一些激活函数（如ReLU）在训练过程中容易出现梯度消失的现象。可以尝试使用其它激活函数，如LeakyReLU或者ELU，来减小梯度消失的可能性。

进行模型初始化。合适的模型初始化方法可以帮助减小梯度消失或梯度爆炸的发生。可以尝试使用Xavier或He等常用的初始化方法。

如果以上解决方案都不适用或效果不明显，可能需要进一步分析具体模型和数据集的情况，以确定更适合的解决方案。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

paddleocr训练模型和预训练模型还有推理模型都有啥区别 python 机器学习
2022-07-17 00:38

回答 1 已采纳 ocr的模型通常已经在足够数据量的数据集上训练过，各类模型大致关系为：普通训练模型：大多数情况指没有经过太多训练的模型，适合在你自己有大量数据的情况下进行训练预训练模型：由官方已经训练过的模型，但可
训练集效果比验证集效果差自然语言处理语言模型
2022-06-15 15:37

回答 1 已采纳这种情况要么就是模型本身参数设置和结构的问题，要么就是数据集少了，一般不会出现训练集比测试集还差
不同算法的weight为什么会差别很大支持向量机随机森林
2022-12-28 23:47

回答 2 已采纳随机森林通过计算每个特征在多棵决策树中的重要性来计算要素权重。SVM通过计算决策边界上的支持向量的权重来计算要素权重。计算原理不同，所有有差距也是正常的，建议结合机理分析确定重要的元素。
人工智能大模型发展带来的风险挑战和对策
2024-07-30 20:30

和老莫一起学AI的博客经过近70年的发展，人工智能技术发展经历了三次起伏，2022年以来，以ChatGPT、Sora等为代表的预训练大模型持续取得突破，推动着人工智能技术从感知向认识，从分析判断式向生成式，从专用向通用进入快速发展的新阶段...
数据结果出现很大差别，什么原因？ java
2023-03-24 23:45

回答 2 已采纳这个问题就是浮点数为什么不精确的问题，以Java为例： Java浮点数使用IEEE 754标准来表示和操作，这个标准使用二进制来存储和计算浮点数，而不是十进制。二进制浮点数不能精确地表示所有的十进制小
为何每次训练出来的准确率有差异？ tensorflow 人工智能机器学习深度学习神经网络
2019-07-31 01:03

回答 1 已采纳一点点差异很正常，因为你的参数都是随机化的。
#机器学习，一个模型在不同数据集上训练，然后测试得出来的结果比如mae。它们之间可以比较吗？ python 机器学习
2021-07-20 09:45

回答 2 已采纳没有比较的意义，参考不一样
国内外AI大模型发展概况
2024-06-03 12:04

少喝冰美式的博客随即引爆社交网络，大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精进，开源模型打造庞大应用生态，端侧模型小而美。国内大模型也进入加速成长期，在过去一年中取得了实质性突破。百度文心一言、讯飞...
预测值与真实值差距很大，应该怎么修改
2018-03-03 12:31

回答 4 已采纳之前有个人有跟你一样得问题，他是用下叙的方法解决得，不知道对你是不是适用，至少可以排除一个错误类型 oad C:\Users\Song\Desktop\p.txt load C:\User
一般外呼场景都是8k采样率的录音，假设模型都一样，8k和16k不同采样率训练出的模型准确率会有差距吗？人工智能自然语言处理语音识别
2022-07-22 17:19

回答 2 已采纳理论上模型一样的情况下，16k采样率的数据天然比8k效果会更好，训练的模型效果也会更好。但是如果是将8k的录音上采到16k，在走同样的模型，那么就不一定会更好了。不过一般来说更大的采样率可以搭配更深的
流程里每个任务差别很大，有必要用工作流引擎嘛？ java
2023-02-07 15:19

回答 1 已采纳如果只是审批，退回，这种流程简单，但是涉及的部门复杂，审批人员经常可能会变动，甚至审批层次都会变动，那肯定是要用工作流而如果一张大表无数人在上面改，这表的数据本身在数据库里就不是个标准数据，业务只要动
非常好的AI大模型源代码100%好用.rar
2024-03-20 08:37

2. **预训练模型**：例如BERT、GPT、ResNet等，这些模型在大规模数据上预训练后，可以作为基础模型进行微调，以适应特定任务。 3. **优化算法**：如Adam、SGD等，用于调整模型参数，使模型在训练过程中逐步提升性能...
请问一下BP神经网络为什么每次训练的结果都不一样？而且差距还挺大吗？神经网络
2022-04-17 20:00

回答 1 已采纳因为每次拟合出来的模型都不一样，还有跟你设置的超参数有关
【大模型系列篇】人工智能与智能计算的发展
2024-08-22 14:15

木亦汐丫的博客智能世界与物理世界一样，都是具有巨大复杂度的研究对象，AI大模型仍然是通过数据驱动等研究宏观世界的方法，提高机器的智能水平，对智能宏观世界理解并不够，直接到神经系统微观世界寻找答案是困难的。智能计算时代...
AI大模型知识点大梳理
2023-06-12 21:37

码农飞飞的博客 AI大模型是指具有巨大参数量的深度学习模型，通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力，从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。AI大模型的定义具体...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月20日

悬赏问题

¥20 Wpf Datarid单元格闪烁效果的实现
¥15 图像分割、图像边缘提取
¥15 sqlserver执行存储过程报错
¥100 nuxt、uniapp、ruoyi-vue 相关发布问题
¥15 浮窗和全屏应用同时存在，全屏应用输入法无法弹出
¥100 matlab2009 32位一直初始化
¥15 Expected type 'str | PathLike[str]…… bytes' instead
¥15 三极管电路求解，已知电阻电压和三级关放大倍数
¥15 ADS时域连续相位观察方法
¥15 Opencv配置出错

训练好的模型发展差距很大

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新