用pytorch 在做LSTM,为了有泛化能力,dropout设定为0.5.但是这样训练损失下降会出现波动,过程中突然损失巨大。请问用剪裁梯度的问题能解决这个问题吗。或者说dropout导致的不稳定有没有解决办法。优化器是adamw,学习率1e-4 weight_decay=1e-3 。
_回归问题mse损失函数。
pytorch clip_grad_norm_剪裁梯度能解决dropout=0.5带来的loss损失波动收敛过慢的问题吗
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
悬赏问题
- ¥15 c程序不知道为什么得不到结果
- ¥40 复杂的限制性的商函数处理
- ¥15 程序不包含适用于入口点的静态Main方法
- ¥15 素材场景中光线烘焙后灯光失效
- ¥15 请教一下各位,为什么我这个没有实现模拟点击
- ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
- ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
- ¥20 有关区间dp的问题求解
- ¥15 多电路系统共用电源的串扰问题
- ¥15 slam rangenet++配置