pytorch clip_grad_norm_剪裁梯度能解决dropout=0.5带来的loss损失波动收敛过慢的问题吗

用pytorch 在做LSTM，为了有泛化能力，dropout设定为0.5.但是这样训练损失下降会出现波动，过程中突然损失巨大。请问用剪裁梯度的问题能解决这个问题吗。或者说dropout导致的不稳定有没有解决办法。优化器是adamw，学习率1e-4 weight_decay=1e-3 。
_回归问题mse损失函数。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2020-09-01 11:10
关注
https://blog.csdn.net/u013685264/article/details/106516417/

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pytorch1.7 RuntimeError: Expected grad_output->is_contiguous(grad_output->suggest_memory_format()) pytorch
2021-09-06 16:25

回答 1 已采纳这个应该是你哪里有经过切片操作或者交换维度导致的，类似torch.view()之后没有操作就会报这个错误。报错的意思就是你前面的操作之后导致tensor矩阵无法连续了，你需要在切片完成之后后面加上X.
NameError: name 'avg_loss' is not defined问题 pytorch 图像处理
2022-09-29 00:50

回答 2 已采纳源代码中应该是有avg_loss的定义的，你可以看看是不是漏了一些代码
请教一下torch.autograd.grad(y,x,create_graph=True)[0]这里的[0]是什么意思？ python pytorch 有问必答
2023-02-11 22:08

回答 5 已采纳的确，都说torch.autograd.grad返回的是第一参数对第二个参数的导数，一般是网络中的梯度，为什么都只取[0]，我也要去看下笔记查下。这一维度的具体意义
pytorch中model.eval()和torch.no_grad()的区别
2022-06-07 17:12

非晚非晚的博客在PyTorch中进行validation时，会使用model.eval()切换到测试或者称为验证模式下。model.eval()仅作用于dropout层和batchnorm层，让其与训练状态不同，相当于 dropout的参数为0 ，batchnorm也不再更新和计算 mean和...
关于GradNorm（深度学习里面多任务学习的权重设计梯度归一化）代码debug错误 python 有问必答深度学习
2021-04-02 20:08

回答 4 已采纳可能跟叶子节点（最初定义的变量）有关，计算梯度的时候，只有叶子节点才会保留梯度，所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。建议检查最初定义的变量是否有改变。
【提问-pytorch运行报错】CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)` pytorch
2021-08-20 11:18

回答 1 已采纳 label是类别，比如说（“100，“110”,“111“），你的100是第0类，110是第1类，111是第2类，你这么写变成了100是第100类，110是第110类，111是第111类了，原本你只有
pytorch的evalution_steps什么意思？warm_steps需要这么大吗？ python 有问必答
2021-05-15 16:29

回答 2 已采纳 evaluation_steps是每这么多次更新一次参数，warmup_steps可以认为是耐心系数这个需要根据实际的程序进行调整
基于Pytorch框架的TPLinker_plus中文命名实体识别python源码+使用说明+模型+数据集.zip
2024-01-09 19:57

2.主要针对各个计算机相关专业，包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间，不仅可作为入门进阶，也可直接作为...
Pytorch的cuda.is_available()，在CDM上返回TRUE，在Pycharm返回False pycharm python pytorch
2023-03-21 17:41

回答 2 已采纳检查一下 Pycharm 运行的虚拟环境，是不是 pytorch-gpu所安装的环境
安装pytorch出现问题求解决 python pytorch 深度学习
2023-02-12 15:35

回答 2 已采纳更新一下conda再重试。conda update -n base condaconda update --all
Pytorch调用bertEncoderbaTypeError: forward() missing 1 required positional argument: 'attention_mask' bert pytorch 深度学习
2022-07-07 15:35

回答 2 已采纳已解决，根本原因是数据格式的问题，在使用bert_encoder之前，需要将数据格式转换为BertData()格式
Pytorch的model.train() & model.eval() & torch.no_grad() & 为什么测试的时候不调用loss.backward()计算梯度还要关闭梯度
2020-08-01 09:46

hxxjxw的博客使用PyTorch进行训练和测试时一定注意要把实例化的model指定train/eval model.train() 启用 BatchNormalization 和 Dropout model.eval() 不启用 BatchNormalization 和 Dropout 训练完train_datasets之后...
pytorch源码中“if torch._C._get_tracing_state():”怎么理解 python 人工智能神经网络
2021-02-10 15:57

回答 3 已采纳 if torch._C._get_tracing_state():就是用来判断是否使用JIT来跟踪模型。像pytorch构建一个计算图就会用到一个中央的context去管理变量，而JIT跟踪模型也类似
Pytorch：model.train、model.eval、with torch.no_grad
2021-07-27 18:15

あずにゃん的博客 人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新） 1.model.train() 在train模式下，dropout网络层会按照设定的参数p设置保留激活单元的概率（保留概率=p); batchnorm层会...
batchnorm pytorch_Pytorch中的BatchNorm
2021-01-14 05:35

weixin_39630498的博客前言：本文主要介绍在pytorch中的Batch Normalization的使用以及在其中容易出现的各种小问题，本来此文应该归属于[1]中的，但是考虑到此文的篇幅可能会比较大，因此独立成篇，希望能够帮助到各位读者。如有谬误，请...
没有解决我的问题, 去提问

悬赏问题

¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置

pytorch clip_grad_norm_剪裁梯度能解决dropout=0.5带来的loss损失波动收敛过慢的问题吗

1条回答 默认 最新

悬赏问题

1条回答默认最新