Pytorch框架nn.RNN训练时反向传播报错

邀请@Mr.Winter` ：

基于Pytorch框架，在训练nn.RNN模型时，反向传播报错。代码简化为以下：

Python版本3.9，torch版本1.13.1


```python

import torch

rnn = torch.nn.RNN(input_size=1, hidden_size=1, num_layers=1)

train_set_x = torch.tensor([[[1]],[[2]],[[3]],[[4]],[[5]]], dtype=torch.float32)
train_set_y = torch.tensor([[[2]],[[4]],[[6]],[[8]],[[10]]], dtype=torch.float32)

h0 = torch.tensor([[0]], dtype=torch.float32)
h_cur = h0

loss = torch.nn.MSELoss()
opt = torch.optim.Adadelta(rnn.parameters(), lr = 0.01)


for i in range(5):
    opt.zero_grad()
    train_output, h_next = rnn(train_set_x[i], h_cur)
    rnn_loss = loss(train_output,train_set_y[i])
    rnn_loss.backward()
    opt.step()
    print(train_output)
    h_cur = h_next

报错内容




```python
RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

按照提示修改代码：

import torch

rnn = torch.nn.RNN(input_size=1, hidden_size=1, num_layers=1)

train_set_x = torch.tensor([[[1]],[[2]],[[3]],[[4]],[[5]]], dtype=torch.float32)
train_set_y = torch.tensor([[[2]],[[4]],[[6]],[[8]],[[10]]], dtype=torch.float32)

h0 = torch.tensor([[0]], dtype=torch.float32)
h_cur = h0

loss = torch.nn.MSELoss()
opt = torch.optim.Adadelta(rnn.parameters(), lr = 0.01)

with torch.autograd.set_detect_anomaly(True):
    for i in range(5):
        opt.zero_grad()
        train_output, h_next = rnn(train_set_x[i], h_cur)
        rnn_loss = loss(train_output,train_set_y[i])
        rnn_loss.backward(retain_graph=True)
        opt.step()
        print(train_output)
        h_cur = h_next

仍然报错：

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.FloatTensor [1, 1]], which is output 0 of AsStridedBackward0, is at version 3; expected version 2 instead. Hint: the backtrace further above shows the operation that failed to compute its gradient. The variable in question was changed in there or anywhere later. Good luck!

让人费解的是上面的提示是因为“置位”操作导致的，但是我全程没有用过“+=”这种操作。
最最让人费解的是，通过print可以看到前两个训练循环是有输出的，到第三个循环就开始报错了：

tensor([[0.1129]], grad_fn=<SqueezeBackward1>)
tensor([[-0.1872]], grad_fn=<SqueezeBackward1>)
C:\Users\Lenovo\Desktop\DL\LSTM_poem\lib\site-packages\torch\autograd\__init__.py:197: UserWarning: Error detected in AddmmBackward0. Traceback of forward call that caused the error:
  File "C:\Users\Lenovo\Desktop\DL\LSTM_poem\test.py", line 17, in <module>
    train_output, h_next = rnn(train_set_x[i], h_cur)
....后面省略

在C站上有很多提到过这个问题的解决方式，尝试解决都不灵。

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
没有头脑的刷题机器 2023-03-22 08:34
关注
基于最新版ChatGPT4的回答，望采纳!!!有其他问题也可以询问我哦、”(最新版更智能，功能更加强大)

这个问题是由于在循环中，计算图被保留了，但在每次循环时，其实我们需要重新构建计算图。因此，需要将 retain_graph=True 改为 retain_graph=False 或直接删除 retain_graph 参数。另外，由于在每个循环中，我们都在使用相同的RNN对象，因此需要在每次循环时将梯度清零，以防止梯度累加。同时，由于 RNN 的特性，其输入数据的维度应该是 (sequence_length, batch_size, input_size)，因此我们需要将输入数据 train_set_x 和 train_set_y 的维度调整为 (1, 1, 1)。

以下是修改后的代码：

import torch rnn = torch.nn.RNN(input_size=1, hidden_size=1, num_layers=1) train_set_x = torch.tensor([[[1]],[[2]],[[3]],[[4]],[[5]]], dtype=torch.float32) train_set_y = torch.tensor([[[2]],[[4]],[[6]],[[8]],[[10]]], dtype=torch.float32) h0 = torch.tensor([[0]], dtype=torch.float32) h_cur = h0 loss = torch.nn.MSELoss() opt = torch.optim.Adadelta(rnn.parameters(), lr = 0.01) for i in range(5): opt.zero_grad() train_output, h_next = rnn(train_set_x[i].view(1, 1, 1), h_cur) rnn_loss = loss(train_output, train_set_y[i].view(1, 1, 1)) rnn_loss.backward() opt.step() print(train_output) h_cur = h_next.detach()

在这个修改后的代码中，我们在每次循环时，都将输入数据 train_set_x[i] 和 train_set_y[i] 通过 .view(1, 1, 1) 方法调整为 (1, 1, 1) 的维度。另外，我们在每次循环结束时使用 h_cur = h_next.detach()，以将 h_next 从计算图中分离出来，避免在后续的循环中引起计算图保留的问题。这样，在每次循环时，我们都会重新构建计算图，避免了之前出现的错误。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

编辑

预览

报告相同问题？

关注问题

想问问torch.nn.sigmoid()和torch.nn.funcitonal.sigmoid()的区别 pytorch 深度学习神经网络
2022-08-26 03:49

回答 3 已采纳 nn.Sigmoid()返回的是一个对象，torch.nn.funcitonal.sigmoid()是一个函数。nn.Sigmoid对象在其源代码中也是调用torch.nn.funcitonal.si
functional.py:1795: UserWarning: nn.functional.tanh is deprecated. python pytorch 有问必答
2022-02-16 11:57

回答 3 已采纳视频教程中使用的版本较低，一些方法或函数弃用，变更了用法。如nn.functional.sigmoid 变为torch.sigmoid ，nn.functional.tanh用 torch.tanh代
关于pytorch中缺少next属性的报错 pytorch 深度学习神经网络
2022-11-04 01:00

回答 3 已采纳 next()函数实际上调用了传入函数的.__next()__成员函数。所以，如果传入的函数没有这个成员，则会报错参考代码理解 import torch # 生成一些测试数据 X = torch.nor
pytorch nn.RNN 参数解释
2020-12-19 02:16

失败人生自救指南的博客 here是pytorch官方文档，有对每一个参数的具体描述，不过看完之后你可能还会有些问题，主要是隐藏层和输入输出层的size是怎么确定的。以官方代码为例 import torch import torch.nn as nn rnn = nn.RNN(10, 20, 2) ...
pytorch训练时怎么提高显卡的利用率？ pytorch 深度学习自然语言处理
2022-03-08 02:24

回答 2 已采纳 work number设置到cpu最大核心数，batch size 搞大点，你的显存才用了2G，还有那么多呢，不过显卡利用率低很正常，又不是挖矿，显卡很多时候要等硬盘或者内存读取信息呢。你把这里换成c
pytorch提高正确率，反向传播不会写 python pytorch 人工智能
2022-08-03 01:05

回答 3 已采纳 反向传播那部分的代码修改如下： loss.backward(retain_graph=True) optimizer.step() optimizer.zero_grad() loss.backwar
使用pytorch训练网络训练时遇到类似存储吃满的报错现象QAQ python pytorch 计算机视觉
2021-12-19 04:55

回答 2 已采纳看下你的参数设置是什么样子的，比如多大的img_size和batch_size会出现这个问题，显存总共多少G，你训练的时候花了多少叫没吃满。还有一些时候是用opencv加载数据的话也会出现和pytor
pytorch - RNN参数详解
2024-06-17 13:08

想胖的壮壮的博客在使用 PyTorch 训练循环神经网络（RNN）时，需要了解相关类和方法的每个参数及其含义。
pytorch torch.jit.save c++ python pytorch
2022-12-24 10:45

回答 1 已采纳你看下这篇博客吧, 应该有用👉 ：PyTorch模型保存torch.save()与加载torch.load()你还可以看下pytorch参考手册中的 pytorch save_to_buffer()
pytorch训练时cuda内存不足 pytorch 目标检测神经网络
2023-03-02 07:28

回答 2 已采纳通常遇到OOM(out of memory)问题, 只有两种解决方案, 降低您网络训练时的batchsize, 或者选用更小的网络. 看到您这里用的resnet50, 8Gmemory够用了, 您可以
Pytorch的cuda.is_available()，在CDM上返回TRUE，在Pycharm返回False pycharm python pytorch
2023-03-21 09:41

回答 2 已采纳检查一下 Pycharm 运行的虚拟环境，是不是 pytorch-gpu所安装的环境
一文读懂官方给出torch.nn.RNN API的参数及手写RNN API复现
2023-09-09 02:29

做程序员的第一天的博客此外，`torch.nn.RNN`还返回一个包含最后一个时间步的隐藏状态的张量，通常称为`h_n`。
pytorch实现RNN实验.rar
2020-12-01 10:13

PyTorch的自动梯度系统使得训练RNN变得非常简单，你可以定义损失函数并使用优化器进行反向传播。此外，这个文件还可能涉及到批处理处理，这是在1.3torchRNN-batch_size.ipynb中讨论的一个关键概念。批量处理可以加速...
Pytorch nn.Module
2024-03-15 02:32

霖大侠的博客 torch.nn是 PyTorch 中用于构建神经网络的模块。它提供了一系列的类和函数，用于定义神经网络的各种层、损失函数、优化器等。torch.nnModule: 所有神经网络模型的基类，用于定义自定义神经网络模型。Linear: 线性层...
Pytorch实现基于CharRNN的文本分类与生成示例
2020-09-17 20:08

在模型训练过程中，会不断调整这些层的权重，并通过反向传播算法优化模型参数，以最小化预测输出和真实标签之间的误差。最后，通过实例化这些模块并使用真实数据进行训练，我们就可以构建出一个基于字符的循环神经...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月22日

悬赏问题

¥15 关于#c##的问题：treenode反序列化后获取不到上一节点和下一节点，Fullpath和Handle报错
¥15 一部手机能否同时用不同的app进入不同的直播间？
¥15 没输出运行不了什么问题
¥20 输入import torch显示Intel MKL FATAL ERROR，系统驱动1%，: Cannot load mkl_intel_thread.dll.
¥15 点云密度大则包围盒小
¥15 nginx使用nfs进行服务器的数据共享
¥15 C#i编程中so-ir-192编码的字符集转码UTF8问题
¥15 51嵌入式入门按键小项目
¥30 海外项目，如何降低Google Map接口费用？
¥15 fluentmeshing

Pytorch框架nn.RNN训练时反向传播报错

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新