Pytorch框架nn.RNN训练时反向传播报错

邀请@Mr.Winter` ：

基于Pytorch框架，在训练nn.RNN模型时，反向传播报错。代码简化为以下：

Python版本3.9，torch版本1.13.1


```python

import torch

rnn = torch.nn.RNN(input_size=1, hidden_size=1, num_layers=1)

train_set_x = torch.tensor([[[1]],[[2]],[[3]],[[4]],[[5]]], dtype=torch.float32)
train_set_y = torch.tensor([[[2]],[[4]],[[6]],[[8]],[[10]]], dtype=torch.float32)

h0 = torch.tensor([[0]], dtype=torch.float32)
h_cur = h0

loss = torch.nn.MSELoss()
opt = torch.optim.Adadelta(rnn.parameters(), lr = 0.01)


for i in range(5):
    opt.zero_grad()
    train_output, h_next = rnn(train_set_x[i], h_cur)
    rnn_loss = loss(train_output,train_set_y[i])
    rnn_loss.backward()
    opt.step()
    print(train_output)
    h_cur = h_next

报错内容




```python
RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

按照提示修改代码：

import torch

rnn = torch.nn.RNN(input_size=1, hidden_size=1, num_layers=1)

train_set_x = torch.tensor([[[1]],[[2]],[[3]],[[4]],[[5]]], dtype=torch.float32)
train_set_y = torch.tensor([[[2]],[[4]],[[6]],[[8]],[[10]]], dtype=torch.float32)

h0 = torch.tensor([[0]], dtype=torch.float32)
h_cur = h0

loss = torch.nn.MSELoss()
opt = torch.optim.Adadelta(rnn.parameters(), lr = 0.01)

with torch.autograd.set_detect_anomaly(True):
    for i in range(5):
        opt.zero_grad()
        train_output, h_next = rnn(train_set_x[i], h_cur)
        rnn_loss = loss(train_output,train_set_y[i])
        rnn_loss.backward(retain_graph=True)
        opt.step()
        print(train_output)
        h_cur = h_next

仍然报错：

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.FloatTensor [1, 1]], which is output 0 of AsStridedBackward0, is at version 3; expected version 2 instead. Hint: the backtrace further above shows the operation that failed to compute its gradient. The variable in question was changed in there or anywhere later. Good luck!

让人费解的是上面的提示是因为“置位”操作导致的，但是我全程没有用过“+=”这种操作。
最最让人费解的是，通过print可以看到前两个训练循环是有输出的，到第三个循环就开始报错了：

tensor([[0.1129]], grad_fn=<SqueezeBackward1>)
tensor([[-0.1872]], grad_fn=<SqueezeBackward1>)
C:\Users\Lenovo\Desktop\DL\LSTM_poem\lib\site-packages\torch\autograd\__init__.py:197: UserWarning: Error detected in AddmmBackward0. Traceback of forward call that caused the error:
  File "C:\Users\Lenovo\Desktop\DL\LSTM_poem\test.py", line 17, in <module>
    train_output, h_next = rnn(train_set_x[i], h_cur)
....后面省略

在C站上有很多提到过这个问题的解决方式，尝试解决都不灵。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
没有头脑的刷题机器 2023-03-22 16:34
关注
基于最新版ChatGPT4的回答，望采纳!!!有其他问题也可以询问我哦、”(最新版更智能，功能更加强大)

这个问题是由于在循环中，计算图被保留了，但在每次循环时，其实我们需要重新构建计算图。因此，需要将 retain_graph=True 改为 retain_graph=False 或直接删除 retain_graph 参数。另外，由于在每个循环中，我们都在使用相同的RNN对象，因此需要在每次循环时将梯度清零，以防止梯度累加。同时，由于 RNN 的特性，其输入数据的维度应该是 (sequence_length, batch_size, input_size)，因此我们需要将输入数据 train_set_x 和 train_set_y 的维度调整为 (1, 1, 1)。

以下是修改后的代码：

import torch rnn = torch.nn.RNN(input_size=1, hidden_size=1, num_layers=1) train_set_x = torch.tensor([[[1]],[[2]],[[3]],[[4]],[[5]]], dtype=torch.float32) train_set_y = torch.tensor([[[2]],[[4]],[[6]],[[8]],[[10]]], dtype=torch.float32) h0 = torch.tensor([[0]], dtype=torch.float32) h_cur = h0 loss = torch.nn.MSELoss() opt = torch.optim.Adadelta(rnn.parameters(), lr = 0.01) for i in range(5): opt.zero_grad() train_output, h_next = rnn(train_set_x[i].view(1, 1, 1), h_cur) rnn_loss = loss(train_output, train_set_y[i].view(1, 1, 1)) rnn_loss.backward() opt.step() print(train_output) h_cur = h_next.detach()

在这个修改后的代码中，我们在每次循环时，都将输入数据 train_set_x[i] 和 train_set_y[i] 通过 .view(1, 1, 1) 方法调整为 (1, 1, 1) 的维度。另外，我们在每次循环结束时使用 h_cur = h_next.detach()，以将 h_next 从计算图中分离出来，避免在后续的循环中引起计算图保留的问题。这样，在每次循环时，我们都会重新构建计算图，避免了之前出现的错误。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

Pytorch框架nn.RNN训练时反向传播报错 c++ python pytorch
2023-03-22 16:17

回答 5 已采纳基于最新版ChatGPT4的回答，望采纳!!!有其他问题也可以询问我哦、”(最新版更智能，功能更加强大) 这个问题是由于在循环中，计算图被保留了，但在每次循环时，其实我们需要重新构建计算图。因此，需要
想问问torch.nn.sigmoid()和torch.nn.funcitonal.sigmoid()的区别 pytorch 深度学习神经网络
2022-08-26 11:49

回答 3 已采纳 nn.Sigmoid()返回的是一个对象，torch.nn.funcitonal.sigmoid()是一个函数。nn.Sigmoid对象在其源代码中也是调用torch.nn.funcitonal.si
functional.py:1795: UserWarning: nn.functional.tanh is deprecated. python pytorch 有问必答
2022-02-16 19:57

回答 3 已采纳视频教程中使用的版本较低，一些方法或函数弃用，变更了用法。如nn.functional.sigmoid 变为torch.sigmoid ，nn.functional.tanh用 torch.tanh代
pytorch nn.RNN 参数解释
2020-12-19 10:16

失败人生自救指南的博客 here是pytorch官方文档，有对每一个参数的具体描述，不过看完之后你可能还会有些问题，主要是隐藏层和输入输出层的size是怎么确定的。以官方代码为例 import torch import torch.nn as nn rnn = nn.RNN(10, 20, 2) ...
pytorch训练时怎么提高显卡的利用率？ pytorch 深度学习自然语言处理
2022-03-08 10:24

回答 2 已采纳 work number设置到cpu最大核心数，batch size 搞大点，你的显存才用了2G，还有那么多呢，不过显卡利用率低很正常，又不是挖矿，显卡很多时候要等硬盘或者内存读取信息呢。你把这里换成c
关于pytorch中缺少next属性的报错 pytorch 深度学习神经网络
2022-11-04 09:00

回答 3 已采纳 next()函数实际上调用了传入函数的.__next()__成员函数。所以，如果传入的函数没有这个成员，则会报错参考代码理解 import torch # 生成一些测试数据 X = torch.nor
pytorch提高正确率，反向传播不会写 python pytorch 人工智能
2022-08-03 09:05

回答 3 已采纳 反向传播那部分的代码修改如下： loss.backward(retain_graph=True) optimizer.step() optimizer.zero_grad() loss.backwar
一文读懂官方给出torch.nn.RNN API的参数及手写RNN API复现
2023-09-09 10:29

做程序员的第一天的博客此外，`torch.nn.RNN`还返回一个包含最后一个时间步的隐藏状态的张量，通常称为`h_n`。
使用pytorch训练网络训练时遇到类似存储吃满的报错现象QAQ python pytorch 计算机视觉
2021-12-19 12:55

回答 2 已采纳看下你的参数设置是什么样子的，比如多大的img_size和batch_size会出现这个问题，显存总共多少G，你训练的时候花了多少叫没吃满。还有一些时候是用opencv加载数据的话也会出现和pytor
pytorch torch.jit.save c++ python pytorch
2022-12-24 18:45

回答 1 已采纳你看下这篇博客吧, 应该有用👉 ：PyTorch模型保存torch.save()与加载torch.load()你还可以看下pytorch参考手册中的 pytorch save_to_buffer()
pytorch训练时cuda内存不足 pytorch 目标检测神经网络
2023-03-02 15:28

回答 2 已采纳通常遇到OOM(out of memory)问题, 只有两种解决方案, 降低您网络训练时的batchsize, 或者选用更小的网络. 看到您这里用的resnet50, 8Gmemory够用了, 您可以
【Pytorch】nn.LSTM的理解
2021-08-25 16:38

XiaoE爱食橙的博客 Pytorch中的nn.LSTM Pytorch中LSTM总共有7个参数，前面3个是必须输入的 input_size – The number of expected features in the input x hidden_size – The number of features in the hidden state h num_...
Pytorch的cuda.is_available()，在CDM上返回TRUE，在Pycharm返回False pycharm python pytorch
2023-03-21 17:41

回答 2 已采纳检查一下 Pycharm 运行的虚拟环境，是不是 pytorch-gpu所安装的环境
深入理解PyTorch中的nn.Embedding
2022-06-27 13:07

Iareges的博客深入理解nn.Embedding模块
RNN 的基本原理+pytorch代码
2022-09-12 15:34

黄某某很聪明的博客 RNN原理及pytorch代码解析,RNN的优势为可以利用过去的数据来推测当前数据的理解方式，但是由于RNN的参数是共享的，每一时刻都会由前面所有的时刻共同决定，这是一个相加的过程，这样的话就有个问题，当距离过长了，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月22日

悬赏问题

¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分
¥15 Macbookpro 连接热点正常上网，连接不了Wi-Fi。
¥15 delphi webbrowser组件网页下拉菜单自动选择问题
¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义

Pytorch框架nn.RNN训练时反向传播报错

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新