为什么GRU神经网络model.eval()时结果都是一样的

写了一个GRU代码，用来估计上证指数的收盘价，模型训练都没有什么问题，一旦变为model.eval()，所有的输出值都变成一样的了，请大家帮忙看一看究竟是怎么一回事

import pandas as pd
import numpy as np
import torch
from torch import nn, optim
from torch.utils.data import TensorDataset, DataLoader
import matplotlib.pyplot as plt
data_all = pd.read_csv('shangzheng_close.CSV',parse_dates=['date'])
data_all.set_index('date', inplace=True)
data = data_all['close']

# 定义create_sequences函数来创建序列
def create_sequences(data, seq_length):
    xs, ys = [], []
    for i in range(len(data)-seq_length-1):
        x = data[i:(i+seq_length)]
        y = data[i+seq_length]
        xs.append(x)
        ys.append(y)
    return np.array(xs), np.array(ys)

# 设置序列长度为10
seq_length = 10
# 调用create_sequences函数创建序列
X, Y = create_sequences(data, seq_length)

# 转换为PyTorch张量
x_tensor = torch.tensor(X, dtype=torch.float32).unsqueeze(-1)# 添加一个维度以匹配输出形状
y_tensor = torch.tensor(Y, dtype=torch.float32).unsqueeze(-1)


# 划分训练集和测试集
train_size = int(len(x_tensor) * 0.8)
test_size = len(x_tensor) - train_size
train_x, test_x = x_tensor[0:train_size, :], x_tensor[train_size:len(x_tensor), :]
train_y, test_y = y_tensor[0:train_size], y_tensor[train_size:len(y_tensor)]

# 创建数据加载器
batch_size = 1
train_loader = DataLoader(TensorDataset(train_x, train_y), batch_size=batch_size, shuffle=True)
test_loader = DataLoader(TensorDataset(test_x, test_y), batch_size=batch_size, shuffle=False)


class GRUModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super(GRUModel, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.gru = nn.GRU(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        out, _ = self.gru(x, h0)
        out = self.fc(out[:,-1,:])
        return out

input_size = 1  # 一个特征（收盘价）
hidden_size = 150  # 隐藏层大小
num_layers = 1  # GRU层数
output_size = 1  # 输出大小（预测下一个收盘价）
model = GRUModel(input_size, hidden_size, num_layers, output_size)

criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.1)

num_epochs = 10
train_losses = []
test_losses = []

for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    outputs = []
    for i, (inputs, labels) in enumerate(train_loader):
        optimizer.zero_grad()
        outputs = model(inputs)
        #print(f'60 time-step estimate [{outputs}], real: {labels}')
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
    # 计算每个epoch的平均训练损失
    train_loss = running_loss / len(train_loader)
    train_losses.append(train_loss)
    # 在每个epoch结束后评估模型
    model.eval()
    with torch.no_grad():
        total_test_loss = 0.0
        for inputs, labels in test_loader:
            outputs = model(inputs)
            print(f'60 time-step estimate [{outputs}], real: {inputs}')
            loss = criterion(outputs, labels)
            total_test_loss += loss.item()
        avg_test_loss = total_test_loss / len(test_loader)
        test_losses.append(avg_test_loss)
    if (epoch + 1) % 5 == 0:
        print(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {train_loss}')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-17 20:12
关注
引自免费微信小程序：皆我百晓生

在你提供的代码中，观察到model.eval()模式下的输出值相同的问题，这通常与模型在推理阶段如何处理内部状态有关。在PyTorch中，model.eval()将模型设置为评估模式，其中一些层（如Dropout和BatchNorm）会改变行为以适应评估过程。然而，在GRU或LSTM等循环神经网络中，更关键的因素是隐藏状态的初始化和管理。

在你当前的代码中，模型在评估模式下每次调用forward方法时，都是从零开始初始化隐藏状态（通过h0 = torch.zeros(...)）。这意味着无论输入是什么，只要模型参数固定，相同的初始隐藏状态将导致相同的输出，特别是在短序列的情况下，模型可能没有足够的时间来发展不同的状态响应。

解决这个问题的一个策略是在评估模式下正确地管理和传递隐藏状态。具体来说，你应该在每个批次之间保存并重用隐藏状态，而不是每次都重新初始化它。这样，即使在评估模式下，模型也能根据序列的不同表现出差异化的输出。

为了实现这一点，可以修改GRUModel类中的forward方法，使其接受并返回隐藏状态，如下所示：

class GRUModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(GRUModel, self).__init__() self.hidden_size = hidden_size self.num_layers = num_layers self.gru = nn.GRU(input_size, hidden_size, num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x, h0=None): if h0 is None: h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device) out, h_n = self.gru(x, h0) out = self.fc(out[:, -1, :]) return out, h_n

然后，在评估模式下，你需要像在训练模式中那样正确地管理隐藏状态：

# 在每个epoch结束后评估模型 model.eval() with torch.no_grad(): hidden_state = None for inputs, labels in test_loader: outputs, hidden_state = model(inputs, hidden_state) loss = criterion(outputs, labels) total_test_loss += loss.item()

请注意，上述代码中的hidden_state需要在每个epoch开始时重新初始化，以防止跨不同序列的依赖。此外，对于连续的预测任务，你可能还需要考虑如何在序列之间正确地重置隐藏状态，以避免长期依赖的影响。

通过这些修改，你应该能看到模型在评估模式下产生不同的输出，因为它们将反映输入序列的实际变化。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

GRU预测数据时为什么进行数据平铺 gru matlab
2023-03-03 15:30

回答 2 已采纳基于Monster 组和GPT的调写：使用GRU进行时间序列数据预测时，需要将数据进行平铺和格式转换，这是因为：平铺数据：GRU是一种循环神经网络，它在每个时间步上接收一个输入向量并输出一个隐藏状态
哪位知道怎样将RNN模型替换为GRU或者LSTM python 神经网络自然语言处理
2022-12-09 10:02

回答 1 已采纳望采纳，要把 RNN 模型替换成 GRU 或 LSTM，那么需要把原来使用的 RNN 层换成 GRU 层或 LSTM 层。这个过程有以下几个注意点：替换层时，需要确保输入和输出的形状相同。例如，如果
自定义神经网络保存为h5文件 keras python tensorflow
2023-04-16 13:40

回答 2 已采纳努力の小熊结合了最新版本ChatGPT4.0的回答：将自定义神经网络模型保存为h5文件在这种情况下可能不是最佳选择，因为h5文件存储对于具有自定义层和训练逻辑的模型可能不适用。不过，你可以使用 Ten
Pytorch：循环神经网络-GRU
2022-02-05 00:06

宅家的小魏的博客使用GRU实现了文本情感分析，使用词云进行了结果的可视化
神经网络测视集损失下降，而测视集分类精度却不见上升 gru pytorch 神经网络
2022-07-24 12:26

回答 3 已采纳这就是过拟合了
GRU代码中每层单元数如何设置 gru matlab
2023-03-03 15:23

回答 1 已采纳小魔女参考了bing和GPT部分内容调写:在GRU参数设置中，每层单元数的设置可以通过在GRU层之前添加Dense层来实现，具体代码如下： model = Sequential() model.add
encoder-decoder内，encoder层使用gru前的rnn或cnn是什么用？ python 人工智能机器学习
2021-05-24 22:51

回答 1 已采纳这个一般是根据任务特点而定的，不同的任务要根据这个任务的特点来选择网络结构。从你的问题描述，我猜测可能的情况是（以NLP任务为例）：1. 使用CNN对字向量进行卷积得到词向量，再将词向量输入到GRU中
GRU实现时间序列预测(PyTorch版)
2023-01-08 12:09

海洋之心的博客本篇文章我们采用了经典的循环神经网络GRU来对我们的时序数据建模处理，作为该专栏的第一篇文章，本篇将详细介绍项目的每个实现部分以及细节处理，帮助新手小白快速建立起如何处理时序数据的框架。
NotImplementedError: Cannot convert a symbolic Tensor (truediv:0) to a numpy array. python 有问必答深度学习神经网络
2022-04-04 17:52

回答 2 已采纳不要用tf.cast，用np的函数解决Cannot convert a symbolic Tensor to a numpy array._yulanf的博客-CSDN
pso如何优化GRU gru matlab
2023-03-05 14:49

回答 1 已采纳我觉得是隐藏层数、隐藏单元数、迭代次数、学习率等超参作为pso的参数，当pso通过调整这些参数训练到模型最优时即到达全局最优点时保存的这些参数就是最后的超参。是到达最优状态下的这些超参数
关于gru输入输出提取问题 gru python 深度学习
2023-04-21 15:50

回答 2 已采纳关于第一个问题，将输入的tensor由 [128,1,500] 转换为 [128,500,1] 并使用 nn.GRU(1, 128, 1, batch_first=True) 是正确的。因为在 bat
图神经网络实战（17）——深度图生成模型
2024-07-18 10:27

盼小辉丶的博客图生成是生成新图的技术...由于传统图生成方法缺乏表达能力，因此提出了更加灵活的基于图神经网络的技术。本节中，我们介绍了三类深度图生成模型：基于变分自编码器的模型、基于自回归模型和基于生成对抗网络的模型。
ctc 验证码识别 ValueError: No gradients provided for any variable tensorflow 深度学习神经网络自然语言处理
2020-08-11 13:13

回答 1 已采纳 https://blog.csdn.net/qq_35276242/article/details/97172432
大语言模型应用指南：神经网络的发展历史
2024-08-22 00:43

光剑书架上的书的博客大语言模型应用指南：神经网络的发展历史作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 人工智能的起源与发展 1.1.1 图灵测试与人工智能的诞生
人工智能演进之路：神经网络两落三起
2024-07-05 11:32

光剑书架上的书的博客本文我将以"人工智能演进之路：神经网络两落三起"为标题,撰写一篇详细的技术博客文章。这篇文章将深入探讨神经网络在人工智能发展历程中的起起落落,以及其对AI领域的深远影响。我会严格遵循您提供的约束条件和内容...
【NLP】循环神经网络实现情感分类
2021-08-04 17:46

chaser&upper的博客循环神经网络实现文本情感分类1. Pytorch中LSTM和GRU模块使用1.1 LSTM介绍1.2 LSTM使用示例1.3 GRU的使用示例1.4 双向LSTM1.5 LSTM和GRU的使用注意点2. 使用LSTM完成文本情感分类2.1 修改模型2.2 完成训练和测试代码...
基于循环神经网络的语言模型：RNNLM、GRULM
2023-05-31 23:23

今晚打佬虎的博客 RNNLM首次提出是在《Recurrent neural network based language model》这篇非常重要的神经网络语言模型论文种,发表于2010年。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月17日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

为什么GRU神经网络model.eval()时结果都是一样的

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新