lstm进行分类，第一个epoch loss就为nan

利用lstm对眼动数据进行分类，但是loss从第一个epoch就一直是nan我不明白是为什么，数据里面没有空的数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_selection import RFE
from sklearn.metrics import roc_auc_score, accuracy_score, f1_score, precision_score
from sklearn.metrics import confusion_matrix, classification_report
import tensorflow as tf
from keras.layers import LSTM, Dense, Dropout
from keras.models import Sequential
import keras
import os
current_folder_path = os.getcwd()  

# 读取数据
data = pd.read_csv('./data.csv')
n = 5  # 这是你想要选择的后续进行分类的特征个数，或者RF-RFE选出来的特征数

# 分离特征和标签
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
print(0000)
# 特征归一化
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# 特征选择
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rfe = RFE(estimator=rf, n_features_to_select=n, step=1)
rfe.fit(X_scaled, y)
print(1111222333)
# 输出特征排名柱状图
feature_ranking = pd.Series(rfe.ranking_, index=X.columns)
ax = feature_ranking.plot(kind='bar')
ax.set_xticklabels(ax.get_xticklabels(), rotation=20)  # 旋转x轴刻度标签
# plt.xlabel('Features')
# plt.ylabel('Rank')
# plt.title('Feature Ranking')
# plt.show()

# 选取选定特征
X_selected = X_scaled[:, rfe.support_]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)
print(X_train.shape," ",y_train.shape)
# 参数选择
# 创建神经网络模型  
clf = Sequential()  
clf.add(LSTM(50, activation='relu', input_shape=(X_train.shape[1], 1), return_sequences=True))  # 输入层，28*28=784个特征，50个LSTM单元
clf.add(Dropout(0.2))
clf.add(LSTM(units=50, return_sequences=True))
clf.add(Dropout(0.2))
clf.add(LSTM(50))

clf.add(Dense(8))
clf.add(Dropout(0.2))

clf.add(Dense(4, activation='softmax'))  # 输出层，4个类别，使用softmax激活函数
# 编译模型，设置损失函数、优化器和评估指标
clf.compile(loss='sparse_categorical_crossentropy', optimizer=keras.optimizers.Adam(lr=0.1, decay=0.5, clipnorm=1), metrics=['accuracy'])
# 训练模型，设置训练轮数为10轮，批处理大小为32  
#clf.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(x_val, y_val))  
clf.fit(X_train, y_train, epochs=10, batch_size=32, verbose=1)
print(4444444444)
# 在测试集上进行预测，并计算准确率  

# 在训练集上进行预测
y_train_pred = clf.predict(X_train)
print(y_train_pred)
# 在测试集上进行预测
y_test_pred = clf.predict(X_test)

# 输出评价指标
train_accuracy = accuracy_score(y_train, y_train_pred)
train_f1_micro = f1_score(y_train, y_train_pred, average='micro')
train_f1_macro = f1_score(y_train, y_train_pred, average='macro')
train_precision = precision_score(y_train, y_train_pred, average='macro')
test_precision = precision_score(y_test, y_test_pred, average='macro')
test_accuracy = accuracy_score(y_test, y_test_pred)
test_f1_micro = f1_score(y_test, y_test_pred, average='micro')
test_f1_macro = f1_score(y_test, y_test_pred, average='macro')

# Print evaluation metrics
print("Train Accuracy:", train_accuracy)
print("Train Precision:", train_precision)
print("Train F1 Score (micro):", train_f1_micro)
print("Train F1 Score (macro):", train_f1_macro)
print("Test Accuracy:", test_accuracy)
print("Test Precision:", test_precision)
print("Test F1 Score (micro):", test_f1_micro)
print("Test F1 Score (macro):", test_f1_macro)
# 计算混淆矩阵
cm = confusion_matrix(y_train, y_train_pred)
print("Confusion Matrix:")
print(cm)

# 绘制混淆矩阵
plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues)
plt.colorbar()
classes = np.unique(y)
tick_marks = np.arange(len(classes))
plt.xticks(tick_marks, classes)
plt.yticks(tick_marks, classes)
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()
#测试集混淆矩阵
cm = confusion_matrix(y_train, y_train_pred)
print("Confusion Matrix:")
print(cm)

# 绘制混淆矩阵
plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues)
plt.colorbar()
classes = np.unique(y)
tick_marks = np.arange(len(classes))
plt.xticks(tick_marks, classes)
plt.yticks(tick_marks, classes)
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()

# 输出分类报告
print("Classification Report:")
print(classification_report(y_train, y_train_pred))
print("Classification Report:")
print(classification_report(y_test, y_test_pred))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-05-08 04:13
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

首先，出现 NaN 损失的问题通常是由于模型训练过程中的数值不稳定性导致的。在你的代码中，我注意到几个潜在的问题：

学习率设置过高 ：在使用 Adam 优化器时，学习率设置为 0.1 很可能过高，特别是结合了衰减参数。这可能导致参数更新过大，使得模型无法收敛。
数据预处理不足 ：在 LSTM 模型中，输入数据的规范化非常重要。你在 MinMaxScaler 中对数据进行了归一化，但 LSTM 模型需要的是 3D 的输入形式 (samples, timesteps, features)，你可能需要进一步调整数据的形状以适应 LSTM 模型的输入要求。
Dropout 使用不当 ：过多的 Dropout 层可能会导致信息丢失过多，影响模型的性能。
解决方案：

降低学习率 ：尝试将学习率设置为一个较小的值，比如 0.001 或更小，观察模型的训练情况。
调整数据形状 ：将输入数据的形状调整为 3D，可以通过 reshape 函数实现。例如，X_train = X_train.reshape(X_train.shape[0], X_train.shape[1], 1)。
减少 Dropout 层 ：尝试减少 Dropout 层的使用，或者逐渐增加 Dropout 的比例，以观察模型的训练效果。
我会给你提供一个修改后的代码框架作为参考：
python
Copy code
# 调整学习率 optimizer = keras.optimizers.Adam(lr=0.001, decay=0.0, clipnorm=1) # 调整数据形状 X_train = X_train.reshape(X_train.shape[0], X_train.shape[1], 1) X_test = X_test.reshape(X_test.shape[0], X_test.shape[1], 1) # 减少 Dropout 层 clf = Sequential() clf.add(LSTM(50, activation='relu', input_shape=(X_train.shape[1], 1), return_sequences=True)) clf.add(Dropout(0.2)) clf.add(LSTM(units=50, return_sequences=True)) clf.add(Dropout(0.2)) clf.add(LSTM(50)) clf.add(Dense(8)) clf.add(Dropout(0.2)) clf.add(Dense(4, activation='softmax')) # 编译模型 clf.compile(loss='sparse_categorical_crossentropy', optimizer=optimizer, metrics=['accuracy']) # 训练模型 clf.fit(X_train, y_train, epochs=10, batch_size=32, verbose=1)
这些调整应该能够帮助你解决 NaN 损失的问题。如果问题仍然存在，请尝试进一步调整超参数或模型架构。

如果该回答解决了您的问题，请采纳！如果没有，请私信联系或评论您的疑惑
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
keras下用RNN中的lstm来进行图片分类，输入维数的错误 python tensorflow 人工智能深度学习神经网络
2020-04-26 15:07

回答 1 已采纳 lstm做图片分类？一般来说CNN才用来做图片分类。 model.add(LSTM(units=nb_lstm_outputs, return_sequences=True,
total_loss正常但是val loss出现nan是怎么回事啊？深度学习神经网络
2021-03-15 16:35

回答 1 已采纳梯度下降的过程中因为中间网络层是随机生成的初始权重，所以梯度下降的过程中可能陷入了局部最优，可以通过调试batchsize或者lr等超参数解决。
用keras搭建RNN（如LSTM、GRU），训练时出现loss为nan（not a number）
2020-10-23 12:09

追求技术的小李的博客 @用keras搭建RNN（如LSTM、GRU），训练时出现loss为nan（not a number）问题描述：用keras搭建RNN（如LSTM...训练从第一个epoch的开始就出现了train_loss和valid_loss为nan的问题。网络结构是两层lstm单元数分别为32
在pytorch中，使用cnn+lstm用于分类 python 有问必答深度学习神经网络
2021-05-29 00:45

回答 2 已采纳可以参考这篇文章，希望对你有帮助：pytorch实现用CNN和LSTM对文本进行分类_Alphapeople的博客-CSDN博客
LSTM的loss不断下降，但train和test的准确率始终在0.5左右 tensorflow 机器学习深度学习神经网络自然语言处理
2019-07-19 10:18

回答 3 已采纳 LSTM是用来做文本生成，做垃圾邮件识别似乎没有什么道理。你的loss用的可能是MSE，平方误差对于大的误差的减小比较敏感，但是对于最终的分类没有什么帮助，就导致acc没有什么变化loss一直下降
LSTM模型如何进行新数据的预测？ python 人工智能机器学习深度学习神经网络
2019-07-04 15:21

回答 2 已采纳创建一个预测数组，每预测一个Y就往数组里放一个，同时更新你用来预测的自变量X数组，剔除最早的X，把预测值加入到X里，依次往后预测
Pytorch训练模型损失Loss为Nan或者无穷大（INF）原因
2022-02-12 12:20

ytusdc的博客相信很多人都遇到过训练一个deep model的过程中，loss突然变成了NaN。在这里对这个问题做一个总结： 1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习...
用pytorch写了一个经典的鸢尾花分类 pytorch 分类机器学习
2022-10-25 10:18

回答 2 已采纳尝试把batch size调小，或者学习率调小点试试。
找的lstm模型里没有学习率这个参数 python
2021-07-21 10:15

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 请看👉 ：深度学习-利用LSTM预测多输出如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
关于#lstm#的问题：lstm训练，padding 补0后,模型不收敛 lstm pytorch 时序数据库
2022-07-20 18:43

回答 2 已采纳直接划分60s滑动窗口不行嘛
使用 Conv1D-LSTM 进行时间序列预测：预测多个未来时间步【优化】
2023-05-16 16:06

早起CaiCai的博客 Conv1D-LSTM时间序列预测
请问各位前辈：LSTM如何使用多个时间序列（比如30组0秒—2000秒的数据）的数据进行训练？ tensorflow 深度学习
2019-06-11 10:10

回答 2 已采纳首先对数据进行预处理，把它们统一成相同时间和时间间隔的多维数据。不同数据时间间隔不同的话，可以采用插值（稀疏的数据）或者多点求平均（对于致密的数据）。
工程实践_深度学习训练模型时Loss出现NAN的原因及解决办法
2021-09-01 19:38

TravelingLight77的博客原因1:梯度爆炸产生原因：学习率过大。解决方法： 3. 数据归一化（减均值，除方差，或者加入normalization：BN，L2 norm等）。 4. 更换参数初始化方法（对于CNN，一般用xavier或者msra的初始化方法）。 5. 减小...
lstm 回归实战、分类demo
2023-10-19 16:26

闪闪发亮的小星星的博客 first=True #causes input/output tensors to be of shape (batch_dim, seq_dim, feature_dim) # DataLoader返回数据时候一般第一维都是batch，pytorch的LSTM层默认输入和输出都是batch在第二维 self.lstm = nn.LSTM...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月7日

悬赏问题

¥20 基于MSP430f5529的MPU6050驱动，求出欧拉角
¥20 Java-Oj-桌布的计算
¥15 powerbuilder中的datawindow数据整合到新的DataWindow
¥20 有人知道这种图怎么画吗？
¥15 pyqt6如何引用qrc文件加载里面的的资源
¥15 安卓JNI项目使用lua上的问题
¥20 RL+GNN解决人员排班问题时梯度消失
¥60 要数控稳压电源测试数据
¥15 能帮我写下这个编程吗
¥15 ikuai客户端l2tp协议链接报终止15信号和无法将p.p.p6转换为我的l2tp线路

lstm进行分类，第一个epoch loss就为nan

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新