tensorflow框架下的Transformer

我使用Transflow进行多元时间序列预测：使用过去三步的历史数据去预测下一步的demand。一直到编译模型没有问题，但输入存在问题，是我的输入构造错了吗？还是模型哪里有问题？

数据

划分X和Y

定义超参数

num_heads = 4
num_encoder_layers = 2
num_decoder_layers = 2
d_model = 12
dff = 12
input_sequence_length = 3  # 输入时间步数
output_sequence_length = 1  # 输出时间步数
batch_size = 32
num_epochs = 50

模型

def transformer_encoder(inputs, d_model, num_heads, dff, num_layers, dropout_rate=0.1):
    attention = layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model)
    outputs = inputs
    for _ in range(num_layers):
        # Multi-Head Self-Attention
        attention_out = attention(outputs, outputs)
        attention_out = layers.Dropout(dropout_rate)(attention_out)
        # Residual Connection
        outputs = layers.Add()([outputs, attention_out])
        # Layer Normalization
        outputs = layers.LayerNormalization(epsilon=1e-6)(outputs)
        # Feed Forward Network
        ffnn = keras.Sequential([
            layers.Dense(dff, activation='relu'),
            layers.Dense(d_model)
        ])
        ffnn_out = ffnn(outputs)
        ffnn_out = layers.Dropout(dropout_rate)(ffnn_out)
        # Residual Connection
        outputs = layers.Add()([outputs, ffnn_out])
        # Layer Normalization
        outputs = layers.LayerNormalization(epsilon=1e-6)(outputs)
    return outputs

def build_model(input_shape, output_sequence_length, num_heads, num_encoder_layers, num_decoder_layers, d_model, dff, dropout_rate=0.1):
    inputs = keras.Input(shape=input_shape)
    x = inputs
    for _ in range(num_encoder_layers):
        x = transformer_encoder(x, d_model, num_heads, dff, num_encoder_layers, dropout_rate)
    decoder_inputs = keras.Input(shape=(output_sequence_length, input_shape[-1]))
    x = decoder_inputs
    for _ in range(num_decoder_layers):
        x = transformer_encoder(x, d_model, num_heads, dff, num_decoder_layers, dropout_rate)
    outputs = layers.Dense(output_sequence_length)(x)
    return keras.Model(inputs=[inputs, decoder_inputs], outputs=outputs)

编译和训练


```python
input_shape = (3, 12)  # 请替换num_features为您的特征数
model = build_model(input_shape, output_sequence_length, num_heads, num_encoder_layers, num_decoder_layers, d_model, dff)

# 编译模型
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

# 训练模型
# 请提供您的训练数据和标签
# x_train 和 y_train 的形状应该为 (样本数, 输入时间步数, 特征数) 和 (样本数, 输出时间步数, 特征数)
model.fit([trainX, trainX], trainY, batch_size=batch_size, epochs=num_epochs, validation_data=(valX, valY))

错误：

```python
ValueError                                Traceback (most recent call last)
<ipython-input-110-67eda37bdadd> in <module>
      2 # 请提供您的训练数据和标签
      3 # x_train 和 y_train 的形状应该为 (样本数, 输入时间步数, 特征数) 和 (样本数, 输出时间步数, 特征数)
----> 4 model.fit([trainX, trainX], trainY, batch_size=batch_size, epochs=num_epochs, validation_data=(valX, valY))

E:\anaconda\lib\site-packages\keras\utils\traceback_utils.py in error_handler(*args, **kwargs)
     65     except Exception as e:  # pylint: disable=broad-except
     66       filtered_tb = _process_traceback_frames(e.__traceback__)
---> 67       raise e.with_traceback(filtered_tb) from None
     68     finally:
     69       del filtered_tb

E:\anaconda\lib\site-packages\tensorflow\python\framework\func_graph.py in autograph_handler(*args, **kwargs)
   1145           except Exception as e:  # pylint:disable=broad-except
   1146             if hasattr(e, "ag_error_metadata"):
-> 1147               raise e.ag_error_metadata.to_exception(e)
   1148             else:
   1149               raise

ValueError: in user code:

    File "E:\anaconda\lib\site-packages\keras\engine\training.py", line 1021, in train_function  *
        return step_function(self, iterator)
    File "E:\anaconda\lib\site-packages\keras\engine\training.py", line 1010, in step_function  **
        outputs = model.distribute_strategy.run(run_step, args=(data,))
    File "E:\anaconda\lib\site-packages\keras\engine\training.py", line 1000, in run_step  **
        outputs = model.train_step(data)
    File "E:\anaconda\lib\site-packages\keras\engine\training.py", line 859, in train_step
        y_pred = self(x, training=True)
    File "E:\anaconda\lib\site-packages\keras\utils\traceback_utils.py", line 67, in error_handler
        raise e.with_traceback(filtered_tb) from None
    File "E:\anaconda\lib\site-packages\keras\engine\input_spec.py", line 264, in assert_input_compatibility
        raise ValueError(f'Input {input_index} of layer "{layer_name}" is '

    ValueError: Input 1 of layer "model_12" is incompatible with the layer: expected shape=(None, 1, 12), found shape=(None, 3, 12)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

16条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2023-09-08 16:25
关注
获得0.30元问题酬金

引用皆我百晓生小程序回复内容作答：
根据错误信息，输入数据的shape不符合预期。模型期望的输入shape是(None, 1, 12)，但实际输入的是(None, 3, 12)，说明输入的数据维度不匹配。

在构建模型时，定义了输入的shape为(3, 12)，这里的3代表输入的时间步数，12是特征数。而在训练模型时，传入的训练数据trainX和trainY的shape应该为(样本数, 输入时间步数, 特征数)和(样本数, 输出时间步数, 特征数)。根据错误信息和模型定义，trainX应该是(None, 3, 12)，trainY应该是(None, 1, 12)。

因此，你需要检查一下训练数据trainX和trainY的维度是否正确，确保输入数据的shape与模型定义一致。如果根据给定的数据维度调整了模型定义，那么还需要相应地调整训练数据的维度。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于swin transformer的毕设 transformer
2022-11-15 11:37

回答 3 已采纳是有足够时间让你完成。首先swin的理论还是基于卷积神经网络，其次swin的大热，也让它的源码处处可见可查。
datax transformer 过滤时间问题 python transformer 运维
2021-12-28 16:04

回答 1 已采纳特殊符号问题？
更改video swin transformer的损失函数 transformer 深度学习
2023-03-30 17:47

回答 2 已采纳 import torch.nn as nn import torch.optim as optim # 定义自定义损失函数 def custom_loss_function(output, tar
使用 Keras 和 tensorflow 实现的Transformer模型.zip
2023-07-02 11:37

在"使用 Keras 和 tensorflow 实现的Transformer模型.zip"压缩包中，你将找到一个名为"transformer-keras-master"的项目，这是用Python编程语言、Keras库和TensorFlow框架实现的Transformer模型。Keras是一个高级...
transformer使用 python 有问必答
2022-10-08 12:33

回答 3 已采纳意思是没有这个do_sample关键字
Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
transformers训练后翻译结果只有一种 keras tensorflow transformer
2022-06-02 00:26

回答 2 已采纳可能模型特征提取的不够，导致输出一样为什么我的神经网络不管输入什么，输出结果都是相似的？ - 知乎我使用了归一化，也使用了onehot。
TensorFlow框架案例实战(第一课)_深度学习案例_tensorflow框架案例实战_
2021-10-01 11:27

“tensorflow框架案例实战”标签则意味着你将在实践中学习，这是掌握任何编程技术的关键。你将有机会编写代码，解决实际问题，这不仅加深了理解，也增强了你的编程技能。总的来说，通过这门课程，你将全面了解...
如何使用LSTM和Transform等经典模型 lstm transformer 自然语言处理
2022-10-12 20:31

回答 1 已采纳建议换pytorch，信我，tensorflow坑巨多，还有各个版本之间的api兼容性，cuda兼容性巨差，旧版本的代码（1.08-1.15）在新版本（2.x）基本上跑不动,而一些旧的代码基本上都是1
利用Python构建transformer pycharm python
2022-01-02 14:11

回答 1 已采纳看起来是层次出了问题。红框部分，全部向右移4个空格（意思就是每行前面敲4个空格）
关于Swin Transformer官方代码中，WindowAttention模块中的self.proj的作用 transformer 深度学习计算机视觉
2023-02-13 14:41

回答 1 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” self.proj 是一个全连接层，在 SWIN Transformer 模型的 WindowAttention 模块中使用。它的作用是对
TensorFlow开源机器学习框架机器学习模型
2024-06-09 12:01

- **多样的API支持**：TensorFlow拥有丰富的API集合，支持Python、C++等多种编程语言，便于不同背景的开发者使用。 - **广泛的机器学习任务覆盖**：无论是图像识别、自然语言处理（NLP）、推荐系统还是其他领域的...
关于#transformer#的问题：transformer在SISR的问题，训练时图像小，test时可以直接对高分辨率图像处理 pytorch transformer 超分辨率重建
2023-02-01 19:33

回答 1 已采纳 Transformer模型在SISR问题中的特殊之处在于它使用了self-attention机制来捕捉图像中的长距离依赖关系，因此它可以处理任意大小的图像。在训练时使用的小图像可以避免内存问题，但是训
基于transformer的语言翻译模型内含数据集.zip
2024-04-15 23:03

复现Transformer模型涉及到的技能和工具包括Python编程、PyTorch或TensorFlow框架、深度学习基础知识以及NLP领域的知识。通过这个压缩包，你可以深入了解Transformer的工作原理，并动手实践以提升对深度学习模型的...
基于python与tensorflow的中文自然语言处理的情感分析设计与实现
2022-05-21 00:07

首先，Python是一种广泛应用于数据科学和机器学习领域的编程语言，拥有丰富的库和工具，如NLTK（Natural Language Toolkit）、spaCy和jieba等，这些都为中文NLP任务提供了便利。jieba是专门用于中文分词的库，它可以...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月8日

悬赏问题

¥15 三极管电路求解，已知电阻电压和三级关放大倍数
¥15 ADS时域连续相位观察方法
¥15 Opencv配置出错
¥15 模电中二极管，三极管和电容的应用
¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
¥15 气象网格数据与卫星轨道数据如何匹配
¥100 java ee ssm项目悬赏，感兴趣直接联系我
¥15 微软账户问题不小心注销了好像
¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
¥15 curl 命令调用正常，程序调用报 java.net.ConnectException: connection refused

tensorflow框架下的Transformer

定义超参数

16条回答 默认 最新

问题事件

悬赏问题

16条回答默认最新