顺便再问下Wq、Wk、Wv的值,是编码器和解码器共享么?还是用两套?
收起
可以参考下ChatGPT的答案:Transformer开始计算损失更新权值的环节是在完成训练之后,利用反向传播算法(Backpropagation)计算梯度,再根据梯度来更新权值参数。
报告相同问题?