问题: 模型在1个epoch时几乎达到收敛
PS:我想进行一个简单的文本摘要生成任务,数据集为哈工大的新闻数据集,我想利用Transformer的解码器来完成该任务。
我尝试了两种方法,两种方法都将 title 的 embedding + position encode作为label输入:
1、直接将content文本映射为标签后,通过广播机制或者卷积变为[B, L, D]的形式,之后视为编码器的输出传入解码器中;
2、使用conformer编码器,将文本进行编码后变为[B, L, D]的形式,之后输入解码器中;
但是两种方法都会出现上述的快速收敛问题,我排查了是否存在标签泄露的问题,同时也尝试了另一种线性编码器,应该不是标签泄露。
下面是我的代码部分,有没有解答能够看出问题在哪?或者给出思路;
代码:
链接:https://pan.baidu.com/s/1vTBCDcjwRaRXef5eSjYuwA
提取码:94f6