南风不竞: 2024-07-05 14:02 采纳率: 0%
浏览 33
已结题

文本摘要任务泄露问题

问题: 模型在1个epoch时几乎达到收敛

PS:我想进行一个简单的文本摘要生成任务,数据集为哈工大的新闻数据集,我想利用Transformer的解码器来完成该任务。
我尝试了两种方法,两种方法都将 title 的 embedding + position encode作为label输入:

1、直接将content文本映射为标签后,通过广播机制或者卷积变为[B, L, D]的形式,之后视为编码器的输出传入解码器中;
2、使用conformer编码器,将文本进行编码后变为[B, L, D]的形式,之后输入解码器中;

但是两种方法都会出现上述的快速收敛问题,我排查了是否存在标签泄露的问题,同时也尝试了另一种线性编码器,应该不是标签泄露。

下面是我的代码部分,有没有解答能够看出问题在哪?或者给出思路;

代码:

链接:https://pan.baidu.com/s/1vTBCDcjwRaRXef5eSjYuwA 
提取码:94f6

AI生成的答案别来,我要的是分析我现在的代码,我自己都会用chatgpt

压缩包密码:YQL199831,忘了有没有 !,或者yql199831

  • 写回答

25条回答 默认 最新

  • 符韬OvO 2024-07-05 14:44
    关注

    绷不住了,现在全是ai,解决不了任何问题不说,占用回答区,恶心得很

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 7月11日
  • 修改了问题 7月8日
  • 修改了问题 7月5日
  • 创建了问题 7月5日