qq_33464186 2022-06-02 00:26 采纳率: 75%
浏览 30
已结题

transformers训练后翻译结果只有一种

我使用transformers官方tutorial:https://www.tensorflow.org/text/tutorials/transformer 训练了自己的翻译模型,只改了tokenizer的部分(使用tf.keras.preprocessing.tokenizer在自己的语料里fit了然后tokenize)最后得到Epoch 30 Batch 50 Loss 0.0677 Accuracy 0.9823的结果,但是当我使用这个model来对某一个新的输入进行翻译的时候,发现无论输入是什么,翻译的输出结果都是一样的。如果重新训练,这个相同的输出结果会变化,但是依然与输入无关。该结果都是还算通顺的语句,但是能看出来是生成的。
我的参数是这样的:
num_layers = 4
d_model = 128
dff = 512
num_heads = 8
dropout_rate = 0.1
BUFFER_SIZE = 20000
BATCH_SIZE = 64
EPOCHS = 30
MAX_TOKENS = 413

请问这是收敛到局部最小值了吗?还是什么原因?有人遇到过一样的问题吗?应该怎么解决?调参是解决方法吗?

  • 写回答

2条回答 默认 最新

查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 6月17日
  • 已采纳回答 6月9日
  • 创建了问题 6月2日

悬赏问题

  • ¥15 虚幻5 UE美术毛发渲染
  • ¥15 CVRP 图论 物流运输优化
  • ¥15 Tableau online 嵌入ppt失败
  • ¥100 支付宝网页转账系统不识别账号
  • ¥15 基于单片机的靶位控制系统
  • ¥15 真我手机蓝牙传输进度消息被关闭了,怎么打开?(关键词-消息通知)
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测