transformers训练后翻译结果只有一种

我使用transformers官方tutorial：https://www.tensorflow.org/text/tutorials/transformer 训练了自己的翻译模型，只改了tokenizer的部分（使用tf.keras.preprocessing.tokenizer在自己的语料里fit了然后tokenize）最后得到Epoch 30 Batch 50 Loss 0.0677 Accuracy 0.9823的结果，但是当我使用这个model来对某一个新的输入进行翻译的时候，发现无论输入是什么，翻译的输出结果都是一样的。如果重新训练，这个相同的输出结果会变化，但是依然与输入无关。该结果都是还算通顺的语句，但是能看出来是生成的。
我的参数是这样的：
num_layers = 4
d_model = 128
dff = 512
num_heads = 8
dropout_rate = 0.1
BUFFER_SIZE = 20000
BATCH_SIZE = 64
EPOCHS = 30
MAX_TOKENS = 413

请问这是收敛到局部最小值了吗？还是什么原因？有人遇到过一样的问题吗？应该怎么解决？调参是解决方法吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
白驹_过隙算法领域新星创作者 2022-06-02 09:06
关注
可能模型特征提取的不够，导致输出一样
为什么我的神经网络不管输入什么，输出结果都是相似的？ - 知乎我使用了归一化，也使用了onehot。激活函数我尝试了许多都没用。 https://www.zhihu.com/question/338956707?ivk_sa=1024320u

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

transformers训练后翻译结果只有一种 keras tensorflow transformer
2022-06-02 00:26

回答 2 已采纳可能模型特征提取的不够，导致输出一样为什么我的神经网络不管输入什么，输出结果都是相似的？ - 知乎我使用了归一化，也使用了onehot。
transformers python word2vec 深度学习
2021-06-25 19:48

回答 1 已采纳肯定不是一回事啊，pytorch的transformer是处理图像的，huggingface的transformers主要是用来做NLP任务的，可以去csdn了解一下两者具体的区别，至于该用哪个取决你
第一次使用transformers模型遇到的问题 python pytorch transformer
2023-01-10 19:36

回答 1 已采纳指定一下模型吧 classifier = pipeline("sentiment-analysis", model="distilbert-base-uncased-finetuned-sst-2-e
【NLP】(task9)Transformers解决机器翻译任务
2021-08-31 18:33

山顶夕景的博客沿着解码器利用自监督学习的方式进行预训练，大佬们提出了一些预训练生成模型：BART、UniLM、T5和GPT-3等，更多机器翻译论文可参考清华大学NLP组整理的论文——https://github.com/THUNLP-MT/MT-Reading-List。...
gpt2-Chinese的train.py报错：AttributeError: module transformers has no attribute modeling_gpt2 python pytorch 深度学习
2022-01-03 09:14

回答 1 已采纳你python版本是多少？
setResultTransformer(Transformers.aliasToBean(..)) hibernate
2009-01-20 20:56

回答 1 已采纳就像你买了把牛刀,说"听说牛刀很牛,都能杀牛,结果我杀了只鸡,都这么费劲." 呵呵. 我对Hibernate不是很了解,但你说的这个只想获取2个字段; 可以参照这个问题: http://
transform（）必须是App \ DigitalCase的一个实例 laravel php
2018-06-25 18:03

回答 2 已采纳 Using $digital_cases = DB::table('digital_cases'); will not give you an instance (or Collection of
Transformers 库的基本使用
2022-06-19 21:55

空杯的境界的博客本内容主要介绍 Transformers 库的基本使用。
使用cmd命令执行mvn package打成jar包后，在cmd运行该jar包，提示没有主清单属性 eclipse java maven
2022-01-10 13:39

回答 3 已采纳 springboot项目?加个插件吧 <plugins> <plugin> <groupId>org.spr
利用hibernate执行原始的sql，但是在java里面提示没有返回结果集
2016-06-15 06:35

回答 1 已采纳刚才看了一下别人关于hibernate拿不到的结果集的问题，看了一下，解决了，，那是因为我优化的sql上有插入临时表的语句，所以就拿不到结果集。我个人猜想是不是hibernate在得到记录数据时判断有
GPT2--Chinese生成文本报错 github python 深度学习
2022-01-08 09:37

回答 1 已采纳你下的项目，保存到什么位置。要先确认 generate.py 所在目录。看你的运行命令，貌似在这个地方 F:/GTP/GPT-Chinese/GPT2-Chinese-old_gpt_2_chin
引入txtai，这是一种基于Transformers的AI驱动的搜索引擎
2020-08-26 12:03

weixin_26752075的博客本文介绍txtai，这是一种由AI支持的搜索引擎，可在任何应用程序中启用基于自然语言理解(NLU)的搜索。 txtai简介 (Introducing txtai) txtai builds an AI-powered index over sections of text. txtai supports ...
怎么加载从huggingface拉下来的模型代码 pytorch 深度学习自然语言处理
2022-02-24 14:02

回答 2 已采纳首先huggingface上的预训练模型都是有示例代码的，博主贴的四行代码的中的前两行会检查你本地有没有XLNet这个模型，若没有的话就会从huggingface上下载相应的模型到一个指定的目录下去，
AI：138-开发一种能够自动化生成艺术品描述的人工智能系统
2024-02-26 00:40

一键难忘的博客 AI：138-开发一种能够自动化生成艺术品描述的人工智能系统随着人工智能技术的不断发展，其应用领域也在不断拓展。在艺术领域，人工智能的应用正带来一场革命，其中之一是自动化生成艺术品描述的人工智能系统。本文...
基于Transformers的自然语言处理入门【十】-机器翻译
2021-09-30 09:51

hezzfew的博客基于Transformers的自然语言处理入门【十】-机器翻译1 机器翻译背景2 机器翻译模型训练 1 机器翻译背景机器翻译，是指使用计算机将一种自然语言转换为另一种自然语言的过程。这里，自然语言是指日常使用的人类语言...
Transformers是一种图神经网络
2020-06-12 09:44

人工智能与算法学习的博客另一方面，Transformers 使用一种注意机制来判断句子中其他词对上述词的重要性。 Transformers最初是为机器翻译而引入的，现在已经逐渐取代了主流NLP中的RNNs。这个架构使用了一种全新的方式来进行表示学习：不需要...
【Transformer论文】Transformers 的多模式学习：一项综述
2022-10-05 21:11

Wwwilling的博客文献题目：Multimodal Learning with Transformers: A Survey 发表时间：2022 摘要 Transformer 是一种很有前途的神经网络学习器，在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行，基于 ...
huggingface的transformers训练bert
2024-03-22 17:32

傅云昭的博客相比于BERT，RoBERTa采用了一系列的训练技巧和策略，如动态掩码、更长的训练序列、更大的批量大小等，以提升模型的性能。在微调阶段，模型会在特定任务的标注数据上进行进一步的训练，以适应具体任务的要求。在传统...
（六）多语言人工智能语言翻译
2022-01-03 20:26

寒冰屋的博客谷歌翻译工作得如此之好，它通常看起来很神奇。但这不是魔法——这是深度学习！在本系列文章中，我们将向您展示如何...本系列假设您熟悉机器学习的概念：模型训练、监督学习、神经网络以及人工神经元、层和反向传播。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月2日

悬赏问题

¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测

transformers训练后翻译结果只有一种

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新