transformers训练后翻译结果只有一种

我使用transformers官方tutorial：https://www.tensorflow.org/text/tutorials/transformer 训练了自己的翻译模型，只改了tokenizer的部分（使用tf.keras.preprocessing.tokenizer在自己的语料里fit了然后tokenize）最后得到Epoch 30 Batch 50 Loss 0.0677 Accuracy 0.9823的结果，但是当我使用这个model来对某一个新的输入进行翻译的时候，发现无论输入是什么，翻译的输出结果都是一样的。如果重新训练，这个相同的输出结果会变化，但是依然与输入无关。该结果都是还算通顺的语句，但是能看出来是生成的。
我的参数是这样的：
num_layers = 4
d_model = 128
dff = 512
num_heads = 8
dropout_rate = 0.1
BUFFER_SIZE = 20000
BATCH_SIZE = 64
EPOCHS = 30
MAX_TOKENS = 413

请问这是收敛到局部最小值了吗？还是什么原因？有人遇到过一样的问题吗？应该怎么解决？调参是解决方法吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
白驹_过隙新星创作者: 算法与数据结构技术领域 2022-06-02 09:06
关注
可能模型特征提取的不够，导致输出一样
为什么我的神经网络不管输入什么，输出结果都是相似的？ - 知乎我使用了归一化，也使用了onehot。激活函数我尝试了许多都没用。 https://www.zhihu.com/question/338956707?ivk_sa=1024320u

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

天外客AI翻译机Transformers库模型调用
2025-11-24 00:24

XU美伢的博客本文详解如何基于Hugging Face的transformers库，在嵌入式设备上构建高效、离线运行的AI翻译引擎。涵盖模型选择、推理优化、ONNX加速、资源管理及隐私优势，揭示轻量化与性能平衡的关键技术路径。
一起学Hugging Face Transformers（7） - 使用Transformers 库进行机器翻译（Machine Translation）
2024-06-28 14:46

做个天秤座的程序猿的博客机器翻译（Machine Translation）是自然语言处理（NLP）中的一个重要任务，它涉及将文本从一种语言自动翻译为另一种语言。Hugging Face 的 Transformers 库提供了强大而易用的工具来实现机器翻译任务。本文将详细...
【人工智能】Transformers Pipeline概述
2024-07-13 16:53

野老杂谈的博客在人工智能的领域，Transformers模型已经成为解决许多自然语言处理任务的核心工具。本文将介绍如何通过Pipeline简化大模型的应用，让开发者能够轻松实现文本生成、文本分类、翻译等功能。通过具体的代码示例，我们将...
Transformers是一种基于自注意力机制的神经网络模型
2025-04-20 22:56

大霸王龙的博客 Transformers是一种基于自注意力机制的神经网络模型，最早由Google团队在2017年的论文《Attention Is All You Need》中提出。该模型旨在解决传统循环神经网络（RNNs）在处理长距离依赖关系时的低效性问题，尤其是在...
Hugging Face Transformers进阶：模型微调与训练
2025-05-03 19:25

CarlowZJ的博客模型微调是指在预训练模型的基础上，针对特定任务进行进一步训练的过程。预训练模型通常在大规模通用语料上进行训练，能够学习到语言的通用特征。然而，这些模型可能无法直接适应特定任务的需求。通过在特定任务的...
huggingface transformers中Dataset是一种什么数据类型
2025-05-13 22:07

溯源006的博客 Hugging Face的datasets库中的Dataset对象是一...通过load_dataset加载数据后，可以使用map方法进行预处理，并通过set_format转换为模型输入格式，直接用于训练。相比pandas.DataFrame和Python列表/字典，Dataset在内存
transformers-4.51.3.tar.gz
2025-05-30 22:44

transformers-4.51.3.tar.gz是深度学习领域中的一个资源包，版本号为4.51.3，其文件名表明了其打包格式为tar.gz，这是Linux系统下常用的一种压缩格式，以.tar为后缀表示这是一个包含了多个文件和目录的打包文件，.gz...
超简单的训练AI模型代码
2024-12-20 11:54

在当今科技迅速发展的背景下，人工智能（AI）已经成为一个炙手可热的领域。学习如何训练AI模型成为了很多科技爱好者和专业人士的必备技能。本篇内容将深入探讨一个适合初学者的AI模型训练方法，并详细介绍所需的工具...
【AI论文和代码2021年】用于高分辨率图Taming Transformers
2021-11-25 15:24

标题中的“Taming Transformers”指的是2021年的一篇人工智能(AI)论文，该论文主要探讨了如何在高分辨率图像生成任务中有效地应用Transformer模型。Transformer是一种在自然语言处理(NLP)领域取得突破性进展的网络...
40_Spring AI 干货笔记之 Transformers (ONNX) 嵌入
2025-12-14 14:17

腾飞开源的博客本文介绍了在Spring AI框架中使用ONNX格式Transformer模型在本地计算文本嵌入的方法。该实现通过TransformersEmbeddingModel集成HuggingFace的预训练句子转换器模型，利用Deep Java Library和ONNX Java运行时执行...
【NLP】(task9)Transformers解决机器翻译任务
2021-08-31 18:33

山顶夕景的博客沿着解码器利用自监督学习的方式进行预训练，大佬们提出了一些预训练生成模型：BART、UniLM、T5和GPT-3等，更多机器翻译论文可参考清华大学NLP组整理的论文——https://github.com/THUNLP-MT/MT-Reading-List。...
你应该懂的AI大模型之 transformers
2025-06-12 23:17

BricheersZ的博客 2. transformers库是HuggingFace开发的工具包，提供预训练模型接口；3. 文章还讲解了AutoModel、AutoTokenizer等核心类的作用，并通过BERT模型示例演示了transformers库的实际应用。最后简要介绍了HuggingFace、CUDA...
Transformers及训练框架介绍
2025-06-23 19:54

transformer"变压器"的博客 Hugging Face Transformers是一个为PyTorch、TensorFlow和JAX设计的先进机器学习工具库。它提供了简单易用的API，可下载和微调各种预训练模型（如BERT），支持自然语言处理、计算机视觉等多模态任务。安装方式可通过...
融合MMEdu和Transformers技术的视障出行智能辅助系统（上海浦育AI未来夏令营结题论文）
2023-09-09 09:31

在这一过程中，MMEdu是一个教育平台，可能被用来学习和训练这些AI模型，而Transformers作为一种先进的自然语言处理模型，可能被用于理解并生成语音反馈，以清晰、简洁的方式传达信息给视障用户。三、项目创新点及...
transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载（文末免费送书）
2024-10-18 22:56

老牛同学的博客本文详细讲解 transformers 推理大语言模型的初始化过程，包括 Python 包搜索、LazyModule 延迟模块、模块搜索和 Python 包 API 设计美学……
Huggingface transformers库使用教程（翻译）--------微调预训练模型
2025-03-05 16:32

溯源006的博客使用预训练模型有许多显著的好处。它降低了计算成本，减少了碳排放，同时允许您使用最先进的模型，而无需从头开始训练一个。 Transformers 提供了涉及各种任务的...这种操作被称为微调，是一种非常强大的训练技术。
Transformers 库的基本使用
2022-06-19 21:55

空杯的境界的博客本内容主要介绍 Transformers 库的基本使用。
03 Transformers 之安装
2025-12-21 09:24

胡伯来了的博客账号，我们可能就无法通过该站点下载预训练模型，训练的结果无法上传到该站点，只能通过其他的方式去下载所需的预训练模型，然后通过本地加载方式使用！加载预处理模型和预处理器，因为它会通过用“名称”或“预训练...
Lightning AI vs Transformers 微调对比实战：谁才是 LLM 训练王者？
2025-04-11 11:19

观熵的博客在大模型训练与微调中，主流开发者通常二选一：**HuggingFace Transformers（强模型支持）**，或 **PyTorch Lightning（强训练框架）**。本篇将深入对比这两者在微调 LLM 时的**工程便捷性、分布式支持、代码结构、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月2日

transformers训练后翻译结果只有一种

2条回答 默认 最新

问题事件

2条回答默认最新