weixin_47213028 2023-04-18 19:55 采纳率: 0%

浏览 13

自然语言处理-机器翻译-Transfoemers

使用Transformers微调机器翻译预训练模型
我的数据为两列["zh","en"]

在分词的时候，使用的语句是

def tokenize_function(examples):
   return tokenizer(examples["zh"],examples["en"] padding="max_length", truncation=True)

分词效果如下

已经存在input_ids
为什么最后调用traner.train()函数会报如下错误：
You have to specify either decoder_input_ids or decoder_inputs_embeds
麻烦大家帮帮忙

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-04-19 16:49
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
以下回答来自chatgpt: 首先需要排查错误信息，看出现的具体错误是什么。然后根据错误信息进行调试和修改代码。如果提示是数据格式错误，可以通过以下方法解决： 1. 确认输入数据的格式是否正确。可以通过打印出数据的第一个样本来进行确认。如果数据格式不正确，可以对输入数据进行处理，将其转换为正确的格式。 2. 检查分词的方式是否正确，有时候分词的方式不正确会导致错误。可以通过打印出分词后的数据来检查分词的方式是否正确。 3. 如果数据已经存在input_ids，可以先将其删除，然后重新进行分词。可以使用以下代码： ``` del train_dataset['input_ids'] del eval_dataset['input_ids'] ``` 4. 如果问题依旧存在，可以考虑更换其他的数据集或者调整训练参数。以上是基本的解决方法，如果问题依旧存在可以提供更多的具体信息和错误提示，以便进行更加准确的调试和修改。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月18日

悬赏问题

¥20 vx转账功能对方不能领取
¥15 vue2+codemirror 运行后页面光标太大了
¥15 pdfjs库如何在前端实现打印、旋转等功能
¥15 combobox数据绑定问题
¥15 maven打包时，为什么有的依赖打不进去包
¥15 求复现机器学习文章一篇
¥15 爬虫抓取数据|解析视频文本内容（相关搜索：自动化）
¥15 combobox绑定值改变的问题
¥15 from seleniumwire import webdriver 在抓取http://链接的时候会自动转https://这个怎么解决
¥15 hive直连数据库模式插入mysql表数据失败（相关搜索：数据库）