weixin_47213028 2023-04-18 19:55 采纳率: 0%
浏览 13

自然语言处理-机器翻译-Transfoemers

使用Transformers微调机器翻译预训练模型
我的数据为两列["zh","en"]

img

在分词的时候,使用的语句是

def tokenize_function(examples):
   return tokenizer(examples["zh"],examples["en"] padding="max_length", truncation=True)

分词效果如下

img


已经存在input_ids
为什么最后调用traner.train()函数会报如下错误:
You have to specify either decoder_input_ids or decoder_inputs_embeds
麻烦大家帮帮忙

  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-04-19 16:49
    关注
    不知道你这个问题是否已经解决, 如果还没有解决的话:
    • 以下回答来自chatgpt: 首先需要排查错误信息,看出现的具体错误是什么。然后根据错误信息进行调试和修改代码。如果提示是数据格式错误,可以通过以下方法解决: 1. 确认输入数据的格式是否正确。可以通过打印出数据的第一个样本来进行确认。如果数据格式不正确,可以对输入数据进行处理,将其转换为正确的格式。 2. 检查分词的方式是否正确,有时候分词的方式不正确会导致错误。可以通过打印出分词后的数据来检查分词的方式是否正确。 3. 如果数据已经存在input_ids,可以先将其删除,然后重新进行分词。可以使用以下代码: ``` del train_dataset['input_ids'] del eval_dataset['input_ids'] ``` 4. 如果问题依旧存在,可以考虑更换其他的数据集或者调整训练参数。 以上是基本的解决方法,如果问题依旧存在可以提供更多的具体信息和错误提示,以便进行更加准确的调试和修改。

    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
    评论

报告相同问题?

问题事件

  • 创建了问题 4月18日

悬赏问题

  • ¥20 vx转账功能对方不能领取
  • ¥15 vue2+codemirror 运行后页面光标太大了
  • ¥15 pdfjs库如何在前端实现打印、旋转等功能
  • ¥15 combobox数据绑定问题
  • ¥15 maven打包时,为什么有的依赖打不进去包
  • ¥15 求复现机器学习文章一篇
  • ¥15 爬虫抓取数据|解析视频文本内容(相关搜索:自动化)
  • ¥15 combobox绑定值改变的问题
  • ¥15 from seleniumwire import webdriver 在抓取http://链接的时候会自动转https://这个怎么解决
  • ¥15 hive直连数据库模式插入mysql表数据失败(相关搜索:数据库)