关于Transformers Trainer, datasets Dataset的问题

Transformers Trainer && datasets Dataset 问题

Traceback (most recent call last):
  File "main.py", line 72, in <module>
    trainer.train()
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/transformers/trainer.py", line 1411, in train
    ignore_keys_for_eval=ignore_keys_for_eval,
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/transformers/trainer.py", line 1623, in _inner_training_loop
    for step, inputs in enumerate(epoch_iterator):
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 681, in __next__
    data = self._next_data()
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/torch/utils/data/dataloader.py", line 721, in _next_data
    data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/torch/utils/data/_utils/fetch.py", line 52, in fetch
    return self.collate_fn(data)
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/transformers/data/data_collator.py", line 67, in default_data_collator
    return torch_default_data_collator(features)
  File "/data/yutian/anaconda3/envs/py37/lib/python3.7/site-packages/transformers/data/data_collator.py", line 131, in torch_default_data_collator
    batch[k] = torch.tensor([f[k] for f in features])
ValueError: expected sequence of length 44 at dim 1 (got 40)

问题描述：使用如下代码进行训练时报错，实际上是有输入的一个batch内的维度不同，导致tensor不能拼接。

    model = FineTuneT5Model()
    # tokenizer = T5Tokenizer.from_pretrained("/data/yutian/DIUR/model_hub/my_t5")
    # data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
    training_args = TrainingArguments(
        output_dir = './checkpoints',
        num_train_epochs = 5,
        per_device_train_batch_size=2,  # batch size per device during training 训练批大小
        per_device_eval_batch_size=2,   # batch size for evaluation 评估批大小
        logging_dir='./logs/trainer_log',    # directory for storing logs 日志存储位置
        learning_rate=1e-3,             # 学习率
        save_steps=500, 
    )

    trainer = Trainer(
        model = model,
        args = training_args,
        train_dataset = dataset,
        eval_dataset = valid_dataset,
        compute_metrics = get_metric_func
    )

    trainer.train()

来龙去脉：
通过datasets中的Dataset构建数据。希望给模型输入两个文本特征，一个标签。也就是说，现在是一个字典，前两个键的值都是字符串的列表，相当于s2s中的成对语料；第三个键对应的是一个int的列表，希望用于分类的标签。通过如下代码构建Dataset。

            data_dict = {'src_text_field':self.src_text_field,
                         'tgt_text_field':self.tgt_text_field,
                         'label_field':self.label_field}
            dataset = Dataset.from_dict(data_dict)

通过如下代码对src和tgt进行tokenize。需要注意的是，tokenizer返回的都包括input_ids，直接将返回值map给dataset，会导致第二次赋值的时候覆盖。所以，在给tgt做tokenize的时候，新保存了一个键，加入了dataset中。

            tokenizer = T5Tokenizer.from_pretrained("/data/yutian/DIUR/model_hub/my_t5")
         
            def src_preprocess_function(examples):
                text_token = tokenizer(examples['src_text_field'], padding = True, truncation=True, max_length=256, return_token_type_ids=False)
                logging.info(text_token)
                return text_token
            dataset = dataset.map(src_preprocess_function, batched=True, batch_size=8)
            
            def tgt_preprocess_function(examples):
                text_token = tokenizer(examples['tgt_text_field'], padding = True, truncation=True, max_length=256, return_token_type_ids=False, return_attention_mask=False)
                new_dict = {'tgt_ids': text_token['input_ids']}
                return new_dict
            dataset = dataset.map(tgt_preprocess_function, batched=True, batch_size=8)
            with open(os.path.join('./cache', self.dataset_name, self.mode+'.pkl'), 'wb') as f:
                pickle.dump(dataset, f)

在主函数中，通过打印dataset内的数据，发现每8个数据的对应键size相同。然而在通过Trainer的时候，数据会传给collator。这个的作用是将batch的数据转化成tensor，或者做其它预处理。我自定义了一个collator，传递给trainer。发现tgt_id的size异常。input_id和attention_mask能够向量化（因为形状相同），但是tgt_id长短不一，怀疑在加载的时候被打乱了顺序，或者发生了其它事情。能够保证直接print dataset中的数据时，tgt_id是每8个形状相同；但是不知道什么原因，加载之后不是了。

def DataCollator(features):
    for i in features:
        print(len(i['tgt_ids']))
    return 0

请各位熟悉这几个工具的佬给出建议。目前就是希望输入两个文本域，一个数字域；希望能够给出目前问题的原因或其它使用transformers Trainer、 datasets的建议！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-03-03 07:31
关注
参考GPT和自己的思路，根据报错信息，“expected sequence of length 44 at dim 1 (got 40)”可以得知，你的训练数据的某个batch内的维度不同，具体来说，期望维度为44，而实际维度为40。这可能是由于你的数据中存在长度不同的序列，例如某些文本序列的长度超过了256个token，而在进行tokenize后被截断，导致长度不足44。建议检查一下你的训练数据，确保所有的序列长度都不超过256个token，或者调整你的模型和训练参数，以适应长度不同的序列。此外，也可以在自定义的collator中对长度不足的序列进行padding，使得所有序列长度一致。
下面是一些修改代码的建议，以使所有的样本长度相同：

找到您的数据集中最长的样本，并将所有样本的长度调整为该最长样本的长度。您可以使用torch.nn.utils.rnn.pad_sequence函数对序列进行填充，使它们具有相同的长度。

如果您使用的是datasets库，可以在Dataset.map方法中使用batched=True选项，这会自动将数据集中的样本批次到一个具有相同长度的张量。如果您使用的是自定义的数据集，请确保将所有样本的长度调整为相同的长度。

在使用自定义collator之前，可以尝试使用transformers库中提供的默认collator（default_data_collator），它可以自动调整批次中的样本长度。

如果上述方法仍然无法解决问题，可以尝试将batch size逐渐减小，或者使用更小的模型或更长的训练时间，以便使模型适应更多的长度差异。

以下是修改后的代码示例：

from torch.nn.utils.rnn import pad_sequence # 1. 找到最长的样本，并将所有样本的长度调整为该最长样本的长度 max_len = max(len(x['input_ids']) for x in dataset) for example in dataset: example['input_ids'] = example['input_ids'] + [0] * (max_len - len(example['input_ids'])) example['attention_mask'] = example['attention_mask'] + [0] * (max_len - len(example['attention_mask'])) example['token_type_ids'] = example['token_type_ids'] + [0] * (max_len - len(example['token_type_ids'])) # 2. 使用Dataset.map方法，自动批次到具有相同长度的张量 dataset = dataset.map(lambda x: {'input_ids': x['input_ids'], 'attention_mask': x['attention_mask'], 'token_type_ids': x['token_type_ids'], 'labels': x['label']}, batched=True) # 3. 尝试使用transformers库中提供的默认collator from transformers import default_data_collator trainer = Trainer( model=model, args=training_args, train_dataset=dataset, data_collator=default_data_collator, # 使用默认collator compute_metrics=get_metric_func ) # 4. 如果仍然无法解决问题，可以逐渐减小batch size或者使用更小的模型或更长的训练时间 5. 训练模型 trainer = Trainer( model=model, args=args, train_dataset=train_dataset, eval_dataset=val_dataset, compute_metrics=compute_metrics ) trainer.train() 6. 测试模型 test_results = trainer.predict(test_dataset=test_dataset) test_metrics = compute_metrics(test_results) 7. 输出测试结果 print(test_metrics)
解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【Transformers基础入门篇7】基础组件之Trainer
2024-09-25 15:22

hjxu2016的博客 Trainer是库中提供的训练的函数，内部封装了完整的训练、评估逻辑，并集成了多种的后端，如等，搭配对训练过程中的各项参数进行配置，可以方便快捷地启动模型单机/分布式训练使用Trainer进行模型训练对模型的输入...
使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline)
2021-01-16 16:24

blmoistawinde的博客使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline) huggingface的transformers在我写下本文时已有39.5k star，可能是目前最流行的深度学习库了，而这家机构又提供了...
【Foundation】（六）transformers之Trainer
2024-08-07 10:06

鲸可落的博客本章节的最后一个内容，训练器——Trainer
基于transformers的自然语言处理(NLP)入门
2023-10-22 18:43

这篇关于“基于Transformers的自然语言处理入门”的文章介绍了如何利用Transformers库中的模型进行序列标注任务，如命名实体识别、词性标注和短语组块。通过加载数据、选择预训练模型、设置参数并使用Trainer进行...
transformers 的Trainer的用法
2025-06-07 11:11

溯源006的博客 Trainer 自动处理以下任务：训练循环：自动实现 epoch 迭代、批次加载优化器&学习率调度：内置 AdamW 并支持自定义分布式训练：自动支持单机多卡（DataParallel/...
AI模型训练和评估的最佳实践：Transformers Trainer与Evaluate库详解
2024-09-27 09:58

冻感糕人~的博客 Transformers Trainer 和 Hugging Face Evaluate 是机器学习工作流中的两个重要工具。Trainer 模块通过简化微调训练过程和统一配置参数，帮助用户高效地进行模型训练；Evaluate 库则通过简便的一致性评估方法，确保...
transformers基础组件之Trainer
2025-02-10 18:07

健康胡的博客详细解释Hugging Face的trainer库的使用，以及对文本分类的代码实例进行优化。
trainer使用 torch.utils.data 的 Dataset
2024-07-02 16:47

HMTT的博客在transformers库的Trainer中使用pytorch自带的Dataset类
huggingface的transformers与datatsets的安装与使用
2024-09-28 15:26

Hiweir ·的博客添加新词或特殊字符 3.1tokenizer.add_tokens（） 3.2 tokenizer.add_special_tokens（） 4.datasets的使用 4.1加载datasets 4.2从dataset中取数据 4.3对datasets中的label排序 4.4打乱数据 4.5select 选择指定...
【Hugging Face】transformers 库中的 Trainer：简化 PyTorch 模型的训练、评估和推理
2025-03-09 20:28

彬彬侠的博客 Trainer是Hugging Face transformers库提供的一个高级API，用于简化PyTorch模型的训练、评估和推理，适用于文本分类、翻译、摘要、问答等NLP任务。它支持：自动批量训练，多GPU训练，自动梯度累积，混合精度训练，...
transformers基础组件trainer
2024-01-21 22:38

wangziling123456的博客 trainer是transformers中提供的函数，内部封装了完整的训练，评估逻辑并集成了多种的后端。
huggingface transformers中Dataset是一种什么数据类型
2025-05-13 22:07

溯源006的博客 Hugging Face的datasets库中的Dataset对象是一个高效、灵活的数据容器，专为机器学习任务设计，尤其适用于自然语言处理。它基于Apache Arrow格式，支持内存映射和零拷贝读取，能够处理大型数据集。Dataset提供类字典...
PyTorch实战：使用transformers的Trainer微调预训练模型
2024-07-13 21:38

fengbeely的博客 transformers提供了非常便捷的api来进行大模型的微调，下面就讲一讲利用Trainer来微调大模型的步骤。利用Trainer提供的api，只需要简简单单的九步，十几行代码就能进行大模型的微调，你要不要动手试一试？第六步：...
一起学Hugging Face Transformers（10）- 使用Transformers 库的 Trainer API 进行模型微调
2024-07-05 00:45

做个天秤座的程序猿的博客在自然语言处理（NLP）领域，预训练模型如 BERT、GPT 等已经展示了其强大的能力。然而，实际应用中，预训练模型往往需要进一步微调（Fine-tuning）以适应具体任务。Hugging Face Transformers 库提供了强大的 ...
【Transformers实战篇1】基于Transformers的NLP解决方案
2024-09-25 16:46

hjxu2016的博客 Trainer(model=model, args=train_args, tokenizer=tokenizer, train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["test"], data_collator=DataCollatorWithPadding(tokenizer=tokenizer...
大模型底层 transformers源码解析之trainer.py
2024-04-17 17:32

具身机器人曾小健的博客我会根据你提供的trainer.py源代码,用python的Graph包画出流程图,并着重介绍train()方法。- 将 inputs 通过 self._prepare_inputs 方法处理后传给 self.training_step。- 调用 optimizer.step() 和 lr_scheduler....
Transformers入门与实战全流程指南_从环境安装到基础组件详解包括Pipeline_Tokenizer_Model_Datasets_Evaluate_Trainer_文本.zip
2025-08-20 10:54

Transformers是一个非常流行的自然语言处理（NLP）框架，由Hugging Face团队开发，并广泛应用于机器翻译、文本生成、情感分析等众多任务中。本指南的完整路径包括了以下几个关键步骤和组件： 1. 环境安装：这是开始...
Transformers实战——使用Trainer类训练和评估自己的数据和模型
2022-04-06 14:53

HMTT的博客使用Transformers中的Trainer类训练自己的模型
自学大语言模型之Transformer的Trainer
2025-08-20 13:57

果粒橙_LGC的博客 Hugging Face Transformers库中的Trainer类是一个高效便捷的PyTorch模型训练工具，它简化了从数据加载到模型训练、评估和预测的全流程。Trainer的核心功能包括自动化训练流程、分布式与混合精度训练支持、灵活配置...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月2日

关于Transformers Trainer, datasets Dataset的问题

Transformers Trainer && datasets Dataset 问题

3条回答 默认 最新

问题事件

3条回答默认最新