大模型Running Evaluation过程中出现的错误

大模型微调，Running Evaluation过程中出现的错误

LLaMA-Factory为微调工具，相关参数设置如下：

CUDA_VISIBLE_DEVICES=0 /opt/llama_factory/bin/python src/train_bash.py \
--stage sft \
--model_name_or_path pretrained_models/Qwen/Qwen1.5-0.5B/ \
--do_train \
--dataset llama_input_dataset \
--finetuning_type lora  \
--lora_target q_proj,v_proj \
--output_dir output_finetuning_models/Qwen/Qwen1.5-0.5B/lora/sft \
--overwrite_cache \
--per_device_train_batch_size 4 \
--per_device_eval_batch_size 4  \
--gradient_accumulation_steps 16  \
--preprocessing_num_workers 16 \
--lr_scheduler_type cosine \
--logging_steps 10    \
--save_steps 10000   \
--learning_rate 5e-4   \
--max_grad_norm 0.5     \
--num_train_epochs 3   \
--evaluation_strategy steps \
--bf16 \
--template qwen \
--overwrite_output_dir  \
--cutoff_len 1024  \
--quantization_bit 4 \
--plot_loss \
--load_best_model_at_end True \
--val_size 0.001

运行后报错，报错内容如下：

[INFO|trainer.py:3614] 2024-05-01 20:47:32,810 >> ***** Running Evaluation *****
[INFO|trainer.py:3616] 2024-05-01 20:47:32,810 >>   Num examples = 20
[INFO|trainer.py:3619] 2024-05-01 20:47:32,810 >>   Batch size = 4

Traceback (most recent call last):
  File "/home/bio/workshop/hx/LLaMA-Factory/src/train_bash.py", line 14, in <module>
    main()
  File "/home/bio/workshop/hx/LLaMA-Factory/src/train_bash.py", line 5, in main
    run_exp()
  File "/home/bio/workshop/hx/LLaMA-Factory/src/llmtuner/train/tuner.py", line 32, in run_exp
    run_sft(model_args, data_args, training_args, finetuning_args, generating_args, callbacks)
  File "/home/bio/workshop/hx/LLaMA-Factory/src/llmtuner/train/sft/workflow.py", line 73, in run_sft
    train_result = trainer.train(resume_from_checkpoint=training_args.resume_from_checkpoint)
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/trainer.py", line 1859, in train
    return inner_training_loop(
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/trainer.py", line 2278, in _inner_training_loop
    self._maybe_log_save_evaluate(tr_loss, grad_norm, model, trial, epoch, ignore_keys_for_eval)
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/trainer.py", line 2662, in _maybe_log_save_evaluate
    metrics = self.evaluate(ignore_keys=ignore_keys_for_eval)
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/trainer_seq2seq.py", line 180, in evaluate
    return super().evaluate(eval_dataset, ignore_keys=ignore_keys, metric_key_prefix=metric_key_prefix)
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/trainer.py", line 3467, in evaluate
    output = eval_loop(
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/trainer.py", line 3719, in evaluation_loop
    metrics = self.compute_metrics(EvalPrediction(predictions=all_preds, label_ids=all_labels))
  File "/home/bio/workshop/hx/LLaMA-Factory/src/llmtuner/train/sft/metric.py", line 46, in __call__
    decoded_preds = self.tokenizer.batch_decode(preds, skip_special_tokens=True)
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 3771, in batch_decode
    return [
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 3772, in <listcomp>
    self.decode(
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/models/qwen2/tokenization_qwen2.py", line 299, in decode
    return super().decode(
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 3811, in decode
    return self._decode(
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 1001, in _decode
    filtered_tokens = self.convert_ids_to_tokens(token_ids, skip_special_tokens=skip_special_tokens)
  File "/home/bio/.local/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 976, in convert_ids_to_tokens
    index = int(index)
TypeError: int() argument must be a string, a bytes-like object or a real number, not 'list'

是我的数据集本身的问题吗？？为什么Running training时没有出错呢？？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-皆知 2024-05-01 21:14
关注
参考免费微信小程序：皆我百晓生 作答，经由专家-皆知整理回复，如问题解决，望采纳；如仍有疑问，请评论回复。

根据提供的信息，这个错误发生在评估阶段，具体来说是在尝试将预测结果解码为可读文本时。错误提示说int()函数的参数类型不正确，它期望一个字符串、字节序列或实数，但接收到的是一个列表。

在您的代码中，self.decode方法被调用来将模型输出的预测ID转换为人类可读的文本。这通常涉及将整数ID映射到对应的词汇项。然而，这里似乎接收到的是一个列表而不是单个整数值，导致了TypeError。

要解决这个问题，我们需要检查模型的预测输出preds。确保它是一个二维数组，其中每个元素都是一个整数列表，而不是一个单独的整数列表。通常情况下，Hugging Face 的 Trainer 类会处理好这些细节，但如果出现了这种情况，可能是由于模型配置或者数据预处理的问题。

为了进一步诊断问题，您可以尝试打印preds的形状和前几行内容，在执行解码之前：

import torch # 在 self.decode 方法之前添加以下代码 print("Predictions shape:", preds.shape) print("First few predictions:") for pred in preds[:5]: print(pred) decoded_preds = self.tokenizer.batch_decode(preds, skip_special_tokens=True)

这样，您就可以看到模型的输出是否符合预期。如果输出是正确的形状（例如，(batch_size, sequence_length)），那么问题可能在于数据预处理或者模型配置。如果输出有问题，那么可能是模型内部的预测逻辑出了问题。

如果输出看起来正常，但是仍然得到相同的错误，那么问题可能在于模型类中的decode方法。在这种情况下，您可能需要查看Qwen2模型特定的tokenizer实现，并确保其decode方法能接受并处理多维输入。

如果问题依然存在，建议检查一下训练和评估的数据集是否存在差异，比如数据预处理步骤是否有误，或者评估数据集中是否存在一些特殊格式的样本。此外，确认评估使用的模型是否与训练时完全一致，包括权重文件和配置文件。如果一切都没问题，那么可能是库的bug或者不兼容性问题，这时可以考虑更新相关库版本，或者查阅官方文档和社区讨论寻求帮助。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

“解释型编程语言可以在运行过程中被修改”？求举例 python 开发语言有问必答
2021-08-31 20:29

回答 2 已采纳应该是说可以用exec()动态的生成一段代码来执行
如何使用Go编程语言对文件名进行排序？
2019-03-12 15:42

回答 2 已采纳 Based on comments, it appears that the question is "How to print files where the file has a .json
Golang Filepath.Walk在大型目录上出现恐慌错误
2016-02-18 17:28

回答 1 已采纳 You're not checking the error, and trying to call a method on a nil os.FileInfo interface: func w
如何训练一个语言模型？
2023-08-08 01:45

禅与计算机程序设计艺术的博客它是基于统计语言模型构建的预测模型，能够对任意给定的句子或者段落按照一定概率分布进行排序，并对输入语句中的每一个单词赋予其在整个词汇表的排名，并且最后给出相应的概率值。使用语言模型可以帮助人们更准确地...
使用提交哈希时，出现模块“未知修订”错误
2019-08-08 18:15

回答 1 已采纳 For your most recent hash aca080dccfc2, was that merged to master, or what does that hash correspo
我在运行以下代码时出现索引超出范围错误
2018-01-06 14:25

回答 4 已采纳 copy_numbers is of size 0, just as you initialized it. If I add the following before your first f
安装hoorayos composer出现错误，php5.4 php
2023-03-14 15:14

回答 2 已采纳 Composer 2.3.0 dropped support for autoloading on PHP <5.6版本不匹配造成的
LLMs：《A Survey of Large Language Models大语言模型综述》的翻译与解读(一)之序言(挑战+LM四阶段+LLM与PLM的三大区别)、概述(两个代表性扩展定律/涌现能力
2023-07-05 23:27

一个处女座的程序猿的博客 LLMs：《A Survey of Large Language Models大语言模型综述》的翻译与解读(一)之序言(挑战+LM四阶段+LLM与PLM的三大区别)、概述(两个代表性扩展定律/涌现能力三种典型/六大关键技术+GPT系列技术演进)、资源(开源模型...
从邮递员检查时出现404页面未找到错误
2017-12-26 09:19

回答 1 已采纳 To expand on my comment above: A handler function (or the router from julienschmidt/httprouter) do
Windows 10 golang安装程序。错误，不在环境中
2018-03-28 14:26

回答 1 已采纳 Turns out I had two go locations in my PATH (sort of). When I ran the command where go from comman
错误调用eq：Go模板中的比较类型无效
2018-08-20 00:58

回答 1 已采纳 Change your template/_layout.html to this <!DOCTYPE html> <html> <head> <tit
详细阐述模型训练过程中的每一步，包括数据的准备、超参数的选择、网络结构的设计、优化算法的选择及其调优、模型的评估等等。
2023-08-18 15:58

禅与计算机程序设计艺术的博客在深度学习领域里，模型训练是一个迭代过程，为了训练一个好的模型需要不断地调整超参数、选择合适的优化器、选择更加复杂的网络结构等等，本文将详细阐述模型训练过程中的每一步，包括数据的准备、超参数的选择、...
关于厦门大学林子雨的实验 sqoop导入到 mysql中发生的错误 hadoop mysql sqoop 有问必答
2021-12-01 16:09

回答 2 已采纳 File does not exist: hdfs://localhost:9000/usr/local/sqoop/lib/parquet-avro-1.4.1.jar 你最后一行不是有提示了么，文
GPT3：语言模型在命名实体识别中的应用(GPT3:Applicationof GPT 3 in Named Entity Recognition
2023-07-26 00:24

禅与计算机程序设计艺术的博客自然语言处理（NLP）是计算机科学的一个研究领域，旨在从文本或其他形式的语言中提取结构化信息并进行分析、理解、存储和处理等一系列任务。随着深度学习技术的不断推进，近年来基于神经网络的语言模型也逐渐火爆...
【ChatGPT模型精调训练】AI 大模型精调 Fine-Tuning （微调）训练图文代码实战详解
2024-03-09 11:39

禅与计算机程序设计艺术的博客应用：将微调后的模型部署到实际应用中。Fine-Tuning（精调）是指在预训练模型的基础上，对模型进行微调，使其适应特定任务。预训练模型通常在大量无标签数据上进行训练，以学习通用的语言表示。通过 Fine-Tuning，...
如何运用Python编程语言结合NLP技术进行医疗领域的文本分析工作:用Python结合PyTorch和transformers库进行医疗领域的NER和RE任务
2023-08-05 01:12

禅与计算机程序设计艺术的博客由中文Medline数据库和ClinicalTrials.gov数据库搜集的10万篇论文组成，既包括各国语言的论文，也包括英文和德文等其它语言的论文。文章从中抽取出的文本，包含了3种实体类型：疾病（disease），药物（drug），症状...
AI人工智能大模型中——数据集就是一切 The dataset is everything
2024-04-25 03:17

禅与计算机程序设计艺术的博客我认为对计算乘数的搜索比任何不严格...更重要的是，认识到像 GPT-4 或 DALL-E 3 这样的巨大模型仍然存在根本性缺陷，这表明试图从 Llama 2 或 Stable Diffusion 等相对较小的模型中获得真正智能的行为是没有希望的。
模型加速技术在模型并行计算领域应用案例
2023-07-15 02:38

禅与计算机程序设计艺术的博客但是为了保证模型的高效运行，需要考虑到对模型进行快速并行化处理的方法。由于并行处理器资源和通信带宽的限制，传统的模型并行计算方法无法发挥出其最大的优势。因此，基于异构系统的模型并行计算方法，如多任务...
LLMs：《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》翻译与解读
2022-12-31 23:53

一个处女座的程序猿的博客我们的总体目标不仅是公开发布一个具有与最近开发的系统相媲美性能的大规模多语言语言模型，还要记录其开发过程中的协调过程（第2.2节）。本文的目的是在引用我们在开发BLOOM过程中产生的个别报告的同时，提供对这些...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月1日

悬赏问题

¥15 如何使用python 实现对串口/dev/ttyUSB0进行上锁，使得该串口只能在一个python脚本中使用，其他脚本不能操作这个串口
¥15 晶体塑性有限元——Damask求解
¥15 写出这个有没有人能写一下今天中午就要
¥30 设计一个图形用户界面来控制你机械臂的运动
¥30 3d打印机无法识别到SD卡，如何解决？（相关搜索：格式化）
¥15 RPG游戏架构设计和开发方法
¥15 前端返回pdf时不显示内容
¥50 如何在不能联网影子模式下的电脑解决usb锁
¥20 服务器redhat5.8网络问题
¥15 如何利用c++ MFC绘制复杂网络多层图

大模型Running Evaluation过程中出现的错误

大模型微调，Running Evaluation过程中出现的错误

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新