无监督学习评估函数传入trainer中失效

前向传播评估阶段反回的是字典，评估函数定义的我感觉也没有问题，所有的方法我都试过了，trainer就是不运行我自定义的评估函数，运行trainer.evalute的时候也没报错，就只反回了trainer里的一些值，然后我让ai给我写了一个简单的无监督它还是那样，我现在怀疑是transformers库版本的问题，求各位给出解决方案

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
紫雾凌寒新星创作者: 人工智能技术领域 2025-10-16 10:02
关注
让 “紫雾凌寒” 来帮你回答,本回答结合 DeepSeek

如果还有问题，请评论或点击头像私信，如果有帮助到您, 请关注、采纳、点赞

关键点分析：
- 自定义评估函数传入trainer中未生效。
- 前向传播评估阶段返回字典且评估函数定义看似没问题。
- trainer.evaluate运行时无报错，但只返回了trainer相关信息（这里推测“traine”可能是“trainer”的错误表述），未执行自定义评估函数。
解决方案：
- 首先，确保评估函数的格式正确。一般来说，评估函数应该接受模型、数据集等参数，并返回一个包含评估指标的字典。例如：

def custom_evaluation_function(model, data_loader): total_loss = 0 correct = 0 total = 0 for batch in data_loader: inputs, labels = batch outputs = model(inputs) loss = criterion(outputs, labels) total_loss += loss.item() _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() accuracy = correct / total return {'loss': total_loss / len(data_loader), 'accuracy': accuracy}

然后，在使用trainer时，将自定义评估函数正确传入。假设使用的是PyTorch Lightning的Trainer，示例如下：

from pytorch_lightning import Trainer from pytorch_lightning.core.lightning import LightningModule class MyModel(LightningModule): def __init__(self): super().__init__() self.model = nn.Sequential( nn.Linear(10, 5), nn.ReLU(), nn.Linear(5, 1) ) self.criterion = nn.MSELoss() def training_step(self, batch, batch_idx): inputs, labels = batch outputs = self.model(inputs) loss = self.criterion(outputs, labels) return loss def configure_optimizers(self): return torch.optim.Adam(self.parameters(), lr = 0.001) def custom_evaluation_function(self, model, data_loader): total_loss = 0 correct = 0 total = 0 for batch in data_loader: inputs, labels = batch outputs = model(inputs) loss = self.criterion(outputs, labels) total_loss += loss.item() _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() accuracy = correct / total return {'loss': total_loss / len(data_loader), 'accuracy': accuracy} def evaluate(self, model, data_loader): return self.custom_evaluation_function(model, data_loader) trainer = Trainer() model = MyModel() trainer.test(model, test_dataloaders = test_loader, ckpt_path = None, verbose = True, test_fn = model.evaluate)

多种解决方案及优缺点：
- 解决方案一：检查评估函数格式
优点：简单直接，能快速定位评估函数本身是否存在格式问题，比如参数个数、返回值类型等。
缺点：如果评估函数代码逻辑复杂，仅通过格式检查可能难以发现深层次的逻辑错误。
解决方案二：调试输出
在评估函数内部添加调试输出语句，比如打印输入数据的形状、中间计算结果等。
优点：可以直观地看到评估函数在运行过程中的数据情况，有助于发现潜在的逻辑错误，如数据不匹配等问题。
缺点：可能会产生大量调试信息，需要仔细分析，增加调试难度。
解决方案三：检查trainer配置
优点：全面检查trainer的配置参数，确保没有其他设置干扰了评估函数的运行。
缺点：需要对trainer的各种配置参数有深入了解，否则可能遗漏重要配置项。

总结：
- 首先要仔细检查自定义评估函数的格式和逻辑是否正确。然后通过调试输出、检查trainer配置等方法来定位问题。确保评估函数返回的是符合要求的字典，并且在传入trainer时正确配置相关参数，这样才能使自定义评估函数在trainer中正常运行。

请注意，上述代码基于PyTorch和PyTorch Lightning，具体实现可能因使用的框架和代码结构不同而有所差异。如果不是使用这两个框架，请根据实际情况调整代码。

希望以上解答对您有所帮助。如果您有任何疑问，欢迎在评论区提出。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

HuggingFace Trainer隐藏技巧：用Callback实现PyTorch Profiler无缝集成
2025-11-06 07:41

dapp9builder的博客本文深入探讨了如何利用...通过创建自定义ProfilerCallback，开发者能在不修改核心训练循环的前提下，对模型训练过程进行高效、无侵入式的性能剖析，精准定位计算与内存瓶颈，从而优化深度学习模型的训练效率。
swift微调多模态大语言模型
2024-05-05 15:50

Kun Li的博客 Qwen1.5微调训练脚本中，我用到了--dataset new_data.jsonl 这个选项，可以训练成功...但是为什么又确实训练成功了呢（至少模型确实学习到了训练资料中的知识） # Experimental environment: A100 # 2*40GB GPU me...
Transformers 4.37 中文文档（八十九）
2024-06-22 15:35

绝不原创的飞龙的博客 LayoutLMv3 通过使用补丁嵌入（如 ViT 中的方式）简化了 LayoutLMv2，并在 3 个目标上对模型进行了预训练：掩码语言建模（MLM）、掩码图像建模（MIM）和单词-补丁对齐（WPA）。论文摘要如下：自监督预训练技术在文档...
如何在verl中加入自定义奖励函数？
2026-01-18 01:57

罗博深的博客本文介绍了如何在星图GPU平台上自动化部署verl...基于该平台，开发者可快速配置并运行verl框架，典型应用于大语言模型的数学推理微调任务，通过规则匹配或工具调用评估生成结果，提升强化学习训练效率与策略准确性。
PEFT微调：在大模型中快速应用 LoRA
2024-09-22 18:02

Hoper.J的博客在线链接：Kaggle | Colab 文章目录 PEFT 和 LoRA 的关系在大模型中应用 LoRA 安装必要的库加载预训练模型应用 LoRA 查看当前模型架构查看增加的参数量理论计算使用 PEFT 查看参数自定义函数查看参数 ...
深度解析：大模型体系下的Transformer与预训练语言模型——系统架构与应用实践
2024-08-15 14:19

大模型玩家的博客这是一个典型的双层LSTM模型，它最大的缺点是必须要顺序地执行，即不能并行化。基于这个缺点，我们是否...首先是输入层(Input Layer)，和RNN中一样，我们需要将文本序列进行词元化(分词)为不同的token，然后通过Input。
DeepSeek 深度强化学习引擎在多智能体系统中的应用实战：策略学习与推理决策融合路径全解
2025-04-24 20:20

观熵的博客 **强化学习（RL）提供了一种策略优化的通用解法，而 DeepSeek 则是多智能体系统中极具代表性的强化学习引擎。** 本篇将以工程实践为核心，解析 DeepSeek 的策略学习架构、训练流程与多 Agent 推理融合方法，讲透...
循环神经网络——动手学深度学习8
2025-07-23 10:18

chxin14016的博客构造特征与标签 # 将时间序列转换为监督学习问题（用前4个点预测第5个点 tau = 4 # 用过去4个时间步预测下一个时间步 features = torch.zeros((T - tau, tau)) # 特征矩阵形状: (996, 4)（总共996个有效样本，每个...
GRPO：Group Relative Policy Optimization
2025-08-21 10:50

Kun Li的博客不管你是AI新手，还是想深入强化学习，这个视频都能让你...在本期视频中，我们深入探讨了 DeepSeek GRPO的核心原理，并结合代码实现，带你一步步理解这一强化学习算法的精髓。从原理到代码，带你掌握DeepSeek GRPO！
深度学习之循环神经网络RNN
2024-10-20 12:27

还不秃顶的计科生的博客深度学习之循环神经网络RNN
多层感知机实现—— 动手学深度学习4.2~4.9
2025-05-19 17:21

chxin14016的博客上层链接：机器学习理论相关 (自用笔记)-CSDN博客
《动手学深度学习》笔记（四）——多层感知机（上）
2025-06-11 19:40

wulitt764的博客本文开始进入真正的深度网络的学习。最简单的深度网络称为多层感知机。多层感知机由多层神经元组成，每一层与它的上一层相连，从中接收输入；同时每一层也与它的下一层相连，影响当前层的神经元。当训练容量较大的...
Transformers 4.37 中文文档（七十三）
2024-06-23 11:49

绝不原创的飞龙的博客 hidden_act (str 或 function，可选，默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持 "gelu", "relu", "selu" 和 "gelu_new"。 hidden_dropout_prob (float，可选，默认...
[课程笔记]（李沐-动手学深度学习）
2022-06-09 11:53

姬霓钛美的博客可以这样来理解向量内积：向量a、b的内积等于向量a在b方向的分量（或投影）与b的内积，当a、b垂直时，a在b方向上无分量，所以内积为0。其他几何意义：从内积数值上我们可以看出两个向量的在方向上的接近程度。当内...
datawhale 8月学习——NLP之Transformers：Transformers解决文本分类任务、超参搜索
2021-08-26 22:02

SheltonXiao的博客包含了来自于23种语言学出版物的10657个句子，并由其原作者专业地注释了可接受性（语法）。公共版本包含 9594 个属于训练和开发集的句子，不包括属于保留测试集的 1063 个句子（测试集不做公开）。可以查看论文。 ...
读书:《深度学习框架PyTorch入门与实践》初注
2023-11-01 17:28

周陽讀書的博客记录读《深度学习框架PyTorch入门与实践》所思所想所惑所得。
【Google Colab】利用unsloth针对医疗数据集进行大语言模型的快速微调（含跑通原代码）
2025-04-27 15:27

hellenionia的博客 GGUF，全称是 GPT-Generated Unified Format（GPT 生成的统一格式），是一种专门为存储和部署大型语言模型（LLM）设计的文件格式。接着，明确指令，设定模型的角色和任务；然后，写一个函数 formatting_prompts_func...
动手学深度学习v2 p2 线性神经网络线性回归 softmax回归
2023-07-17 00:28

O丶ne丨柒夜的博客在机器学习领域中的大多数任务通常都与预测（prediction）有关。当我们想预测一个数值时，就会涉及到回归问题。常见的例子包括：预测价格（房屋、股票等）、预测住院时间（针对住院病人等）、预测需求（零售销量等...
HW8-补充1：在大模型中快速应用 LoRA
2024-12-07 19:57

笨笨sg的博客 HW8-补充1：在大模型中快速应用 LoRA
动手学深度学习笔记第四章（多层感知器）
2023-01-13 21:47

冬青庭院的博客深度学习知识
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月16日

无监督学习评估函数传入trainer中失效

4条回答 默认 最新

问题事件

4条回答默认最新