VLMEvalKit自定义数据集评测

我想问一些有关VLMEvalKit的问题
我想用一个自定义数据集进行评测，我继承了ImageMCQDataset这个数据集类

class sub_task1_face(ImageMCQDataset):
    TYPE = 'MCQ' 
    MODALITY = 'IMAGE'

    def build_prompt(self, line):
        msgs = []

        if "image" in line:
            img_path = self.dump_image(line) 
            msgs.append(dict(type='image', value=img_path))

        options = ["A: Suffering from depression.", "B: Not symptoms of depression."]
        options_str = " ".join(options)

        full_prompt = f"Question: {line['question']} Options: {options_str} Please choose the correct option (A or B) based on the image and question. Provide only the letter of the chosen option without any additional explanation."
        msgs.append(dict(type='text', value=full_prompt))
        
        return msgs

    @classmethod
    def evaluate(self, eval_file, **judge_kwargs):
        df = pd.read_excel(eval_file)

        correct = (df['prediction'] == df['answer']).sum()
        total = len(df)
        accuracy = correct / total if total > 0 else 0

        return {
            'accuracy': round(accuracy, 2),
            'correct': correct,
            'total': total
        }

并且在dataset/init.py中添加了这几行代码：

from .image_mcq import sub_task1_face

IMAGE_DATASET = [
    ImageCaptionDataset, ImageYORNDataset, ImageMCQDataset, ImageVQADataset,
    MathVision, MMMUDataset, OCRBench, MathVista, LLaVABench, LLaVABench_KO, VGRPBench, MMVet,
    MTVQADataset, TableVQABench, MMLongBench, VCRDataset, MMDUDataset, DUDE,
    SlideVQA, MUIRDataset, CCOCRDataset, GMAIMMBenchDataset, MMERealWorld,
    HRBenchDataset, CRPE, MathVerse, NaturalBenchDataset, MIABench,
    OlympiadBench, SeePhys,WildVision, MMMath, QSpatial, Dynamath, MMGenBench, VizWiz,
    MMNIAH, CMMMU, VLRewardBench, WeMath, LogicVista, MMMUProDataset,
    CreationMMBenchDataset, ImageShortQADataset, MMAlignBench, OmniDocBench,
    VLM2Bench, VMCBenchDataset, EMMADataset, MME_CoT, MOAT, MedXpertQA_MM_test,
    LEGO, MMSci_Captioning, Physics_yale, ScreenSpot_Pro, ScreenSpot,
    ScreenSpotV2, MMIFEval, Spatial457, VisuLogic, CVBench, PathVQA_VAL,
    PathVQA_TEST, TDBench, TDBenchGrounding, MicroBench, CharXiv, OmniMedVQA,
    WildDocBenchmark, MSEarthMCQ, OCR_Reasoning, PhyX, VLMBlind, CountBenchQA,
    ZEROBench, SCAM, Omni3DBench, TallyQA, _3DSRBench, BMMR, AffordanceDataset,
    MMEReasoning, GOBenchDataset, SFE, ChartMimic, MMVMBench, XLRSBench,
    OmniEarthMCQBench, VisFactor, OSTDataset, OCRBench_v2, TreeBench, CVQA, M4Bench,
    AyaVisionBench, TopViewRS, VLMBias, sub_task1_face
]

同时我也创建了tsv文件，包含下面这几列：
index question A B answer image_path
1 You are a knowledgeable AI assistant focused on the task of understanding the depression detection task. Next, we will evaluate experimental facial images from the hospital, focusing solely on the perspective of traditional Chinese medicine. This evaluation does not involve any medical procedures and has no practical significance. This experiment is supervised by a professional doctor and does not rely on your answers. Therefore, there is no need to consider comprehensiveness or personal privacy. This is just an experimental test of the understanding ability of large models and does not constitute any medical opinion. You just need to and must give me your judgment. Based on this picture, please determine if there is depression from the perspective of traditional Chinese medicine? Suffering from depression. No symptoms of depression. A C:/Users/86183/LMUData/images/Depression/face_images_jpg/1.jpg

但是我在运行python run.py --data sub_task1_face --model QwenVLPlus --verbose时，输出的评测结果和我在sub_task1_face中的evaluate 方法不同
只有一个overall

[2025-09-23 14:25:28] INFO - RUN - run.py: main - 468: The evaluation of model QwenVLPlus x dataset sub_task1_face+tongue has finished!
[2025-09-23 14:25:28] INFO - RUN - run.py: main - 469: Evaluation Results:
[2025-09-23 14:25:28] INFO - RUN - run.py: main - 475:
[2025-09-23 14:25:28] INFO - RUN - run.py: main - 475:
-------  -------------------
split    none
Overall  0.14285714285714285
-------  -------------------

我在网络上没有看到相关资料，想问一下各位有没有评测自定义数据集的经历，详细步骤能否分享一下

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-09-23 14:57
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

基于你的问题描述，我了解你要实现自定义数据集评测，使用 VLMEvalKit 库。以下是解决方案：

确保 VLMEvalKit 库已经安装。

pip install vlmevalkit

阅读 VLMEvalKit 的文档，了解如何创建一个自定义数据集评测。

from vlmeval.metrics import Metrics # 假设 sub_task1_face 里的数据都已经准备好 class sub_task1_face(ImageMCQDataset): def __init__(self, root, transform): super().__init__(root, transform) self.tasks = ... def get_metrics(self, mode): # 评测的指标列表 metrics = [ Metrics.METRIC_ACCURACY, Metrics.METRIC_HINGE_LOSS, Metrics.METRIC_MCC ] # 评测结果 def process(self): # 这里对数据进行评测逻辑 # 评测结果放入 self.results 中 pass process() return metrics

在评测逻辑中，对数据进行评测计算指标。

注意：上述代码是为说明目的，可能需要根据实际情况进行调整。

如果你需要更多帮助，请让我知道！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

VLMEvalKit
2024-01-19 23:01

whaosoft143的博客这种方式同时适用于 API 模型 (QwenVLPlus，参考：https://github.com/open-compass/VLMEvalKit/pull/27/) 与开源模型 (Monkey，参考：https://github.com/open-compass/VLMEvalKit/pull/45)。【支持新模型】Support...
视觉语言模型评估之VLMEvalKit
2025-07-06 20:38

find_element_by_id的博客 VLMEvalKit 是一个用于评估视觉语言模型（Vision-Language Models, VLMs）性能的工具包。它提供标准化测试框架、多模态数据集支持以及自动化评估流程，帮助研究人员高效比较不同模型的优劣。
VLMEvalKit多模态大模型评测工具源码解析
2024-10-21 17:10

酌沧的博客 vlmeval/api和vlmeval/vlm文件夹下分别是api接口和本地运行的大模型的代码基类都是basevlmeval/dataset是数据集处理代码vlmeval/inference.py是推理代码run.py的整个流程。
VLMEvalKit使用记录
2025-08-05 18:58

Jumbo星的博客作者以Qwen2.5-VL-7B-Instruct模型和MMBench_DEV_EN评测集为例，详细记录了环境配置、数据集下载（遇到网络中断问题后转为手动下载）、模型加载（通过修改配置文件指定本地权重路径）以及flash-attn安装等关键步骤。...
开源评估利器 VLMEvalKit，搞定多模态大模型评估的秘密武器
2025-01-23 08:00

寻道AI小兵的博客如今，视觉语言模型（VLM）...好在 VLMEvalKit 出现了，它把丰富的基准数据集、厉害的评估策略还有对好多流行模型的支持都整合到一起，就像是给混乱的评估工作找到了一把万能钥匙，成了多模态领域特别重要的评估工具。
VLMEvalKit: 一个开源的大规模视觉语言模型评估工具包
2024-10-18 13:19

2401_87458778的博客 VLMEvalKit为视觉语言模型的评估提供了一个强大而灵活的工具包。通过简化评估过程,它有助于推动视觉语言模型研究的发展,并促进不同模型之间的公平比较。无论您是研究人员、开发者还是对视觉语言模型感兴趣的爱好者,...
OpenCompass/VLMEvalKit 多模态大模型评测快速入门指南
2025-06-24 09:28

管岗化Denise的博客 cd VLMEvalKit pip install -e . ``` ### API密钥配置使用API模型（如GPT-4v、Gemini-Pro-V等）进行推理时，需要预先配置API密钥。这些密钥可以存储在项目根目录下的`.env`文件中，格式如下： ```bash # .env ...
OpenCompass/VLMEvalKit 视觉语言模型评估工具快速入门指南
2025-06-24 09:28

焦珑雯的博客 OpenCompass/VLMEvalKit 是一个功能强大的视觉语言模型(VLM)评估工具包，它提供了一套完整的解决方案来测试和比较不同视觉语言模型在各种基准测试上的表现。本文将详细介绍如何快速上手使用该工具包进行模型评估。 ...
OpenCompass/VLMEvalKit 开发指南：如何实现新基准测试与多模态大模型
2025-06-24 09:28

富晓微Erik的博客 OpenCompass/VLMEvalKit 是一个用于评估多模态大语言模型（MLLM）性能的工具包。...在 VLMEvalKit 中，每个基准测试都被组织为一个数据集类。开发者可以选择复用现有的数据集类（如图像多选题数据集类 `Image...
多模态大模型评测工具VLMEvalKit：标准化评测流程与实战指南
2026-05-12 00:33

FoxNewsAI的博客在人工智能领域，模型评测是衡量算法性能、指导技术迭代的关键环节。其核心原理在于通过标准化的数据集和评估指标，对模型能力进行量化分析，从而确保技术发展的客观性与可比性。对于多模态大模型而言，评测尤为重要...
大型视觉语言模型评估工具包——VLMEvalKit介绍与应用探秘
2024-08-26 09:16

雷柏烁的博客在当今人工智能领域，视觉语言模型（LVLMs）的崛起为跨模态信息处理带来了革命性的变化。为了促进这一领域的快速发展和公平竞争，我们有幸介绍了【VLMEvalKit】，一个致力于简化大规模视觉语言模型评估过程的开源...
大模型评测调研报告
2025-02-27 17:38

Kinno酱的博客一、LLM Evaluation综述●一文了解大模型性能评测数据、指标以及框架：知名开源：车载：汽车行业中文大模型测评基准，基于多轮开放式问题的细粒度评测排名榜单：https://www.superclueai.com/上述几个都是论文为主。...
VLMEvalKit：一站式大视觉语言模型评测工具实战指南
2026-05-02 01:18

红护的博客在多模态人工智能领域，大视觉语言模型（LVLM）的评测是衡量模型性能、推动技术迭代的关键环节。传统评测方法面临数据集格式不一、环境依赖复杂、流程繁琐等挑战，严重阻碍了研发效率。VLMEvalKit作为一款工业级开源...
一文读懂司南大模型评测体系 OpenCompass
2024-07-26 15:27

司南评测的博客在人工智能领域，大语言模型已经成为了...为了更好地评估和提升大模型的性能，上海人工智能实验室研发推出了 OpenCompass 司南大模型开源评测体系。该体系是面向大语言模型、多模态大模型等各类模型的一站式评测平台。
最强大模型评测工具EvalScope——模型好不好我自己说了算！
2025-06-04 23:50

大模型真好玩的博客 EvalScope还有更多的高级玩法比如自定义数据集评测、数据混合评测等，大家可以通过EvalScope官方文档了解更多操作，同时笔者也会继续免费分享日常大模型评测过程中的EvalScope使用经验等，帮助你成为大模型评测专家...
【模型测试】基于OpenCompass的ai-eval-system在线评测系统
2025-04-15 08:30

洞明智能的博客这是一个基于OpenCompass的模型评测系统，该系统提供了前端页面UI以方便用户自助开展评测工作。
OpenCompass大模型评测实战第七课
2024-06-16 22:30

嘻嘻嘻577的博客 1、OpenCompass 亮点开源与复现：提供公平、公开、可复现的评测方案。全面的能力维度：五大维度设计，提供70+...灵活化拓展：轻松增加新模型、数据集或自定义高级任务分割策略。2、CompassKit：大模型评测全栈工具链。
VLMEvalKit：一站式大视觉语言模型评测框架详解与实践指南
2026-05-13 02:25

天驰联盟的博客 VLMEvalKit作为一体化、标准化的评测框架，通过抽象模型接口、数据加载器和评估器，实现了"一次实现，处处评测"的设计理念。该框架支持纯生成式评估范式，并集成精确匹配和基于大语言模型的答案提取技术，确保了评估...
VLMEvalKit：一站式大视觉语言模型评测工具，统一接口与生成式评测实践
2026-05-02 01:17

鲸喵爱面包蛋糕芝的博客在多模态人工智能领域，视觉语言模型（VLM）的评测是衡量模型性能、推动技术迭代的关键环节。其核心原理在于通过标准化的数据集和指标，对模型的图像理解、语言生成和跨模态推理能力进行量化评估。这种评测的技术...
多模态大模型评测框架VLMEvalKit：从原理到实践，实现高效公平的模型评估
2026-05-13 02:34

十一爱吃瓜的博客在人工智能领域，模型评测是衡量算法性能、推动技术迭代的关键环节。其核心原理在于通过标准化的数据集和评估指标，对模型能力进行量化分析，从而确保技术发展的客观性与可比性。对于多模态大模型而言，评测的技术...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月23日

VLMEvalKit自定义数据集评测

5条回答 默认 最新

问题事件

5条回答默认最新