news 2026/6/9 23:24:46

MMMU多模态基准测试项目:从安装到评估的完整指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MMMU多模态基准测试项目:从安装到评估的完整指南

MMMU多模态基准测试项目:从安装到评估的完整指南

【免费下载链接】MMMUThis repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"项目地址: https://gitcode.com/gh_mirrors/mm/MMMU

MMMU(Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI)是一个专门用于评估多模态模型在多学科任务中理解和推理能力的大型基准测试项目。该项目包含来自大学考试、测验和教科书的11,500个精心收集的多模态问题,覆盖艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科领域。MMMU旨在挑战模型在具有领域特定知识的任务中的高级感知和推理能力,推动下一代多模态基础模型的发展。

项目核心价值与特点

MMMU项目的主要特点体现在其全面性和挑战性上。该基准测试涵盖30个主要学科和183个子领域,包含32种高度异构的图像类型,如图表、图解、地图、表格、乐谱和化学结构等。与现有基准测试相比,MMMU专注于具有领域特定知识的高级感知和推理,挑战模型执行类似于专家面临的任务。

环境配置与项目安装

在开始使用MMMU项目之前,需要确保系统满足以下环境要求:

  • 操作系统:Linux或macOS(推荐Ubuntu 20.04或更高版本)
  • Python版本:Python 3.8或更高版本
  • 依赖管理:建议使用虚拟环境管理项目依赖

环境配置步骤

  1. 安装Python 3.8

    sudo apt update sudo apt install python3.8
  2. 安装pip包管理器

    sudo apt install python3-pip
  3. 创建虚拟环境

    python3 -m venv mmmu_env source mmmu_env/bin/activate

项目安装流程

首先克隆项目仓库到本地:

git clone https://gitcode.com/gh_mirrors/mm/MMMU cd MMMU

然后安装项目依赖:

pip install -r requirements.txt

MMMU-Pro增强版本介绍

MMMU-Pro是基于MMMU的增强版本,引入了更严格的评估方法来评估多模态模型的内在理解和推理能力。MMMU-Pro采用精心构建的三步流程:

  1. 过滤纯文本可回答的问题:确保问题真正需要多模态理解
  2. 增强候选选项:引入更多合理选项使任务更具挑战性
  3. 仅视觉输入设置:将问题嵌入图像中,推动AI同时"看"和"读"

核心脚本功能介绍

评估脚本详解

MMMU项目提供了多个核心评估脚本,每个脚本都有特定的功能:

  • main_eval_only.py:仅进行模型输出评估
  • main_parse_and_eval.py:解析响应并进行评估
  • run_llava.py:运行LLaVA模型的示例脚本

数据预处理工具

项目中的data_utils.py提供了丰富的数据处理功能:

  • save_json:保存JSON格式数据
  • get_multi_choice_info:处理多选题信息
  • construct_prompt:构建模型提示

模型评估实战操作

仅评估模式使用

如果你只想使用自己的解析逻辑并仅提供最终答案,可以使用main_eval_only.py

python main_eval_only.py --output_path ./example_outputs/llava1.5_13b/total_val_output.json

输出文件格式要求:

{ "validation_Accounting_1": "D", "validation_Architecture_and_Engineering_14": "0.0" }

解析与评估完整流程

使用main_parse_and_eval.py可以利用项目的完整解析处理和评估管道:

python main_parse_and_eval.py --path ./example_outputs/llava1.5_13b --subject ALL

或者指定特定学科进行评估:

python main_parse_and_eval.py --path ./example_outputs/llava1.5_13b --subject elec

结果展示与统计

项目提供了专门的结果打印脚本:

python print_results.py --path ./example_outputs/llava1.5_13b

MMMU-Pro评估实战

模型推理配置

MMMU-Pro提供了多种推理脚本,支持不同的模型和设置:

cd mmmu-pro python infer/infer_gpt.py gpt-4o cot vision
  • 模型名称:如gpt-4o
  • 提示模式cot(思维链)或direct(直接回答)
  • 推理设置standard(10 options)standard(4 options)vision

评估执行流程

进入MMMU-Pro目录运行评估:

cd mmmu-pro python evaluate.py

评估脚本将:

  • ./output目录加载推理结果
  • 在控制台生成并显示评估报告
  • 将评估报告保存到./output目录

常见问题与解决方案

标准设置中的选项顺序问题

标准(10选项)设置中,多选题选项会被打乱顺序,这意味着<image i>标记在选项列表中的顺序可能不遵循数据集中image_i键的顺序序列。例如,一个问题可能具有以下选项顺序:

options: ['<image 2>', '<image 1>', '<image 4>', '<image 3>']

项目目录结构解析

MMMU/ ├── mmmu/ # 原始MMMU评估代码 │ ├── configs/ # 配置文件 │ ├── example_outputs/ # 示例输出 │ └── utils/ # 工具函数 └── mmmu-pro/ # MMMU-Pro增强版本 ├── infer/ # 推理脚本 └── output/ # 输出结果

实用技巧与最佳实践

  1. 开发集使用:用于少样本/上下文学习
  2. 验证集使用:用于调试模型、选择超参数和快速评估
  3. 测试集提交:测试集问题的答案和解释被保留,你可以在EvalAI上提交模型的预测结果

通过本指南,你可以全面了解MMMU多模态基准测试项目的安装、配置和评估流程。该项目为多模态AI研究提供了重要的评估基准,帮助开发者和研究人员更好地理解和改进多模态模型的性能。

【免费下载链接】MMMUThis repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"项目地址: https://gitcode.com/gh_mirrors/mm/MMMU

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 18:44:19

Arduino下载安装教程:解决Windows兼容性问题的操作指南

Arduino下载安装全攻略&#xff1a;手把手教你搞定Windows下的驱动与环境配置 你是不是也经历过这样的场景&#xff1f; 刚拿到一块Arduino Nano板子&#xff0c;兴冲冲地插上电脑&#xff0c;打开IDE准备上传第一个“Blink”程序——结果发现 设备管理器里一片红叉 &#…

作者头像 李华
网站建设 2026/6/9 20:57:50

小红书视频下载神器:3步搞定无水印批量下载完整指南

小红书视频下载神器&#xff1a;3步搞定无水印批量下载完整指南 【免费下载链接】XHS-Downloader 免费&#xff1b;轻量&#xff1b;开源&#xff0c;基于 AIOHTTP 模块实现的小红书图文/视频作品采集工具 项目地址: https://gitcode.com/gh_mirrors/xh/XHS-Downloader …

作者头像 李华
网站建设 2026/6/8 14:41:01

AI书法设计终极指南:深度学习如何重塑中文艺术创作

AI书法设计终极指南&#xff1a;深度学习如何重塑中文艺术创作 【免费下载链接】Rewrite Neural Style Transfer For Chinese Characters 项目地址: https://gitcode.com/gh_mirrors/rewr/Rewrite 当传统书法艺术遇见深度学习技术&#xff0c;会碰撞出怎样的创新火花&am…

作者头像 李华
网站建设 2026/6/9 19:42:14

BongoCat窗口透明度配置的技术实现与优化策略

BongoCat窗口透明度配置的技术实现与优化策略 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作&#xff0c;每一次输入都充满趣味与活力&#xff01; 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 引言 BongoCat作为一款桌面…

作者头像 李华
网站建设 2026/6/9 18:41:24

LocalAI终极指南:解锁全栈本地化AI部署的完整方案

LocalAI终极指南&#xff1a;解锁全栈本地化AI部署的完整方案 【免费下载链接】LocalAI 项目地址: https://gitcode.com/gh_mirrors/loc/LocalAI 在人工智能快速发展的今天&#xff0c;LocalAI项目为开发者提供了一个革命性的本地AI部署框架。这个开源工具通过模块化架…

作者头像 李华
网站建设 2026/6/8 15:52:44

LocalAI技术深度解析:开源AI的分布式革命与多模态突破

LocalAI技术深度解析&#xff1a;开源AI的分布式革命与多模态突破 【免费下载链接】LocalAI 项目地址: https://gitcode.com/gh_mirrors/loc/LocalAI 在人工智能技术快速发展的今天&#xff0c;开源AI项目LocalAI正以其创新的技术架构和强大的功能特性&#xff0c;重新…

作者头像 李华