多模态评测:图文模型要分别测感知和推理
一、图文回答错了,不一定是推理错
多模态模型回答问题时,错误可能来自两个层面:感知错了,或者推理错了。比如图里有 3 个红色方块,模型说有 4 个,这是视觉感知问题;模型看对了元素,但推不出关系,这是推理问题。如果评测只看最终答案,就不知道应该优化 OCR、视觉编码、Prompt 还是推理链。
因此多模态评测要拆开看:模型是否看见了正确对象,是否读对了文字,是否理解空间关系,是否能基于图像做推理。图文模型不是把图片交给语言模型那么简单,评测也不能只用一组综合分。
二、评测链路:感知、对齐、推理分层
flowchart TD A[图像输入] --> B[对象识别] A --> C[文字 OCR] B --> D[图文对齐] C --> D D --> E[推理回答] E --> F[指标评估]对象识别可以测试颜色、数量、类别和位置。OCR 可以测试文本内容、表格和手写字体。图文对齐可以测试“左边的按钮是什么颜色”。推理问题则包括比较、因果、步骤判断和安全决策。不同任务要分别统计。
评测集要有难度分层。简单图片、遮挡图片、低清晰度图片、含文字截图、复杂 UI 截图,模型表现差异很大。只用干净样本评测,线上遇到截图和拍照时会翻车。
三、样本结构:标注要说明能力点
下面是一条评测样本示例。
{ "image_id": "ui_1024", "question": "截图中右上角的按钮文案是什么?", "answer": "导出", "skill": "ocr_and_spatial_grounding", "difficulty": "medium" }skill字段能帮助分析结果。若 OCR 类问题整体差,可能需要更清晰的图像预处理或更适合截图的模型;若空间定位类问题差,Prompt 中可以要求先描述区域再回答。没有能力点标注,分数下降时很难定位。
还要记录模型拒答。图片模糊或信息不足时,模型应该承认无法判断。多模态模型很容易自信编答案,评测集中必须包含不可判定样本。
四、工程注意:输入预处理也会影响结果
图像尺寸、压缩质量、裁剪方式和旋转方向都会影响模型表现。评测时要固定预处理流程,并记录版本。否则换一个图片压缩参数,结果可能就变了。多模态评测里的“数据管线”很重要。
对于 UI 截图类任务,可以加入元素检测或 OCR 预处理,把结构化信息和图片一起提供。纯视觉模型未必是最优方案。工程落地追求可靠,不追求单模型信仰。
最后,人工复核不可少。模型辅助评测可以提速,但多模态答案的细微错误很多,尤其是空间关系和文字识别。抽样人工复核能发现评测器本身的问题。
多模态评测还要记录输入尺寸和裁剪策略。一个 UI 截图被压缩到低分辨率后,按钮文字可能已经不可读;模型答错不是能力差,而是输入被处理坏了。评测报告里写清图像预处理,才能让结果可复现。
对于安全场景,例如识别危险物品、审核证件或判断医疗图像,不能只依赖通用图文模型。需要领域数据、专家标注和更严格阈值。多模态越接近现实世界,越要尊重误判成本。
评测报告中建议展示错误案例,而不是只展示分数。挑出感知错误、OCR 错误、空间关系错误和推理错误各几例,团队会更容易理解模型短板。多模态问题往往一眼能看出错因,别把所有洞察都压成表格。
如果模型用于 UI 自动化,还要测试动态状态。加载中、弹窗遮挡、滚动后内容变化,都可能让图文理解失效。静态截图通过,不代表真实交互可用。
五、总结
多模态评测要拆分感知、OCR、图文对齐和推理能力。样本要标注能力点和难度,预处理要固定,拒答样本要覆盖。最终答案错了只是表象,分层评测才能知道模型到底错在哪里。