【港科大-郑自强组-arXiv25】MarineEval: 评估视觉语言模型的海洋智能能力-洪萨配资

文章：MarineEval: Assessing the Marine Intelligence of Vision-Language Models

代码：http://marineeval.hkustvgd.com/

单位：香港中文大学

一、首个海洋领域AI测评基准诞生！现有视觉语言模型在海洋理解上竟如此“外行”

海洋覆盖地球71%的表面积，是生态保护、气候调节的核心载体，而海洋研究却受限于观测难度高、成本大等问题。近年来，视觉语言模型（VLMs）在通用场景中表现亮眼，既能看懂图像又能理解文字，已成功应用于医疗分析、科学研究等领域。但这些“全能助手”面对海洋领域的专业需求时，是否还能胜任？比如识别水下生物物种、判断珊瑚礁健康状况、解读海洋科考文献等，都需要专属的海洋知识和应对水下视觉环境的能力。遗憾的是，此前没有专门的测评工具来检验VLMs的海洋领域实力，通用测评无法贴合海洋研究的特殊需求，这也成为制约AI助力海洋科学发展的关键瓶颈。

二、方法创新：打造首个海洋专属AI测评基准MarineEval

为填补这一空白，香港科技大学团队推出了全球首个大规模海洋领域VLMs测评数据集与基准——MarineEval，核心创新点十足：

多维度覆盖：包含2000个高质量图像问答对，涵盖7大任务维度（物种识别、行为特征提取、文献解读、保护与威胁分析、空间推理、海洋技术理解、抗幻觉能力）和20个细分能力维度，全面覆盖海洋研究核心需求。
严格数据构建：通过三步流程保障数据质量，先从公开数据集、科研论文、权威网页等多渠道收集素材，再经“视觉必要性测试”剔除无需图像即可回答的问题（避免知识泄露），最后由海洋领域专家验证答案准确性。
多样化提问形式：设计了是非题、选择题、定位题、封闭式问答、总结题五种题型，从基础判断到复杂推理，全方位考验模型的海洋视觉语言理解能力。
客观评估体系：采用“正确/错误”二元判断标准，避免主观评分偏差；对开放式回答，引入3个强大LLM进行语义匹配评估，与人类标注一致性达95.4%，兼顾效率与可靠性。

三、实验结果：现有顶尖AI表现堪忧，存在明显短板

研究团队对17个主流VLMs（包括12个开源模型和5个闭源模型如GPT-4o-Vision、Claude-3.7-Sonnet-Vision等）进行了全面测评，结果超出预期：

整体表现不佳：最佳模型总准确率仅55.07%，开源模型平均准确率39.17%，闭源模型平均准确率48.08%，远低于海洋背景人类66.35%的准确率。
核心短板突出：空间推理和物种识别是所有模型的“重灾区”，平均准确率分别仅21.23%和30.27%，主要因模型缺乏海洋专属知识和通用空间理解能力不足；生态保护与威胁分析任务表现也较差，反映出模型对罕见生态现象和专业保护知识的覆盖不足。
模型规模≠性能：40亿参数的InternVL-2.5性能超过多个参数翻倍的模型，甚至在多个维度超越闭源模型，说明架构设计、视觉编码器质量和训练策略比单纯扩大参数更重要。

四、优势与局限

优势

专业性强：首次将海洋领域特殊需求融入测评，问题聚焦海洋专属知识（如物种分类、IUCN保护等级）和水下视觉特点（低对比度、运动模糊、复杂栖息地），测评更具针对性。
实用性高：兼顾封闭式和开放式问题，贴合真实海洋研究场景，可为科研人员筛选可靠模型提供直接参考。
可靠性足：经视觉必要性测试和专家验证，数据无明显知识泄露；评估体系稳定，重复测评结果一致性高。

局限

存在数据污染风险：部分测评数据来自公开渠道，可能与部分VLMs的训练数据重叠，可能影响评估公平性。
视觉场景覆盖有限：虽包含水下、卫星等图像，但海洋环境复杂多样，后续仍需扩充更多极端场景（如深海、极地海洋）的数据。
未涉及动态视频场景：当前仅基于静态图像测评，而海洋研究中常需分析视频数据（如鱼类行为跟踪），这一维度尚未覆盖。

五、一句话总结

MarineEval的推出首次揭开了现有VLMs在海洋领域的能力短板，证明通用AI离成为海洋研究“专业助手”还有很大差距，同时也为未来针对性优化模型、推动AI助力海洋保护与科学研究提供了关键测评工具。

Hunyuan-MT-7B显存溢出？量化压缩部署实战解决方案

Hunyuan-MT-7B显存溢出？量化压缩部署实战解决方案 1. 为什么你的Hunyuan-MT-7B跑不起来？ 你是不是也遇到过这种情况：满怀期待地部署了腾讯混元开源的最强翻译模型 Hunyuan-MT-7B，刚一启动就提示“CUDA out of memory”&#xff…

李华

5分钟部署Qwen-Image-2512-ComfyUI，AI去水印一键搞定

5分钟部署Qwen-Image-2512-ComfyUI，AI去水印一键搞定你是否也遇到过这样的场景：手头有一批商品图、宣传图或用户投稿图片，但每张都带着烦人的水印？用Photoshop手动修图效率低，外包处理成本高，而市面上大多…

李华

FSMN VAD嵌入式设备可行性：树莓派部署设想

FSMN VAD嵌入式设备可行性：树莓派部署设想 1. 为什么是FSMN VAD？轻量、精准、开箱即用的语音检测方案语音活动检测（VAD）不是新概念，但真正能在资源受限设备上跑得稳、判得准、启得快的模型并不多。阿里达摩院FunASR…

李华

地址别名识别能力测试：MGeo对‘朝阳医院’vs‘朝医’的判断

地址别名识别能力测试：MGeo对‘朝阳医院’vs‘朝医’的判断 1. 引言：为什么地址别名识别如此关键？ 你有没有遇到过这种情况：用户在App里输入“朝医”，系统却找不到对应的“朝阳医院”？或者两个系统对接时…

李华

企业级应用：FSMN-VAD支撑高并发语音处理需求

企业级应用：FSMN-VAD支撑高并发语音处理需求在智能语音系统日益普及的今天，企业面对大量录音数据时常常面临一个共性难题：如何从长时间的音频中精准提取有效语音片段？传统人工切分效率低、成本高，而通用降噪工具又难…

李华

YOLO11教育应用案例：实验教学平台搭建教程

YOLO11教育应用案例：实验教学平台搭建教程 YOLO11 是新一代目标检测算法的代表，延续了YOLO系列“实时、高效、精准”的核心优势，同时在模型结构、特征提取能力和小目标识别上进行了显著优化。相比前代版本，它在保持高速推理能力的…

李华