news 2026/6/8 21:38:12

【山东大学-丛润民组-AAAI26】通过对齐器和提示器增强DINO表征用于水下实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【山东大学-丛润民组-AAAI26】通过对齐器和提示器增强DINO表征用于水下实例分割

文章:Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter

代码:https://github.com/ettof/Diveseg

单位:山东大学


一、问题背景:水下场景的AI“识别困境”

水下成像远比陆地复杂:光线被水吸收散射导致颜色失真(多偏蓝绿)、对比度低、能见度有限,再加上鱼群重叠、珊瑚密集等情况,传统技术很难精准分割目标。

此前的解决方案主要有两类短板:

  1. 传统卷积神经网络(CNN):能力有限,面对水下复杂场景时分割精度差,边界模糊;

  2. 现有视觉基础模型(如SAM):虽有强大泛化能力,但需要海量水下标注数据适配,且对水下高目标密度、视觉多变性的适配不足,性能提升有限。

而DINOv2这类先进的自监督视觉模型,虽在自然图像任务中表现出色,但因“领域差异过大”(没见过多少水下场景),直接套用会受背景噪声干扰,甚至漏检目标。如何让DINOv2“读懂”水下世界,成为关键突破口。

二、方法创新:两大核心模块破解适配难题

山东大学团队提出的DiveSeg框架,以DINOv2为基础,通过两个“专属工具”实现精准适配,整体架构简洁高效:

1. AquaStyle Aligner(水下风格对齐器):解决“颜色失真”问题

水下图片和自然图片的核心差异是颜色风格,这个模块专门负责“校准”这种差异:

  • 先通过傅里叶分解技术,提取水下图片的颜色风格特征(保留频率域的振幅信息,固定平均相位),过滤掉物体本身的干扰,只保留水下独有的色调特性;

  • 再通过跨注意力机制,将提取的风格特征注入DINOv2模型,用少量参数微调就让模型快速适应水下视觉风格,避免颜色失真导致的识别偏差。

2. ObjectPrior Prompter(目标先验提示器):解决“物体难寻”问题

DINOv2没见过太多水下特有物体(如珊瑚、水母),直接识别难度大。这个模块相当于给AI“划重点”:

  • 先生成一张“黑白掩码图”,用简单的二进制标记(黑色=背景,白色=物体)告诉模型“哪里有物体”;

  • 再将这张掩码图作为“提示信号”,通过跨注意力机制引导DINOv2聚焦目标区域,先学会区分“物体和背景”,再细分手下每个实例,大大降低学习难度。

两个模块协同工作,既让模型适应了水下的“视觉风格”,又帮模型找准了“关注重点”,完美解决了DINOv2的水下适配问题。

三、实验结果:双数据集刷新SOTA,性能全面领先

团队在UIIS和USIS10K两大主流水下实例分割数据集上做了全面测试,结果堪称“碾压级”:

1. 定量指标(核心性能参数)

2. 定性效果(视觉层面)

四、优势与局限

核心优势

  1. 性能顶尖:目前在两大数据集上都是最优表现,分割精度和边界准确性远超现有方法;

  2. 效率很高:仅用少量参数微调(DINOv2主干冻结),参数量比同类模型少40%以上,运行更高效;

  3. 通用性强:适配水下多种场景(海洋勘探、生态监测),支持7类常见水下物体识别。

现存局限

  1. 对极深水域、极低能见度的图片适配效果有待验证(现有数据集未覆盖此类极端场景);

  2. 依赖二进制掩码图作为提示,若掩码生成不准确,可能影响最终分割效果;

  3. 暂未支持实时视频分割,在水下机器人实时作业场景的应用还需优化。

五、一句话总结

DiveSeg框架首次将DINOv2模型成功应用于水下实例分割,通过风格对齐和目标提示两大创新,用更少参数实现了更高精度的分割效果,为海洋资源勘探、水下机器人作业等场景提供了更可靠的AI视觉解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 15:37:16

Docker镜像源配置技巧:提升gpt-oss-20b镜像拉取速度

Docker镜像源配置技巧:提升gpt-oss-20b镜像拉取速度 在大模型落地日益频繁的今天,一个现实问题正困扰着不少开发者——明明手握强大的开源模型,却卡在了最基础的一环:怎么把镜像快速、稳定地拉下来? 以 gpt-oss-20b …

作者头像 李华
网站建设 2026/6/8 5:44:30

Kotaemon开源项目Star破千:社区贡献者分享最佳实践

Kotaemon开源项目Star破千:社区贡献者分享最佳实践 在企业智能化转型的浪潮中,越来越多团队开始尝试将大语言模型(LLM)引入客服、知识管理与办公自动化场景。然而,现实很快泼了一盆冷水:尽管模型能“侃侃而…

作者头像 李华
网站建设 2026/6/8 15:04:04

SpringBoot+Vue 高校教师教研信息填报系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

摘要 随着教育信息化的快速发展,高校教师教研信息的管理与填报需求日益增长。传统的手工填报方式效率低下,数据易丢失且难以统计分析,亟需一套高效、便捷的数字化解决方案。高校教师教研信息填报系统旨在通过信息化手段优化教师教研数据的采集…

作者头像 李华
网站建设 2026/6/9 7:19:20

Trae、MCJS开发者注意!Kotaemon提供轻量级Agent集成路径

Trae、MCJS开发者注意!Kotaemon提供轻量级Agent集成路径 在企业数字化转型加速的今天,智能客服早已不再是“问一句答一句”的简单问答系统。越来越多业务场景要求AI助手能理解上下文、调用后台服务、执行具体任务——比如查订单、退换货、甚至自动创建工…

作者头像 李华
网站建设 2026/6/8 5:44:07

ComfyUI与Python安装版本兼容性全解析

ComfyUI与Python安装版本兼容性全解析 在生成式AI技术快速普及的当下,越来越多开发者和创意工作者开始尝试本地部署Stable Diffusion类工具。其中,ComfyUI 因其独特的节点式架构,成为构建可复现、模块化AI工作流的热门选择。然而不少用户在初…

作者头像 李华
网站建设 2026/6/8 11:57:31

高性能RAG智能体框架Kotaemon上线,支持Docker部署与多轮对话管理

高性能RAG智能体框架Kotaemon上线,支持Docker部署与多轮对话管理 在大模型遍地开花的今天,企业真正关心的问题早已不再是“能不能生成一段流畅的回答”,而是:“这个回答有依据吗?”、“它能记住我上一轮说了什么吗&am…

作者头像 李华