news 2026/3/31 15:44:09

【港科大-郑自强组-ICCV25】CoralSRT:通过自监督引导的特征校正重新探索珊瑚礁语义分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【港科大-郑自强组-ICCV25】CoralSRT:通过自监督引导的特征校正重新探索珊瑚礁语义分割

文章:CoralSRT: Revisiting Coral Reef Semantic Segmentation by Feature Rectification via Self-supervised Guidance

代码:https://coralsrt.hkustvgd.com/

单位:香港中文大学


一、问题背景:珊瑚的"任性生长"难倒AI

珊瑚的生长受基因、环境变化、生物竞争等多重因素影响,形状、纹理和分布极具随机性,没有固定的结构规律。相比鱼类等可通过局部特征推断整体的生物,珊瑚即使部分遮挡也无法预判完整形态,导致 segmentation 难度陡增。

现有方法存在明显短板:传统数据驱动模型依赖海量标注数据,耗费大量人力和专业知识;基于超像素的稀疏到密集转换方法难以捕捉高层语义;SAM等提示性分割模型常出现"漏标"或"误标"问题,无法适配珊瑚的无规则生长特性。这些问题严重限制了珊瑚礁监测的规模化应用。

二、方法创新:CoralSRT 用自监督校正破解痛点

研究团队提出的 CoralSRT(珊瑚自监督校正训练)方法,以"段"为核心构建分割逻辑,无需额外标注、不微调基础模型,就能实现高效语义分割。

其核心创新在于两点:一是建模段内亲和性,通过SAM 2等基础模型生成密集掩码,迫使同一段内的特征向中心值(均值或中位数)靠拢,强化珊瑚的自我相似性特征;二是借助基础模型的大规模预训练优势,通过特征聚类实现跨段亲和性建模,无需人工定义语义标签。

整个过程通过自监督校正模块 Rec(·) 完成特征优化,仅需利用基础模型已有的特征信息,就能降低珊瑚特征的随机性,让 label 传播更高效。该方法还具有任务和模型无关性,可灵活适配不同基础模型和应用场景。

三、实验结果:多项指标刷新性能上限

研究团队构建了包含264万张无标签图像的 CoralWorld 数据集,以及覆盖10个国家、1109张图像的多场景测试集,从多维度验证效果:

  1. 稀疏到密集转换:在100个标注点下,CoralSRT 结合 CoralSCOP 基础模型,mIoU 达到74.32%,远超 SAM 2的33.18%和传统方法 Fast-MSS 的28.34%;

  2. 零样本分割:在 Mosaics UCSD 数据集上,50个标注点时 mIoU 达44.66%,优于 HIL、FeatUp 等专业算法;

  3. 语义分割对比:无需训练微调的 CoralSRT‡,在100个标注点下 mIoU 达75.29%,接近甚至超越 DeeplabV3、Mask2Former 等监督学习模型;

  4. 数据适应性:即使使用 COCO-Stuff 通用数据集优化,也能实现有效分割,证明其不依赖领域特定数据。

四、优势与局限:亮点突出,仍有提升空间

核心优势

  • 零额外成本:无需人工标注、不微调基础模型,大幅降低数据收集和模型优化门槛;

  • 高灵活性:支持自定义标签集,适配不同区域的珊瑚研究需求,满足生态探索的本质目的;

  • 强泛化性:不仅适用于珊瑚礁,还能迁移到植物、细胞、生物污垢等无固定结构的分割场景;

  • 高效易实现:目标特征制备速度比同类方法 DVT 快109倍,核心代码修改量少。

现存局限

  • 无法自动生成独立珊瑚掩码,相比 CoralSRT、SAM 系列,在个体珊瑚区分上存在不足;

  • 特征校正效果依赖预训练数据的质量和覆盖度,极端场景下性能可能受影响;

  • 稀疏点选择仍会对结果产生一定影响,虽已优化但未完全消除。

五、一句话总结

CoralSRT 通过自监督特征校正,打破了珊瑚礁语义分割对海量标注和领域数据的依赖,为无固定结构目标的分割提供了高效解决方案,也为生态监测的规模化应用奠定了技术基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 16:16:29

零基础理解Keil5源文件编码转换方法

告别乱码:Keil5中文注释显示异常的根源与实战解决方案 你有没有遇到过这样的场景?接手一个旧项目,打开 .c 文件,满屏的中文注释变成一堆“???”或方块字符;或者自己刚写下的注释,第二天再打开就变成了…

作者头像 李华
网站建设 2026/3/27 14:55:07

显示器硬件控制新纪元:MonitorControl技术深度剖析

显示器硬件控制新纪元:MonitorControl技术深度剖析 【免费下载链接】MonitorControl MonitorControl/MonitorControl: MonitorControl 是一款开源的Mac应用程序,允许用户直接控制外部显示器的亮度、对比度和其他设置,而无需依赖原厂提供的软件…

作者头像 李华
网站建设 2026/3/30 19:42:47

PhotoGIMP:让Photoshop用户无缝切换的开源图像编辑神器

PhotoGIMP:让Photoshop用户无缝切换的开源图像编辑神器 【免费下载链接】PhotoGIMP A Patch for GIMP 2.10 for Photoshop Users 项目地址: https://gitcode.com/gh_mirrors/ph/PhotoGIMP PhotoGIMP是一款专为Photoshop用户设计的GIMP优化补丁,通…

作者头像 李华
网站建设 2026/3/26 10:23:26

实测BGE-Reranker-v2-m3:RAG系统重排序效果超预期

实测BGE-Reranker-v2-m3:RAG系统重排序效果超预期 1. 引言:解决RAG检索“不准”的关键一环 在当前的检索增强生成(RAG)系统中,向量数据库的初步检索虽然能够快速召回相关文档,但其基于语义距离的匹配机制…

作者头像 李华
网站建设 2026/3/27 17:28:51

PDF-Extract-Kit核心功能解析|一键实现OCR、公式识别与表格解析

PDF-Extract-Kit核心功能解析|一键实现OCR、公式识别与表格解析 1. 技术背景与核心价值 在科研、教育和工程文档处理中,PDF文件常包含复杂的版面结构:文本段落、数学公式、表格以及图像等多模态信息。传统PDF提取工具往往只能线性读取文本内…

作者头像 李华
网站建设 2026/3/24 3:10:39

通义千问2.5实战案例:跨境电商多语言翻译系统搭建

通义千问2.5实战案例:跨境电商多语言翻译系统搭建 随着全球电商市场的持续扩张,多语言内容的高效处理成为企业出海的关键能力。传统机器翻译方案在语义连贯性、文化适配性和上下文理解方面存在明显短板,而大模型的兴起为高质量跨语言转换提供…

作者头像 李华