news 2026/6/9 20:11:00

【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

文章:GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码:https://reachomk.github.io/gen2seg

单位:加州大学戴维斯分校


一、问题背景

人类仅凭有限经验就能识别各类陌生物体,而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中,现有模型要么需要大规模标注数据(如SAM依赖1100万张图像和11亿个掩码),要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练,就具备强大的跨类别、跨风格实例分割能力,成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

  1. 核心思路:借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构,天然蕴含感知分组机制,将其适配到类别无关的实例分割任务。

  2. 模型选择与微调:基于Stable Diffusion 2和MAE(仅经ImageNet-1K预训练),通过端到端微调实现分割,无需互联网规模预训练或文本监督。

  3. 实例着色损失设计:将分割掩码编码为RGB图像(每个实例分配唯一颜色、背景为黑色),设计三重损失: intra-实例方差损失(保证实例内像素颜色一致)、inter-实例分离损失(推开实例外像素与实例颜色)、均值分离损失(区分不同实例的颜色中心),无需固定颜色映射即可实现精准分割。

  4. 点提示分割方案:通过高斯加权平均计算提示点的查询向量,结合相似度映射与双边滤波,实现简单高效的点提示二进制掩码生成,无需额外训练掩码解码器。

三、实验结果

  1. 零样本泛化表现:在COCOexc、DRAM(艺术)、EgoHOS(第一视角)、iShape(精细结构)、PIDRay(X光)5个数据集上,SD模型性能接近强监督的SAM,iShape数据集上mIoU达51.4,远超SAM的16.8。

  2. 边缘检测优势:BSDS500数据集上,SD模型边缘AP达93.4,显著优于SAM的79.0,即使训练数据为多边形边缘的COCO,仍保持10个百分点以上的优势。

  3. 数据鲁棒性:仅用5类物体(书籍、椅子等)或简单形状数据集(ClevrTex)训练,仍能保持良好泛化;面对色调调整、灰度化等图像扰动,掩码质量下降有限。

  4. 高效训练特性:SD模型仅需4块RTX6000 Ada GPU训练29小时(8.7万张图像、370万掩码),远低于SAM的256块A100 GPU训练68小时的成本。

四、优势与局限

优势
  1. 泛化能力突出:无需见过目标类别掩码,就能分割人类、动物、印象派艺术、X光图像等未训练场景,突破数据依赖。

  2. 细节分割精准:在精细结构(如电线)和模糊边界(如马车与马匹)分割上优于SAM,边缘更清晰。

  3. 训练高效灵活:仅需微调解码器或少数层即可达到理想效果,支持少量标注数据训练,适配不同硬件资源。

  4. 鲁棒性强:对图像颜色、纹理变化不敏感,适配复杂真实场景。

局限
  1. 小物体分割薄弱:受预训练偏置影响,对小型物体的分割性能较差(COCO S exc的mIoU仅8.5)。

  2. 训练分辨率受限:微调分辨率低于SAM(480×640/224×224 vs 1024×1024),可能影响细节捕捉。

  3. 部分场景边界模糊:倾向于将云层、草地等归为背景,高召回率场景下精度下降。

五、一句话总结

GEN2SEG通过生成模型的固有分组机制与创新实例着色损失,实现了仅需窄域数据训练就能跨类别、跨风格的精准实例分割,为低成本、高泛化的视觉感知任务提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 19:28:25

PasteMD剪贴板美化神器:5分钟搭建本地AI文本格式化工具

PasteMD剪贴板美化神器:5分钟搭建本地AI文本格式化工具 1. 为什么你需要一个本地AI文本格式化工具? 你有没有遇到过这种情况? 从网页上复制了一段会议纪要,格式乱七八糟,有奇怪的换行、多余的符号,想整理成…

作者头像 李华
网站建设 2026/6/9 1:07:41

Qwen3-ASR-1.7B与Dify平台集成:打造个性化语音识别应用

Qwen3-ASR-1.7B与Dify平台集成:打造个性化语音识别应用 最近在折腾一个智能客服的项目,需要把语音对话转成文字,市面上开源的语音识别模型试了一圈,效果总是不太理想。要么是识别不准,要么是部署太麻烦,要…

作者头像 李华
网站建设 2026/6/8 11:02:56

腾讯混元翻译大模型实战:Streamlit界面操作指南

腾讯混元翻译大模型实战:Streamlit界面操作指南 你是否经历过这样的场景:需要把一份中文技术文档快速翻成俄语发给海外同事,却发现在线翻译工具要么卡在“正在加载”,要么译文满是语法错误;又或者正为跨境电商商品页做…

作者头像 李华
网站建设 2026/6/8 19:31:41

Llava-v1.6-7b性能优化:利用GPU加速多模态推理

Llava-v1.6-7b性能优化:利用GPU加速多模态推理 1. 为什么需要GPU加速Llava-v1.6-7b Llava-v1.6-7b作为一款功能强大的多模态模型,能够同时理解图像和文本,在视觉问答、图像描述、内容分析等场景中表现出色。但它的70亿参数规模和复杂的视觉…

作者头像 李华
网站建设 2026/6/9 0:58:02

Qwen3-TTS语音合成惊艳效果展示:听AI说10种语言

Qwen3-TTS语音合成惊艳效果展示:听AI说10种语言 1. 引言:当AI开口说世界 想象一下,你正在制作一个面向全球用户的短视频,需要为同一个脚本配上中文、英文、日文、西班牙文等十几种语言的旁白。传统方案是什么?要么聘…

作者头像 李华
网站建设 2026/6/9 1:41:26

基于CCMusic的广播节目分析:大规模音频数据处理方案

基于CCMusic的广播节目分析:大规模音频数据处理方案 你有没有想过,每天我们听到的广播节目里,到底播放了多少种不同类型的音乐?那些音乐电台是怎么知道一首歌是摇滚、流行还是古典的?如果让你手动去听几百个小时的广播…

作者头像 李华