【ICLR26-加州大学】GEN2SEG：生成模型实现可泛化的实例分割-洪萨配资

文章：GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码：https://reachomk.github.io/gen2seg

单位：加州大学戴维斯分校

一、问题背景

人类仅凭有限经验就能识别各类陌生物体，而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中，现有模型要么需要大规模标注数据（如SAM依赖1100万张图像和11亿个掩码），要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练，就具备强大的跨类别、跨风格实例分割能力，成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

核心思路：借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构，天然蕴含感知分组机制，将其适配到类别无关的实例分割任务。
模型选择与微调：基于Stable Diffusion 2和MAE（仅经ImageNet-1K预训练），通过端到端微调实现分割，无需互联网规模预训练或文本监督。
实例着色损失设计：将分割掩码编码为RGB图像（每个实例分配唯一颜色、背景为黑色），设计三重损失： intra-实例方差损失（保证实例内像素颜色一致）、inter-实例分离损失（推开实例外像素与实例颜色）、均值分离损失（区分不同实例的颜色中心），无需固定颜色映射即可实现精准分割。
点提示分割方案：通过高斯加权平均计算提示点的查询向量，结合相似度映射与双边滤波，实现简单高效的点提示二进制掩码生成，无需额外训练掩码解码器。

三、实验结果

零样本泛化表现：在COCOexc、DRAM（艺术）、EgoHOS（第一视角）、iShape（精细结构）、PIDRay（X光）5个数据集上，SD模型性能接近强监督的SAM，iShape数据集上mIoU达51.4，远超SAM的16.8。
边缘检测优势：BSDS500数据集上，SD模型边缘AP达93.4，显著优于SAM的79.0，即使训练数据为多边形边缘的COCO，仍保持10个百分点以上的优势。
数据鲁棒性：仅用5类物体（书籍、椅子等）或简单形状数据集（ClevrTex）训练，仍能保持良好泛化；面对色调调整、灰度化等图像扰动，掩码质量下降有限。
高效训练特性：SD模型仅需4块RTX6000 Ada GPU训练29小时（8.7万张图像、370万掩码），远低于SAM的256块A100 GPU训练68小时的成本。

四、优势与局限

优势

泛化能力突出：无需见过目标类别掩码，就能分割人类、动物、印象派艺术、X光图像等未训练场景，突破数据依赖。
细节分割精准：在精细结构（如电线）和模糊边界（如马车与马匹）分割上优于SAM，边缘更清晰。
训练高效灵活：仅需微调解码器或少数层即可达到理想效果，支持少量标注数据训练，适配不同硬件资源。
鲁棒性强：对图像颜色、纹理变化不敏感，适配复杂真实场景。

局限

小物体分割薄弱：受预训练偏置影响，对小型物体的分割性能较差（COCO S exc的mIoU仅8.5）。
训练分辨率受限：微调分辨率低于SAM（480×640/224×224 vs 1024×1024），可能影响细节捕捉。
部分场景边界模糊：倾向于将云层、草地等归为背景，高召回率场景下精度下降。

五、一句话总结

GEN2SEG通过生成模型的固有分组机制与创新实例着色损失，实现了仅需窄域数据训练就能跨类别、跨风格的精准实例分割，为低成本、高泛化的视觉感知任务提供了新范式。

PasteMD剪贴板美化神器：5分钟搭建本地AI文本格式化工具

PasteMD剪贴板美化神器：5分钟搭建本地AI文本格式化工具 1. 为什么你需要一个本地AI文本格式化工具？ 你有没有遇到过这种情况？ 从网页上复制了一段会议纪要，格式乱七八糟，有奇怪的换行、多余的符号，想整理成…

李华

Qwen3-ASR-1.7B与Dify平台集成：打造个性化语音识别应用

Qwen3-ASR-1.7B与Dify平台集成：打造个性化语音识别应用最近在折腾一个智能客服的项目，需要把语音对话转成文字，市面上开源的语音识别模型试了一圈，效果总是不太理想。要么是识别不准，要么是部署太麻烦，要…

李华

腾讯混元翻译大模型实战：Streamlit界面操作指南

腾讯混元翻译大模型实战：Streamlit界面操作指南你是否经历过这样的场景：需要把一份中文技术文档快速翻成俄语发给海外同事，却发现在线翻译工具要么卡在“正在加载”，要么译文满是语法错误；又或者正为跨境电商商品页做…

李华

Llava-v1.6-7b性能优化：利用GPU加速多模态推理

Llava-v1.6-7b性能优化：利用GPU加速多模态推理 1. 为什么需要GPU加速Llava-v1.6-7b Llava-v1.6-7b作为一款功能强大的多模态模型，能够同时理解图像和文本，在视觉问答、图像描述、内容分析等场景中表现出色。但它的70亿参数规模和复杂的视觉…

李华

Qwen3-TTS语音合成惊艳效果展示：听AI说10种语言

Qwen3-TTS语音合成惊艳效果展示：听AI说10种语言 1. 引言：当AI开口说世界想象一下，你正在制作一个面向全球用户的短视频，需要为同一个脚本配上中文、英文、日文、西班牙文等十几种语言的旁白。传统方案是什么？要么聘…

李华

基于CCMusic的广播节目分析：大规模音频数据处理方案

基于CCMusic的广播节目分析：大规模音频数据处理方案你有没有想过，每天我们听到的广播节目里，到底播放了多少种不同类型的音乐？那些音乐电台是怎么知道一首歌是摇滚、流行还是古典的？如果让你手动去听几百个小时的广播…

李华