news 2026/6/9 21:33:48

【复旦-AAAI26】Segment Anything Across Shots

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【复旦-AAAI26】Segment Anything Across Shots

文章:Segment Anything Across Shots: A Method and Benchmark

代码:https://henghuiding.com/SAAS/

单位:复旦大学


引言

在视频编辑、自动驾驶、人机交互等场景中,“视频目标分割”技术一直扮演着关键角色——给定视频第一帧的目标掩码,AI需要全程精准追踪并分割该目标。但现实中我们接触的视频大多是多镜头剪辑而成(比如电影切镜、vlog换场景),传统方法在镜头切换时往往“认不出”目标,性能大幅下滑,成为学术研究与实际应用之间的一道鸿沟。

一、问题背景:多镜头分割的核心痛点

传统视频目标分割(VOS)方法主要针对单镜头视频优化,而真实世界的多镜头视频(MVOS)存在三大挑战:

  1. 镜头切换断层:不同镜头中目标的外观、位置、背景可能发生剧烈变化,现有模型(如SAM2、XMem)性能会暴跌,SAM2-B+在多镜头场景下的J&F值甚至下降21.4%;

  2. 训练数据稀缺:多镜头视频的标注成本极高,目前仅有YouMVOS一个相关数据集,且存在标注未开源、镜头切换少、目标类别单一(以人类为主)等问题;

  3. 评估基准不足:缺乏能反映真实多镜头复杂度的测试数据集,无法公平衡量模型的跨镜头分割能力。

这些问题导致现有技术难以应用于视频编辑、多摄像头监控等实际场景,亟需针对性的解决方案。

二、方法创新:三大核心突破,搞定多镜头分割

为解决上述痛点,复旦团队提出“数据增强+专用模型+全新基准”的三位一体方案,核心创新包括:

1. 过渡模拟数据增强(TMA):单镜头数据也能练出多镜头能力

针对多镜头标注数据稀缺的问题,TMA策略通过在单镜头视频上模拟多种镜头切换效果,生成高质量的多镜头训练样本:

  • 支持四种核心过渡模式:包括画面翻转/缩放(模拟远景-特写切换)、同视频不同片段拼接(模拟时间跨度带来的姿态变化)、跨视频切回(模拟切走再切回场景)、目标复制平移(模拟延迟切入);

  • 无需依赖真实多镜头标注,仅用现有单镜头数据集就能让模型学习跨镜头适应能力,大幅缓解数据稀疏问题。

2. SAAS模型:精准识别+理解镜头切换

基于SAM2框架,团队设计了首个专门针对多镜头视频的半监督分割模型——Segment Anything Across Shots(SAAS),核心模块包括:

  • 过渡检测模块(TDM):用轻量级卷积金字塔实时判断当前是否发生镜头切换,引导模型启用不同分割策略;

  • 过渡理解模块(TCH):结合场景记忆库和相邻帧特征,解析切换类型并优化目标特征,搭配目标存在预测、边界框回归两个辅助目标提升准确性;

  • 局部记忆库(B_local):存储目标细粒度特征(如衣服花纹、物体标记),即使镜头切换也能通过细节精准识别目标。

3. Cut-VOS基准:首个开源的多镜头分割测试集

为公平评估模型性能,团队构建了全新的多镜头视频分割基准Cut-VOS:

  • 包含100个视频、174个目标、10.2K高质量掩码,覆盖11类目标(是YouMVOS的3倍);

  • 镜头切换频率达0.346次/秒(是YouMVOS的1.6倍),手动筛选9种复杂过渡类型(如延迟切入、场景突变、特写切换);

  • 完全开源标注,成为首个支持多镜头分割研究的完整基准。

三、实验结果:性能全面刷新SOTA

在YouMVOS和Cut-VOS两大基准上的测试显示,SAAS模型表现亮眼:

  1. 核心指标领先:SAAS-B+在YouMVOS上的J&F值达73.5%、跨镜头Jt值达68.9%,分别超越SAM2-B+ 5.9%和5.2%;在更复杂的Cut-VOS上,J&F值达60.7%、Jt值达53.1%,大幅领先现有方法;

  2. 模块有效性验证:消融实验表明,TMA策略、局部记忆库、过渡理解模块分别能提升2.8%、2.4%、4.9%的J&F值,三者结合效果最优;

  3. 泛化能力出色:在传统单镜头数据集(如DAVIS2017、YoutubeVOS)上,SAAS性能与SAM2相当,不会因多镜头优化而“偏科”。

四、优势与局限

核心优势

  1. 实用性强:首次实现多镜头场景下的高精度分割,填补了实际应用缺口,可直接用于视频编辑、自动驾驶多摄像头融合等场景;

  2. 成本可控:TMA策略降低了对多镜头标注数据的依赖,无需额外大规模标注就能训练;

  3. 生态完善:开源的Cut-VOS基准为后续研究提供了统一的评估标准,推动多镜头分割领域发展。

现存局限

  1. 面对目标极端外观变化(如同一人更换衣服、发型)时,仍难以精准匹配,因为TMA无法有效模拟此类场景;

  2. 对完全未见过的目标局部区域(如极端特写镜头),分割精度有待提升,需要更强的推理能力而非单纯依赖视觉特征匹配。

五、一句话总结

复旦团队通过TMA数据增强、SAAS专用模型和Cut-VOS基准,首次系统性解决了多镜头视频目标分割的核心难题,让AI在镜头切换时也能精准追踪目标,为视频智能编辑、多摄像头监控等实际应用提供了强有力的技术支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 2:27:03

IpaDownloadTool:iOS应用分发管理的智能化解决方案

IpaDownloadTool:iOS应用分发管理的智能化解决方案 【免费下载链接】IpaDownloadTool 输入下载页面链接自动解析ipa下载地址,支持本地下载,支持第三方和自定义下载页面(通过拦截webView的itms-services://请求获取plist文件,支持各…

作者头像 李华
网站建设 2026/6/7 3:03:26

Wan2.2-T2V-A14B能否生成化学反应过程动画?中学教学辅助工具开发

Wan2.2-T2V-A14B能否生成化学反应过程动画?中学教学辅助工具开发 在中学化学课堂上,老师讲到“钠与水剧烈反应”时,往往只能靠语言描述和静态图片来传达那种嘶嘶作响、火花四溅的动态场景。学生闭着眼想象,却始终难以建立真实的视…

作者头像 李华
网站建设 2026/6/7 1:28:00

Wan2.2-T2V-A14B如何处理涉及多个角色的复杂场景?

Wan2.2-T2V-A14B如何处理涉及多个角色的复杂场景? 在影视预演、广告创意和虚拟内容生产等专业领域,一个长期困扰AI视频生成技术的问题是:当画面中出现两个或更多角色时,模型往往会“搞混”他们——身份漂移、动作脱节、互动生硬&a…

作者头像 李华
网站建设 2026/6/8 22:06:37

B站缓存转换终极指南:快速实现m4s视频本地播放

B站缓存转换终极指南:快速实现m4s视频本地播放 【免费下载链接】m4s-converter 将bilibili缓存的m4s转成mp4(读PC端缓存目录) 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 还在为B站缓存的m4s文件无法直接播放而烦恼吗?m4s-conve…

作者头像 李华
网站建设 2026/6/9 16:10:56

OpenAI GPT-OSS-20B:Apache 2.0协议下的企业级大模型新标杆

OpenAI GPT-OSS-20B:Apache 2.0协议下的企业级大模型新标杆 【免费下载链接】gpt-oss-20b-BF16 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/gpt-oss-20b-BF16 导语 OpenAI推出的GPT-OSS-20B开源大模型凭借Apache 2.0许可与MXFP4量化技术&#x…

作者头像 李华
网站建设 2026/6/9 14:00:00

新能源电站边缘网关商业需求文档(BRD)

XGW-9000系列高端新能源电站边缘网关商业需求文档(BRD) 文档版本:V1.0 编写人:产品战略部 审批人:公司战略委员会 一、方案背景 1.1 行业背景与现状 (数据来源:国家能源局、艾瑞咨询&#xff09…

作者头像 李华