Insta360 Research 团队提出 DA360 模型,成功解决了全景深度估计在真实开放世界中的两大核心难题:零样本泛化能力不足与尺度不一致性。
该模型通过创新的平移参数学习与环形填充技术,并延续了 DA-V2 在视差空间监督优化的稳定策略,能够直接输出尺度不变、几何一致的高质量深度图与3D 点云。
DA360 在标准基准上全面超越现有方法,且仅需极低计算成本(8 张 RTX 4090)。团队同时构建了一个大规模真实城市室外全景深度基准 Metropolis,为领域发展提供关键工具。
〓 DA360 模型可以直接估计尺度一致边界无缝的点云
论文标题:
Depth Anything in 360°: Towards Scale Invariance in the Wild
论文地址:
http://arxiv.org/abs/2512.22819
项目主页:
https://insta360-research-team.github.io/DA360
代码开源:
https://github.com/Insta360-Research-Team/DA360
研究背景:全景深度估计的机遇与瓶颈
全景(360°)图像能提供无死角的完整环境信息,对于机器人导航、自动驾驶以及沉浸式 AR/VR 应用具有不可替代的价值。
然而,当前的全景深度估计研究存在显著的领域鸿沟:现有方法大多在特定室内数据集(如 Matterport3D)上训练和评估,一旦应用于复杂多变的真实室外开放世界,其性能便急剧下降,泛化能力严重不足。
与此同时,针对普通透视图像的深度估计技术,得益于海量的互联网图像数据,已经催生出如 Depth Anything V2(DA-V2)等具备强大“零样本”泛化能力的基础深度模型。
一个核心的研究命题是:如何将透视基础模型的强大能力高效、准确地迁移到全景领域?
DA360 核心方案:技术创新与稳定策略的结合
〓 DA360 整体框架
DA360 以 DA-V2 为强大的预训练基础,其核心贡献不仅在于两项精准的创新设计,还在于延续并验证了一套稳定的优化策略。
2.1 平移学习模块:从“相对”到“尺度不变”
单目深度基础模型 DA-V2 和此前的主流迁移方法(如 PanDA)输出的结果都是“仿射不变”的,预测结果与真实值之间存在未知的整体缩放和平移,难以直接用于精确的 3D 重建。
DA360 的创新在于,通过一个轻量的多层感知机(MLP),从视觉 Transformer(ViT)主干中学习一个全局的平移参数。
这一操作成功地将模型原始的“尺度和平移不变”输出,转化为尺度不变的深度估计。
这意味着,DA360 的输出具有物理意义的一致性比例,无需任何繁琐后处理,即可直接转换为度量准确的三维点云。
2.2 环形填充:消除接缝,守护球形连续性
〓 对全景全景图像的循环填充
全景图像在物理世界是一个连续的球面,但在计算中常被展开为二维的等矩矩形投影(ERP)图,其左右边界在球面上本应相连,南北极上的上的边个应各自相连。
传统卷积神经网络在处理 ERP 图边界时,会将其视为不相关的终点,导致生成的深度图在接缝处出现断裂和伪影。
为此,DA360 在解码器中集成了环形填充技术。该技术让神经网络在进行卷积运算时,能够“看到”图像边界另一侧的信息,相当于将 ERP 图的左右边缘无缝连接。
这从原理上彻底消除了接缝处的几何不一致性,确保了生成的深度图在球形表面上的连续与平滑。
2.3 稳定的监督策略:在视差空间进行优化
DA360 继承了其基础模型 DA-V2 的一个关键且有效的训练策略:在视差空间(即深度的倒数)进行监督优化,而非直接在深度空间进行。
论文中的消融实验表明,这一策略对于模型,尤其是稳定地学习遥远区域(如天空)的深度表示至关重要,避免了在深度空间优化时可能出现的数值不稳定问题,是保证模型最终性能和鲁棒性的重要基础。
全面实验验证:性能、效率与泛化能力
论文通过详尽的实验,在多个维度证明了 DA360 的卓越性能。
3.1 权威基准测试:全面刷新性能记录
研究团队在标准室内数据集(Matterport3D,Stanford2D3D)和自建的室外数据集 Metropolis 上进行了全面评估。
精度全面领先:DA360 在室内外所有数据集上均显著超越了其基础模型 DA-V2,以及 PanDA、UniK3D 等前沿方法。例如,在最具挑战性的室外 Metropolis 数据集上,DA360 的相对误差(AbsRel)相比 DA-V2 降低了 10.5%,相比表现最佳的对比方法 PanDA 降低了约 35%。
关键指标对比:在衡量高精度像素比例的 δ1 指标上,DA360 在 Metropolis 上达到了 71.94%,远超其他方法。
3.2 极致的计算效率
DA360 的成功不仅体现在精度上,其极致的效率同样突出。
训练成本极低:DA360 的完整训练仅需最多 8 张消费级的 NVIDIA RTX 4090 显卡。这与另一项追求相同目标的同期工作 DA²(使用 32 张 H20 专业卡)形成鲜明对比,体现了算法创新的价值。
推理实时高速:在推理阶段,DA360 处理一张高分辨率全景图仅需约 0.26 秒,完全满足实时应用需求。相比之下,采用“多切面估计+后优化融合”传统路线的 MoGe 系列方法,单次推理耗时超过 100 秒,效率相差数百倍。
3.3 构建领域新基准:开源 Metropolis 室外数据集
为了推动全景深度估计在更真实的室外场景中的研究,团队构建了 Metropolis 全景深度测试集。
该数据集包含 3000 个高质量的城市街景样本,弥补了该领域缺乏权威室外评估基准的空白。
总结与展望
Insta360 Research 团队提出的 DA360 模型,通过平移参数学习和环形填充两项核心创新,并辅以视差空间监督的稳定策略,以精巧的算法设计和极低的计算成本,成功实现了全景深度估计在零样本泛化能力和尺度不变输出上的重大突破。
这项工作不仅为相关应用提供了当前性能最优且实用的解决方案,其研究范式也具有重要启示。团队已公开了论文、代码和数据,相信这将有力推动三维视觉领域在开放世界环境理解方面的进一步发展。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·