news 2026/5/14 11:13:13

告别漫长等待:3D生成进入“秒时代”!Apple 重新定义实时视图合成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别漫长等待:3D生成进入“秒时代”!Apple 重新定义实时视图合成

告别漫长等待:3D 生成进入“秒时代”!Apple 重新定义实时视图合成

论文标题:Sharp Monocular View Synthesis in Less Than a Second

👉 一键直达论文

👉Lab4AI 大模型实验室论文阅读

✨ 研究背景

在 AR/VR 及互动照片浏览领域,用户迫切需要能从单张照片快速生成高保真、可交互的 3D 场景 。然而,传统的神经渲染技术(如 NeRF)通常需要多张输入图像和耗时的场景优化过程,难以满足实时交互的需求。

另一方面,虽然现有的扩散模型能实现单图转 3D,但其合成时间往往长达数分钟,且在近距离观察时图像细节不够锐利。因此,如何在极低延迟内生成支持实时渲染、且具备摄影级精细度的 3D 表示,是当前的一大技术痛点。

✨ 核心创新

SHARP(Single-image High-Accuracy Real-time Parallax)采用纯回归框架,通过单一前馈神经网络直接回归出 3D 高斯表示 。其关键技术选择包括:

  • 🔍 端到端架构:设计了一个包含预训练编码器、深度解码器和高斯解码器的网络,能够生成约 120 万个高斯基元。
  • 🔍 有状态的深度调整模块:引入学习型的深度调整模块,在训练中通过解决深度估计的不确定性(如透明或反射表面)来提升合成视角的锐度 。
  • 🔍 优化的损失配置:结合了颜色损失、感知损失(LPIPS)、Gram 矩阵损失以及多种正则化项,在确保图像锐利的同时抑制了常见的视觉伪影。
  • 🔍 自监督微调(SSFT):在真实图像上利用模型生成的伪标签进行进一步微调,增强了模型处理复杂视角效果的能力。

✨ 贡献

SHARP 框架通过单前馈神经网络,1 秒内回归 120 万基元 3D 高斯表示,比扩散模型快三个数量级。零样本测试刷新 SOTA,LPIPS(25-34%)、DISTS(21-43%)降低,图像质量提升;搭载深度调整模块与自监督微调策略,解决单目深度估计模糊,保障视角锐度与保真度。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 6:30:18

泰国地理JSON数据完全手册:从入门到精通的开发指南

泰国地理JSON数据完全手册:从入门到精通的开发指南 【免费下载链接】thailand-geography-json JSON files for Thailands geography data, including provinces, districts, subdistricts, and postal codes, adhering to best practices for optimal performance, …

作者头像 李华
网站建设 2026/5/9 15:59:15

IINA播放器完整教程:macOS视频播放的终极解决方案

IINA播放器完整教程:macOS视频播放的终极解决方案 【免费下载链接】iina 项目地址: https://gitcode.com/gh_mirrors/iin/iina 在现代数字生活中,视频播放已成为我们日常娱乐和工作的重要组成部分。作为macOS平台上备受赞誉的开源视频播放器&…

作者头像 李华
网站建设 2026/5/9 14:41:05

基于MCU的有源蜂鸣器和无源区分驱动电路实践

有源蜂鸣器 vs 无源蜂鸣器:MCU驱动实战避坑指南你有没有遇到过这种情况?代码写得没问题,GPIO也配置了输出,可一通电——蜂鸣器要么“啪”地响一下就停,要么干脆一声不吭。更离谱的是,换了个型号的蜂鸣器&am…

作者头像 李华
网站建设 2026/5/12 1:12:40

Dify镜像支持Webhook回调通知外部系统

Dify 镜像支持 Webhook 回调通知外部系统 在企业 AI 应用从“能用”迈向“好用”的过程中,一个关键挑战浮出水面:如何让 AI 的决策真正驱动业务流程? 过去,大模型应用常被当作孤立的问答工具——用户提问、AI 回答、交互结束。结果…

作者头像 李华
网站建设 2026/5/12 2:14:24

9、Express 中间件与路由全解析

Express 中间件与路由全解析 1. Express 中间件概述 Express 仅自带一个中间件,即 express.static ,不过在实际开发中,我们会安装并使用大量其他中间件。以下是一些由 Express 团队维护的常用中间件: - body-parser :用于解析请求体,比如用户提交表单时。更多信息可…

作者头像 李华
网站建设 2026/5/12 2:15:23

【建议收藏】无卡党、少卡党如何在2026年做 LLM 研究的生存指南?

这是一篇关于无卡党、少卡党如何在2026年做 LLM 研究的生存指南。 先给结论。 没卡就不要去卷预训练,那是神仙打架;也不要去卷通用的指令微调,那是大厂的基建。现在的 模型能力已经溢出,但怎么用好模型、怎么解释模型、怎么给模型…

作者头像 李华