上交自动驾驶3D重建综述！从NeRF到3DGS的全面调研（T-ITS‘25）-洪萨配资

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

作者 | Liewen Liao等
编辑 | 自动驾驶之心
本文只做学术分享，如有侵权，联系删文

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

导读：3D重建是自动驾驶“上帝视角”的基石。从之前大火的NeRF，再到最近刷爆学术圈的3D Gaussian Splatting (3DGS)，学习型方法正在重塑自动驾驶的感知与仿真。最近，上海交大张颂安老师团队在IEEE T-ITS上发表的最新综述全面盘点了自动驾驶场景下的学习型3D重建技术。本文带你一文看懂自动驾驶重建的“前世今生”！

综述全文请见：https://ieeexplore.ieee.org/document/11296945

本文从3D重建的基础知识，到自动驾驶应用相关的重建任务，再到应用落地前景，对学习式3D重建任务在自动驾驶领域相关的论文进行了系统的梳理。

一、研究背景：数据瓶颈与数字孪生

随着自动驾驶技术向L4/L5级别迈进，系统对环境感知的精度与鲁棒性要求日益严苛。实现可靠的自动驾驶，根本上取决于对三维环境的精准感知与整体理解。然而，当前行业面临着严峻的“数据长尾效应”：

高昂成本：获取海量、覆盖各种极端工况（如恶劣天气、事故场景）的高质量多模态数据成本极高。
安全风险：在真实世界中采集边缘场景（Corner Cases）往往伴随着不可控的安全风险。

为了突破这一瓶颈，“数字孪生”与仿真技术成为关键路径。通过构建物理世界的高保真数字化副本，可在虚拟环境中以低成本、零风险的方式生成大量训练数据，并进行算法的闭环测试。

传统重建方法（如摄影测量、SfM）在应对弱纹理区域、复杂光照以及高动态交通流时往往力不从心。而基于学习的三维重建技术（Learning-based 3D Reconstruction），凭借其强大的隐式或显式场景建模能力，为创建兼具照片级真实感（Photorealism）与几何精确性（Geometric Accuracy）的驾驶场景提供了突破性解决方案。

二、技术演进：从隐式到显式的范式转移

在过去几年的时间里，3D重建技术在不停的突破，已经在短短的三年内经历了深刻的范式转移：

NeRF时代 (2020起)：神经辐射场的提出证明了隐式神经表示（Implicit Representation）能够实现前所未有的新视角合成质量，解决了传统建模在连续性和细节表现上的不足。
3DGS时代 (2023起)：3D Gaussian Splatting技术的兴起引入了显式的高斯原语表示。它在保持高保真度的同时，借助高效的光栅化技术弥补了NeRF推理缓慢的缺陷，使实时渲染（Real-time Rendering）成为可能，极大地推动了重建技术在自动驾驶车端的落地。

然而，现有综述工作要么局限于特定方法（如 NeRF、Gaussian Splatting），要么缺乏在自动驾驶场景下的系统性分析。为了填补这一部分的研究空白，本文将对自动驾驶场景下3D重建技术的应用进行系统性回顾。

三、核心内容：面向自动驾驶的重建分类学

本综述针对自动驾驶场景的独特性（如大规模无界场景、稀疏传感器视角、高动态交互），建立了一套完整的技术分类体系：

1. 静态场景表示 (Scene Representation)

论文详细对比了基于体素（Voxel）、点云（Point Cloud）、神经隐式表面（SDF）以及混合表示的方法，分析了它们在存储效率、渲染速度和几何质量之间的权衡（Trade-off）。

体素表示通过规则的三维网格对空间进行离散建模，每个体素可存储占据状态、语义或学习特征，因此在空间推理和语义建模中具有天然优势。然而，体素分辨率的提升会导致存储和计算复杂度呈立方级增长，使其在大规模、长距离自动驾驶场景中难以维持高精度重建。

相比之下，点云表示以稀疏方式直接采样物体表面，具有较高的几何精度和良好的存储效率，并且与 LiDAR 传感器数据天然对齐，但由于缺乏显式拓扑结构，其在连续表面建模、光照表达和高质量渲染方面能力受限。

神经隐式表示（如 SDF 和 NeRF）通过连续函数对几何和外观进行建模，在视觉真实感和连续性方面表现突出，但其几何结构隐含在网络参数中，难以直接用于下游感知与规划任务，同时体渲染机制带来的高计算成本严重制约了实时性。

基于上述不足，本文指出混合表示逐渐成为主流趋势，即通过将显式表示的几何可控性与隐式表示的连续建模能力相结合，在几何精度、渲染质量与系统效率之间取得更合理的折中。这一趋势反映了自动驾驶场景中“可用几何”和“可实时系统”优先于单纯视觉效果的工程导向

2. 动态目标重建 (Dynamic Object Reconstruction)

这是自动驾驶重建的难点所在。论文将交通参与者分为两类进行深入剖析：

刚性物体（Rigid Objects）：对于以车辆为代表的刚性物体，由于其形状在运动过程中保持不变，主流方法通常通过引入长方体包围盒或规范化坐标系，将物体的运动与外观建模解耦。具体而言，车辆首先被映射到局部 canonical frame 中，在该坐标系下学习稳定的几何和外观表示，而其在全局场景中的运动则通过刚体变换进行建模。此外，车辆天然具有较强的几何先验，如左右对称性和标准结构比例，这些先验被广泛用于补全遮挡区域和缓解稀疏视角带来的信息缺失，从而显著降低了重建难度。
非刚性物体（Non-rigid Objects）：行人和骑行者等非刚性物体由于存在复杂的关节运动和连续形变，其重建问题本质上转化为“形变建模 + 外观建模”的联合优化问题。论文指出，当前主流解决方案是将 SMPL 等参数化人体模型引入重建流程，通过线性混合蒙皮（LBS）将人体在不同姿态下的形变统一映射到 canonical space 中，再结合神经表示对细节外观进行补充。这一方法在受控的人体重建数据集上取得了较好效果，但在真实自动驾驶场景中仍面临两大瓶颈：一是远距离行人像素分辨率低，导致姿态估计和相机相对位姿不稳定；二是复杂交通环境中频繁发生遮挡，使得完整人体几何难以从局部观测中恢复。因此，本文认为，非刚性目标的高鲁棒性重建仍是当前研究中的薄弱环节。

3. 关键挑战与解决方案

综述还重点讨论了当前技术面临的核心挑战：

大规模一致性：主要体现在公里级长距离场景重建中误差的持续累积，表现为几何漂移和场景断裂。为缓解这一问题，现有方法普遍采用场景解耦策略，通过空间分块、距离分层或语义分区的方式，将整体场景拆分为若干局部子问题，从而降低单一模型的时空跨度。此外，静态背景与动态目标的分离建模，以及引入 4D 表示对时间维度进行统一建模，也被证明有助于提升长期一致性。
传感器融合方面：LiDAR 与 Camera 在信息层面具有高度互补性，前者提供精确但稀疏的几何约束，后者提供高密度但缺乏尺度的外观信息。主流方法并非简单拼接多模态数据，而是通过 LiDAR 深度监督、几何初始化或联合成像建模的方式，在统一的重建框架中实现跨模态对齐，从而同时提升几何可靠性与视觉质量。
极端环境适应性：在夜间、雨雪和雾霾条件下，关于重建鲁棒性的研究仍处于初级阶段。现有方法主要依赖 LiDAR 的几何稳定性或引入简化的成像退化模型，但尚无法真实模拟复杂天气条件下的物理光学效应。因此，极端环境下的高可信重建被认为是未来自动驾驶三维重建中最具挑战性且最具研究价值的方向之一。

四、应用前景：赋能自动驾驶全栈

重建并非终点，而是赋能自动驾驶的新起点。论文总结了该技术的四大核心应用场景：

数据增强 (Data Augmentation)：生成高质量的Corner Case合成数据，提升感知模型的泛化能力。
闭环仿真 (Closed-loop Simulation)：构建World Model，让规控算法在高度真实的虚拟世界中进行“图灵测试”。
自动标注 (Auto-labeling)：利用重建后的稠密几何信息，实现3D真值标签的自动化生成与迁移。
感知与理解 (Perception & Understanding)：辅助提升3D目标检测、语义分割等下游任务的性能。

五、总结与展望

本文为自动驾驶领域的很多研究人员提供了一份详实的参考指南。尽管3DGS等技术已取得显著进展，但在可编辑性（Editability）（如基于文本的场景编辑）和端到端生成方面仍有广阔的探索空间。随着生成式AI（Generative AI）的发展，未来的三维重建将不仅仅是复刻世界，更是创造世界。

自动驾驶之心

求点赞

求分享

求喜欢

上交自动驾驶3D重建综述！从NeRF到3DGS的全面调研（T-ITS‘25）

一、研究背景：数据瓶颈与数字孪生

二、技术演进：从隐式到显式的范式转移

三、核心内容：面向自动驾驶的重建分类学

1. 静态场景表示 (Scene Representation)

2. 动态目标重建 (Dynamic Object Reconstruction)

3. 关键挑战与解决方案

四、应用前景：赋能自动驾驶全栈

五、总结与展望

【开题答辩全过程】以基于hadoop的电影推荐系统的设计与实现为例，包含答辩的问题和答案

GP8630N I2C和PWM转±10V/0-5V/0-10V/4-20mA DAC模块原理图设计，已量产

考研资源合集

现在学嵌入式怎么样？

2026 AI Agent趋势报告

物联网如何助力传统农业

一、 研究背景：数据瓶颈与数字孪生

二、 技术演进：从隐式到显式的范式转移

三、 核心内容：面向自动驾驶的重建分类学

1. 静态场景表示 (Scene Representation)

2. 动态目标重建 (Dynamic Object Reconstruction)

3. 关键挑战与解决方案

四、 应用前景：赋能自动驾驶全栈

五、 总结与展望

【开题答辩全过程】以 基于hadoop的电影推荐系统的设计与实现为例，包含答辩的问题和答案

GP8630N I2C和PWM转±10V/0-5V/0-10V/4-20mA DAC模块原理图设计，已量产

考研资源合集

现在学嵌入式怎么样？

2026 AI Agent趋势报告

物联网如何助力传统农业

一、研究背景：数据瓶颈与数字孪生

二、技术演进：从隐式到显式的范式转移

三、核心内容：面向自动驾驶的重建分类学

四、应用前景：赋能自动驾驶全栈

五、总结与展望

【开题答辩全过程】以基于hadoop的电影推荐系统的设计与实现为例，包含答辩的问题和答案