三维深度学习综述
本文根据硕士期间的研究中了解到的内容进行整理归纳。
大纲
- 基于单视或多视影像生成三维点云
- 基于三维点云构建Mesh模型
- 三维场景的感知
1. 基于单视或多视影像生成三维点云
1.1 三维重建基础
鲁鹏老师实验室的《计算机视觉之三维重建》系列视频,如下:
计算机视觉之三维重建(深入浅出SfM与SLAM核心算法)——1.摄像机几何_哔哩哔哩_bilibili
1.2 位姿估计
- SFM
运动恢复结构,在没有标定板的情况下,从多视图中同时恢复相机参数,并重建场景结构。
视频:
计算机视觉之三维重建(深入浅出SfM与SLAM核心算法)——1.摄像机几何_哔哩哔哩_bilibili
经典工具:Colmap、ContextCapture、Agisoft等等;
- SLAM
待学习
1.3 深度估计
- 经典立体匹配算法:半全局匹配(SemiGlobalMatch, SGM)(2008)
论文:Stereo Processing by Semiglobal Matching and Mutual Information
理论讲解与代码实战:
【码上实战】【立体匹配系列】经典SGM:(1)框架与类设计_立体匹配 李迎松-CSDN博客
- 经典立体匹配算法:PatchMatch (2011)
论文:Stereo Processing by Semiglobal Matching and Mutual Information
理论讲解与代码实战:
【理论恒叨】【立体匹配系列】经典PatchMatch: (1)Slanted support windows倾斜支持窗模型_fronto parallel window-CSDN博客
- 多视深度估计:MVSNet (2018)
MVSNet: Depth Inference for Unstructured Multi-view Stereo
学习完SGM后再看MVSNet很轻松。
- 单目深度估计:DepthAnything (2024、2025)
- 视频深度估计:DepthCrafter (2025)
1.4 新视角生成
NeRF (2020)
3DGS (2023)
1.5 多视图重建(未知相机位姿)
MVSNet、NeRF、3DGS这几类方法都需要提前对多视图像进行图像匹配、相机标定、位姿估计等步骤,对非标定、不含位姿信息的图像,通过神经网络直接进行三维重建。
代表性方法:
- DUSt3R(2023)
DUSt3R: Geometric 3D Vision Made Easy
- MASt3R(2024)
Grounding Image Matching in 3D with MASt3R
- Fast3R(2025)
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
- VGGT(2025)
VGGT: Visual Geometry Grounded Transformer
1.6 大重建模型(Large Reconstruction Model)
多模态转Mesh,其中单视图、多视图转Mesh,模型范式如下:
代表性方法:
- LRM(2023)
论文:Lrm: Large reconstruction model for single image to 3d
- InstantMesh(2024)
论文:Instantmesh: Efficient 3d mesh generation from a single image with sparse-view large reconstruction models
- MeshLRM(2024)
**论文:**Meshlrm: Large reconstruction model for high-quality mesh
- Hunyuan3D 2.0(2025)
论文:Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation
其中,Transformer模块为扩散模型,网络输出为符号距离场(Sign Distance Function, SDF)
2. 基于三维点云构建Mesh模型
待更
3. 三维场景的感知
3.1 LiDAR点云的感知
3.2 BEVFormer系列
纯多视:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (2022)
多视+LiDAR:BEVFormer: Learning Bird’s-Eye-View Representation From LiDAR-Camera via Spatiotemporal Transformers (2024)