doc20260422-洪萨配资

三维深度学习综述

本文根据硕士期间的研究中了解到的内容进行整理归纳。

大纲

基于单视或多视影像生成三维点云
基于三维点云构建Mesh模型
三维场景的感知

1. 基于单视或多视影像生成三维点云

1.1 三维重建基础

鲁鹏老师实验室的《计算机视觉之三维重建》系列视频，如下：

计算机视觉之三维重建（深入浅出SfM与SLAM核心算法）——1.摄像机几何_哔哩哔哩_bilibili

1.2 位姿估计

运动恢复结构，在没有标定板的情况下，从多视图中同时恢复相机参数，并重建场景结构。

视频：

计算机视觉之三维重建（深入浅出SfM与SLAM核心算法）——1.摄像机几何_哔哩哔哩_bilibili

经典工具：Colmap、ContextCapture、Agisoft等等；

SLAM

待学习

1.3 深度估计

经典立体匹配算法：半全局匹配（SemiGlobalMatch, SGM）(2008)

论文：Stereo Processing by Semiglobal Matching and Mutual Information

理论讲解与代码实战：

【码上实战】【立体匹配系列】经典SGM：（1）框架与类设计_立体匹配李迎松-CSDN博客

经典立体匹配算法：PatchMatch (2011)

论文：Stereo Processing by Semiglobal Matching and Mutual Information

理论讲解与代码实战：

【理论恒叨】【立体匹配系列】经典PatchMatch: （1）Slanted support windows倾斜支持窗模型_fronto parallel window-CSDN博客

多视深度估计：MVSNet (2018)

MVSNet: Depth Inference for Unstructured Multi-view Stereo

学习完SGM后再看MVSNet很轻松。

单目深度估计：DepthAnything (2024、2025)
视频深度估计：DepthCrafter (2025)

1.4 新视角生成

NeRF （2020）
3DGS （2023）

1.5 多视图重建（未知相机位姿）

MVSNet、NeRF、3DGS这几类方法都需要提前对多视图像进行图像匹配、相机标定、位姿估计等步骤，对非标定、不含位姿信息的图像，通过神经网络直接进行三维重建。

代表性方法：

DUSt3R（2023）

DUSt3R: Geometric 3D Vision Made Easy

MASt3R（2024）

Grounding Image Matching in 3D with MASt3R

Fast3R（2025）

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

VGGT（2025）

VGGT: Visual Geometry Grounded Transformer

1.6 大重建模型（Large Reconstruction Model）

多模态转Mesh，其中单视图、多视图转Mesh，模型范式如下：

代表性方法：

LRM（2023）

论文：Lrm: Large reconstruction model for single image to 3d

InstantMesh（2024）

论文：Instantmesh: Efficient 3d mesh generation from a single image with sparse-view large reconstruction models

MeshLRM（2024）

**论文：**Meshlrm: Large reconstruction model for high-quality mesh

Hunyuan3D 2.0（2025）

论文：Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

其中，Transformer模块为扩散模型，网络输出为符号距离场（Sign Distance Function, SDF）

2. 基于三维点云构建Mesh模型

待更

3. 三维场景的感知

3.1 LiDAR点云的感知

3.2 BEVFormer系列

纯多视：BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers （2022）

多视+LiDAR：BEVFormer: Learning Bird’s-Eye-View Representation From LiDAR-Camera via Spatiotemporal Transformers （2024）

Java的java.lang.foreign.MemorySegment内存访问安全模型与权限检查

Java的java.lang.foreign.MemorySegment是Java 14引入的API，旨在提供对堆外内存的安全访问。随着现代应用对高性能和原生交互的需求增长，直接操作内存成为刚需，但如何平衡灵活性与安全性成为关键问题。MemorySegment通过精细的权限控制与安全…

李华

2025届必备的十大AI论文神器推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 能够降低AI生成文本检测相似度的工具，常常被称作“降AI工具”。它的核心原理是经…

李华

Star 18.9k 开源 go 语言 Web 应用防火墙(WAF) 雷池 SafeLine

👉 这是一个或许对你有用的社群🐱 一对一交流/面试小册/简历优化/求职解惑，欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料： 《项目实战（视频）》：从书中学，往事中…

李华

Windows电脑C盘满了怎么办？三招教你无损清理！

C盘空间告急是很多Windows用户的常见烦恼。今天分享几个实用方法，基本是无损清理，不需要删除有用文件和软件卸载。步骤一：转移用户文件夹到其他盘这样做的好处打开资源管理器，查看左侧的默认固定文件夹，包括&#xff1…

李华

保姆级避坑指南：高通CamX/CHI中VendorTag的三种类型（hw/component/core）到底该怎么选？

高通CamX/CHI框架中VendorTag类型选择的深度实践指南从一次失败的Tag添加说起上周三凌晨2点17分，我的手机突然震动起来——是团队里一位工程师发来的紧急求助。他在为某旗舰机型开发夜景增强功能时，遇到了一个诡异的问题：自定义的VendorTag…

李华

避开F28377D eCAP配置的那些坑：GPIO异步模式、InputXbar与中断标志位清理详解

TMS320F28377D eCAP模块深度避坑指南：从GPIO异步模式到中断标志位全解析当你在电机控制项目中第一次看到霍尔传感器输出的波形被eCAP模块完美捕获时，那种成就感无与伦比。但现实往往更骨感——大多数工程师在配置F28377D的eCAP模块时，都会遇…

李华