news 2026/4/23 19:25:26

doc20260422

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
doc20260422

三维深度学习综述

本文根据硕士期间的研究中了解到的内容进行整理归纳。

大纲

  1. 基于单视或多视影像生成三维点云
  2. 基于三维点云构建Mesh模型
  3. 三维场景的感知

1. 基于单视或多视影像生成三维点云

1.1 三维重建基础

鲁鹏老师实验室的《计算机视觉之三维重建》系列视频,如下:

计算机视觉之三维重建(深入浅出SfM与SLAM核心算法)——1.摄像机几何_哔哩哔哩_bilibili

1.2 位姿估计

  • SFM

运动恢复结构,在没有标定板的情况下,从多视图中同时恢复相机参数,并重建场景结构。

视频:

计算机视觉之三维重建(深入浅出SfM与SLAM核心算法)——1.摄像机几何_哔哩哔哩_bilibili

经典工具:Colmap、ContextCapture、Agisoft等等;

  • SLAM

待学习

1.3 深度估计

  • 经典立体匹配算法:半全局匹配(SemiGlobalMatch, SGM)(2008)

论文:Stereo Processing by Semiglobal Matching and Mutual Information

理论讲解与代码实战:

【码上实战】【立体匹配系列】经典SGM:(1)框架与类设计_立体匹配 李迎松-CSDN博客

  • 经典立体匹配算法:PatchMatch (2011)

论文:Stereo Processing by Semiglobal Matching and Mutual Information

理论讲解与代码实战:

【理论恒叨】【立体匹配系列】经典PatchMatch: (1)Slanted support windows倾斜支持窗模型_fronto parallel window-CSDN博客

  • 多视深度估计:MVSNet (2018)

MVSNet: Depth Inference for Unstructured Multi-view Stereo

学习完SGM后再看MVSNet很轻松。

  • 单目深度估计:DepthAnything (2024、2025)
  • 视频深度估计:DepthCrafter (2025)

1.4 新视角生成

  • NeRF (2020)

  • 3DGS (2023)

1.5 多视图重建(未知相机位姿)

MVSNet、NeRF、3DGS这几类方法都需要提前对多视图像进行图像匹配、相机标定、位姿估计等步骤,对非标定、不含位姿信息的图像,通过神经网络直接进行三维重建。

代表性方法:

  • DUSt3R(2023)

DUSt3R: Geometric 3D Vision Made Easy

  • MASt3R(2024)

Grounding Image Matching in 3D with MASt3R

  • Fast3R(2025)

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

  • VGGT(2025)

VGGT: Visual Geometry Grounded Transformer

1.6 大重建模型(Large Reconstruction Model)

多模态转Mesh,其中单视图、多视图转Mesh,模型范式如下:

代表性方法:

  • LRM(2023)

论文:Lrm: Large reconstruction model for single image to 3d

  • InstantMesh(2024)

论文:Instantmesh: Efficient 3d mesh generation from a single image with sparse-view large reconstruction models

  • MeshLRM(2024)

**论文:**Meshlrm: Large reconstruction model for high-quality mesh

  • Hunyuan3D 2.0(2025)

论文:Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation

其中,Transformer模块为扩散模型,网络输出为符号距离场(Sign Distance Function, SDF)

2. 基于三维点云构建Mesh模型

待更

3. 三维场景的感知

3.1 LiDAR点云的感知

3.2 BEVFormer系列

纯多视:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (2022)

多视+LiDAR:BEVFormer: Learning Bird’s-Eye-View Representation From LiDAR-Camera via Spatiotemporal Transformers (2024)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 19:24:46

Java的java.lang.foreign.MemorySegment内存访问安全模型与权限检查

Java的java.lang.foreign.MemorySegment是Java 14引入的API,旨在提供对堆外内存的安全访问。随着现代应用对高性能和原生交互的需求增长,直接操作内存成为刚需,但如何平衡灵活性与安全性成为关键问题。MemorySegment通过精细的权限控制与安全…

作者头像 李华
网站建设 2026/4/23 19:24:24

2025届必备的十大AI论文神器推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 能够降低AI生成文本检测相似度的工具,常常被称作“降AI工具”。它的核心原理是经…

作者头像 李华
网站建设 2026/4/23 19:23:50

Star 18.9k 开源 go 语言 Web 应用防火墙(WAF) 雷池 SafeLine

👉 这是一个或许对你有用的社群🐱 一对一交流/面试小册/简历优化/求职解惑,欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料: 《项目实战(视频)》:从书中学,往事中…

作者头像 李华
网站建设 2026/4/23 19:23:19

Windows电脑C盘满了怎么办?三招教你无损清理!

C盘空间告急是很多Windows用户的常见烦恼。今天分享几个实用方法,基本是无损清理,不需要删除有用文件和软件卸载。步骤一:转移用户文件夹到其他盘这样做的好处打开资源管理器,查看左侧的默认固定文件夹,包括&#xff1…

作者头像 李华