news 2026/4/28 13:11:04

GC-Net 网络结构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GC-Net 网络结构

双目视差估计网络GC-Net

简单记录一下用网络进行双目视差估计的开山之作,GC-Net,出自ICCV 2017 论文《GC-Net:End-to-End Learning of Geometry and Context for Deep Stereo Regression》。

对于双目图像,极线对齐后可以利用对极几何求出像素对应的深度,从而恢复像素的三维结构。深度的获取简单说来就是求出左右目图像的同源物点在图像上投影的像素横向偏差(视差),再利用相机光心间的基线长度和矫正后的焦距根据相似三角原理计算得出。

原理不难,抛开前面的双目矫正部分,对于已经矫正好极线对齐的一对图像,求其视差的关键在于寻找同一极线上的匹配点。根据相似三角原理,深度和视差成反比关系,越近的点视差越大,越远的点视差越小。对于稍远一些距离,匹配精度对于深度的影响非常大。

如何产生鲁棒的双目像素点匹配关系,从而鲁棒的估计双目视差?GC-Net利用神经网络进行了精巧的设计,提出了新的思路。

核心思想

文章核心要点说白了就两个,一个是如何构造cost volume(可以理解为如何构造匹配关系),另一个是如何构造可微的视差估计方式。

模型架构

模型的结构可以从上图看出,利用一个公共的2D CNN结构分别提取左右目图像对的特征,将其按照一定方式构造cost volume,后接3D CNN进一步提取特征,最后根据soft argmax计算得出视差。

着重讲一下cost volume构造,假定一共有d个视差等级,那针对每个视差等级,通过padding方式等效将右目特征图右移对应视差等级的单位,再和左目特征concat到一起,最后形成d*H*W*2C的4D特征volume。这个想法很巧妙,因为CNN本身不具备获取像素位置的能力,将右目特征右移则人为的帮助网络找到相似特征的位置。打个比方,流水线上有一堆货物,但是寻找需要的货物的检测器本身位置是固定的,这样构造cost volume相当于是流水线把货物一个一个送过来,方便检测器匹配。代码如下:

cost volume 实现

最后通过3D CNN网络编解码出一个D*H*W的张量,我们可以理解为在每个视差(D通道)等级,左右目图像特征在每个像素位置(H*W)的匹配度。不得不说这样的做法很好的利用了双目视差匹配的视觉原理,很好的利用了CNN网络的优势,同时也规避了CNN网络对于利用像素位置的劣势。

自然的,采用softmax机制,求出每个视差等级对应的权重,再乘以对应的视差等级,即文章中的soft argmin机制被提了出来,公式如下。

soft argmin

这个网络,突出一个端到端,构思巧妙,文章作者也是大有来头。用网络解决双目视差估计鲁棒性问题对工业界产生了很大的影响。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 13:11:01

网络安全工程师,看这一篇就够了!

网络安全工程师,看这一篇就够了! 随着互联网的发展和大数据时代的到来, 网络已经日渐深入到 我们生活、工作中的方方面面, 社会信息化和信息网络化, 突破了应用信息在时间和空间上的障碍, 使信息的价…

作者头像 李华
网站建设 2026/4/28 13:09:54

探索llama-cpp-python:构建高效本地AI应用的专业指南

探索llama-cpp-python:构建高效本地AI应用的专业指南 【免费下载链接】llama-cpp-python Python bindings for llama.cpp 项目地址: https://gitcode.com/gh_mirrors/ll/llama-cpp-python llama-cpp-python为流行的llama.cpp项目提供完整的Python绑定&#x…

作者头像 李华
网站建设 2026/4/28 13:07:47

猫抓浏览器插件:三步掌握网页媒体资源智能嗅探与下载技巧

猫抓浏览器插件:三步掌握网页媒体资源智能嗅探与下载技巧 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常在网上看到精彩的视…

作者头像 李华
网站建设 2026/4/28 13:06:49

小白必看:DDColor智能修复老照片,无需代码快速让记忆变彩色

小白必看:DDColor智能修复老照片,无需代码快速让记忆变彩色 翻开家里的老相册,那些泛黄的黑白照片承载着太多珍贵回忆。你是否想过,如果这些照片能有颜色,该是多么生动?过去,给老照片上色需要专…

作者头像 李华
网站建设 2026/4/28 13:00:31

AMD驱动精简终极指南:Radeon Software Slimmer完全使用手册

AMD驱动精简终极指南:Radeon Software Slimmer完全使用手册 【免费下载链接】RadeonSoftwareSlimmer Radeon Software Slimmer is a utility to trim down the bloat with Radeon Software for AMD GPUs on Microsoft Windows. 项目地址: https://gitcode.com/gh_…

作者头像 李华