通用性和精度全拉满!谷歌最新发布最强零样本深度估计!

来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf、主页链接

这里给大家推荐下深度估计微信群,扫码入群,方便大家沟通交流:

29845aa52a125118835cd029ba16be35.jpeg

1. 笔者个人体会

由于室内和室外场景之间的RGB和深度的巨大变化,以及未知的相机固有特性导致的深度尺度模糊,zero-shot度量深度估计非常难。

今天笔者将为大家分享谷歌最新发布的工作DMD,是单目绝对深度估计的最新SOTA扩散模型。DMD在室内zero-shot数据集上实现了25%的相对误差(REL)减少,在室外zero-shot数据集上实现了33%的相对误差减少。

下面一起来阅读一下这项工作~

2. 效果展示

对比方案主要是之前的ZoeDepth,在室内室外都取得了非常好的定性效果。

4d995579482c7c00b27564f808f526fd.jpeg fbd71c87be9e1a9545a872055830b622.jpeg

DMD相对于ZoeDepth在所有zero-shot基准上都有大幅度的提高,可惜没开源。这里也推荐工坊推出的新课程《单目深度估计方法:算法梳理与代码实现》

e5668fa90498fabea4e818def1db1ff5.jpeg

3. 具体原理是什么?

DMD做了很多创新,例如使用对数尺度深度参数化来实现室内和室外场景的联合建模,调节视野(FOV)来处理尺度模糊性,并在训练期间综合增强FOV,以概括训练数据集中有限的相机固有特性。具体贡献如下:

1、室内外联合建模:不是将深度线性映射到[ - 1 , 1],而是在对数尺度上对深度进行参数化,以更公平地分配室内外场景之间的表示能力。

2、处理不同的相机内参:为了避免对训练相机内参的过拟合,提出通过裁剪和未裁剪(用噪声填充)来增加训练数据,以模拟不同的视野( FOV )。进一步对垂直FOV进行条件限制,消除深度尺度的歧义。

3、多样化的训练数据:使用了多样化的微调混合,这在单独使用NYU和KITTI数据集的微调上显著提高了性能。

4、推理延迟:使用扩散的v参数化而不是通常使用的e参数化,这使得在推理过程中使用最少1个去噪步骤。

4. 和其他SOTA方法对比如何?

在室内(第一张表)和室外(第二张表)场景下,定量比较DMD和当前SOTA的零样本度量深度估计。DMD在两个领域上都大幅度地提高了性能。

2c4ffe6c10317c3b5d5f50240a648ad4.jpeg

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

下载

在公众号「3D视觉工坊」后台,回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理微信:dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

5795905a68c03d35a03f795c1a2c6a7d.png
添加小助理微信:dddvisiona,加群+方向+学校|公司,拉你入群

d1aaa2198f51a57d9011b2a1d7137340.jpeg20345f56ad183fe21dc3767a824b6ecc.jpega5d909e11e289d8677a20855b8444953.jpeg153612991fc9f03b92f79706ba8e6856.jpeg