这篇博客分享的是 AAAI 2019 的一篇文章。该文研究利用单目相机采集的图片,对汽车进行3D定位和检测;主要的贡献是在3D定位和检测过程中 引入了 geometric knowledge,并在KITTI数据集进行了测试和消融实验,证明了 geometric knowledge 有助于提升3D定位和检测效果;文章称MonoGRNet在Geforce GTX Titan X处理速度为 0.06 sec/frame。

论文标题:MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization

论文作者:Zengyi Qin, Jinglu Wang, Yan Lu (来自清华大学、MIT、Microsoft)



  • 物体真实尺寸信息
  • 物体在3D空间的位置信息

本文解决的问题是:从单目图像,定位物体在整个环境中的 3D bounding box(文中术语是 ABBox-3D,amodal 3D bounding box)。2D 物体检测是在像平面上分析,扩展到3D会引来歧义。

许多基于单目的3D检测SOTA方法,通常会估计 pixel-level depth(不太了解,这方面论文读的比较少),然后估计物体的3D BBox。本文作者认为估计像素深度的方式,对于物体检测、定位不友好,因为这种方式目标是最小化所有像素深度的误差之和的平均值,达到整幅图片最优;然而一幅图像中,很可能物体只占一小部分,更多的是背景,优化过程容易忽略有物体的部分,从而导致3D物体检测和定位效果不佳。

本文提出的 MonoGRNet,不去估计 pixel-level depth,而是估计 instance-level depth,二者的区别很明显。直观想法是用神经网络的 deep feature maps 估计coarse instance depth,再用 shallow feature maps 对前面的depth调整。

有了物体的 depth,还需估计 horizontal 和 vertical 位置。本文首先预测物体3D中心在像平面的投影,再结合depth和相机成像模型,得到物体最终的3D位置。这个过程体现了 Geometric Reasoning


  • 问题定义
    • 输入:an RGB image
    • 输出:\(B_{3d} = (B_{2d}, Z_c, \textbf{c}, \mathcal{O})\)
      • 2D BBox $B_{2d}$
      • 汽车3D空间的 depth $Z_c$(相机坐标系下)
      • 物体3D center在像平面的投影点 $\textbf{c}$
        • 用几何方法求出:3D center ($X_{c}, Y_{c}, Z_{c}$)
      • 3D BBox
        • 相对于3D center,有8个corner points $ \mathcal{O} = {{\textbf{O}_k}} $, $k = 1,…,8$
  • MonoGRNet 整体结构
    • 2D BBox Detection
    • Instance Depth Estimation
    • 3D Location Estimation —— 体现了 Geometric Reasoning
    • 3D BBox Regression
  • 涉及到几个坐标系
    • 图(a)说明物体3D中心点,投影到像平面,不一定和2D BBox中心点重合
    • 图(c) local coordinate frame,以物体3D中心为原点,相机原点和物体3D中心连线为z轴
  • 2D BBox Detection
    • 利用现成的 Multinet,组合了 YOLO、size-adaptive RoIAlign
    • 一幅 $W \times H$ 的图片,划分成 $S_x \times S_y$ 的网格$\mathcal{G}$,每个网格表示成 $\textbf{g}$,产生一个预测 $(Pr_{obj}^{\textbf{g}}, B_{2d}^{\textbf{g}})$
    • 主干网络输出的 feature map,大小也为 $S_x \times S_y$ $\rightarrow$ 特征图的一个像素对应元素图片的一个 $\textbf{g}$
    • $ B_{2d} = (\delta_{xb}, \delta_{yb}, w, h) $
      • $(\delta_{xb}, \delta_{yb})$ 是相对于 $\textbf{g}$ 的物体中心点坐标
      • 物体宽和高 $(w, h)$
  • Instance Depth Estimation
    • 每个$\mathcal{G}$ 中的 $\textbf{g}$,预测一个物体的 3D depth $\leftarrow$ 距离限制 $\delta_{scope}$
    • deep feature map 预测 coarse depth $Z_{cc}$,shallow feature map 调整 coarse depth $\delta_{Z_{c}}$,$ Z_{c} = Z_{cc} + \delta_{Z_{c}}$
  • 3D Location Estimation
    • 估计 $ \textbf{C} = (X_{c}, Y_{c}, Z_{c})$
    • 相机成像模型
      • $f_x$、$f_y$分别是 X、Y 轴上的焦距;$p_x$、$p_y$是图像的中心点坐标
    • deep feature map 预测物体投影中心相对于 $\textbf{g}$ 的坐标 $\delta_{\textbf{c}} = (\delta_{x_{c}}, \delta_{y_{c}})$,所以物体投影中心在像平面的坐标为 $\delta_{\textbf{c}} + \textbf{g}$
    • 因此,有了 $Z_c$ 和物体投影中心 $\textbf{c}$,就能得到 \(\textbf{C}_{s} = (X_{c}, Y_{c}, Z_{c})\)
    • shallow feature map 得到 $\delta_{\textbf{C}}$,用来调整 $\textbf{C}_{s}$
    • 最终位置:\(\textbf{C} = \textbf{C}_{s} + \delta_{\textbf{C}}\)
  • 3D BBox Regression
    • 估计8个顶点 $ \mathcal{O} = {{\textbf{O}_k}} $, $k = 1,…,8$
    • 直接估计8个顶点在相机坐标系的位置,具有歧义性 —— 不同的物体,由于相机视角,可能产生相同的投影
      • 参考前人的工作,在 local coordinate frame 下估计顶点坐标
    • 计算出来的顶点是相对于物体3D中心的,还需要转换到相机坐标系
      • \[\textbf{O}_{k}^{cam} = \textbf{R} \textbf{O}_{k} + \textbf{C}\]
      • $\textbf{R}$ 可求,$\textbf{C}$ 就是上面计算出来的中心点
  • Loss Functions
    • 2D Detection Loss
    • Instance Depth Loss
    • 3D Localization Loss
    • Local Corner Loss
      • \[\mathcal{L}_{corners} = \sum_{\textbf{g}} \sum_{k} \mathbb{1}_{\textbf{g}}^{obj} \cdot d(\textbf{O}_k, \tilde{\textbf{O}}_k)\]
    • Joint 3D Loss
      • \[\mathcal{L}_{joint} = \sum_{\textbf{g}} \sum_{k} \mathbb{1}_{\textbf{g}}^{obj} \cdot d(\textbf{O}_k^{cam}, \tilde{\textbf{O}}_k^{cam})\]
  • 一些实现细节
    • VGG-16 backbone,不带全连接层,抽取特征
    • KittiBox (Teichmann et al. 2016) for 2D detection
    • DORN (Fu et al. 2018) for depth encoder
    • 平衡因子,$w = \alpha = \beta = 10$
    • 7.7M paprameters for all 2D and 3D modules


  • 3D Location Estimation
    • 评价指标:mean errors $\rightarrow$ 预测的物体位置和距离最近的 ground truth
    • 三个维度,depth error 占主导
  • 3D Detection
    • 评价指标:3D Average Precision ($AP_{3D}$) at different Intersection of Union (IoU) thresholds
  • Local 3D Bounding Box Regression
    • 估计box宽、高、长
    • 估计box朝向 orientation,用相机坐标系下的方位角计算(??不太理解)
  • 一些可视化案例
    • (a)(b)(c) : common areas
    • (d)(e)(f) : truncated objects
    • (g)(h)(i) : failed detections
  • Ablation Study
    • 如果直接把 2D BBox 中心点 $\textbf{b}$ 当作物体3D中心在像平面的投影点 $\textbf{c}$,进行定位
      • horizontal location error rises from 0.27m to 0.35m
      • vertical error increases from 0.09m to 0.69m
      • 当物体被截断时,$\textbf{c}$ 可能落在像平面外,$\textbf{b}$ 总是在像平面
    • 如果直接估计 3D BBox 在相机坐标系下的8个顶点
      • average orientation error increases from 0.251 to 0.442 radians
      • height, width and length errors of the 3D bounding box almost remain the same


  • 提出了单目图像的3D物体检测和定位模型 MonoGRNet
  • 直接进行 instance-level depth estimation,而不是 pixel-level depth estimation
  • 把像平面2D BBox中心点物体3D中心在像平面的投影点区分开来,利用相机模型进行 geometric reasoning
  • 其实本文3D定位的核心:先估计物体在相机坐标系的深度,再利用相机成像模型,把2D平面的点转换到3D空间