EfficientDet

目标检测是计算机视觉的一大研究主题，长期以来热度不减。深度学习大规模应用于视觉领域后，目标检测的研究进展飞快，例如：每年各大CV顶会论文，目标检测的主题占很大比例。随着检测准确率的提升，这方面的研究倾向于关注模型效率，追求更高的检测精度和更快的检测效率，同时往往和神经架构搜索结合，探索不同的模型架构，以适配不同的资源条件。本文介绍的这篇论文，是 Google 提出的目标检测模型 —— EfficientDet，实验表明兼具准确率和效率优势，它实际上是一个系列：共有 D0-D7 八个检测器，从最基本的 EfficientDet D0 出发，运用神经架构搜索和模型缩放技术，扩展出了 D1-D7，每种检测器的检测精度和效率不同，满足不同的资源场景的需求。

FLOPs：指整个神经网络加法和乘法的运算次数，根据网络结构求得

EfficientDet 一些亮点：

EfficientDet-D0 uses 28x fewer FLOPs than YOLOv3
- under similar accuracy constraint
EfficientDet-D7 achieves state-of-the-art 55.1 AP
- with 77M parameters and 410B FLOPs
- outperforming previous best detector AmoebaNet-based NAS-FPN by 4 AP
- while being 2.7x smaller and using 7.4x fewer FLOPs

论文题目：EfficientDet: Scalable and Efficient Object Detection

论文作者：Mingxing Tan Ruoming Pang Quoc V. Le (from Google Research, Brain Team)

简介

目标检测模型在检测准确度方面有了很大进步，但随之而来的问题是模型结构越来越复杂、参数越来越多、训练成本越来越昂贵，例如 AmoebaNet-based NAS-FPN detector 达到 SOTA 的检测准度时有 167M 参数，3045B 次加法和乘法运算，由于模型本身巨大的计算量和资源需求，很难实现整个系统高效运行，不适合部署在现实场景。

有一些研究工作已经在关注更加高效的网络架构，比如 one-stage detectors 、anchor-free detectors、对已有模型压缩。作者认为这些工作存在两个问题：

追求模型效率时，牺牲了准确率
提出的检测器只能在特定软硬件资源条件下工作，不能适配不同的资源场景：from mobile devices to data centers
- 我认为这个理由比较牵强，是用来写作的目的，因为有的检测器就是为了解决特定的问题，而不是大范围的问题

本文的直观想法是：能否建立一个 scalable detection architecture，兼具 higher accuracy、better efficiency，来适配不同的资源限制条件？所以本文研究的重点是：基于 one-stage detectors，检测器中backbone、feature fusion、class/box network 架构设计。面临的挑战有：

efficient multi-scale feature fusion
- 类似的工作 FPN、PANet、NAS-FPN，说明这块很重要
- 我觉得更多是为了呼应提出的 Bi-directional Feature Pyramid Network (BiFPN)
model scaling
- 缩放一个轻量、高准确度的网络，有助于兼顾accuracy、efficiency
- 我觉得这个是重点

整体流程：

用 EfficentNet 作为提取图片特征的主干网络
- EfficentNet 是一个图片分类器系列 B0-B7，经过缩放得来
用本文重点强调的 BiFPN 对特征进行融合
再输入到目标分类和边界框回归网络

主要方法

BiFPN
- 对backbone抽取的特征进行融合，为什么先介绍它？我觉得是作者想强调这部分创新点，backbone部分使用的已发表的工作
- 问题定义
  - 输入：a list of multi-scale features $\overrightarrow{P}^{in} = (P_{l_1}^{in}, P_{l_2}^{in}, …)$
    - $P_{l_i}^{in}$ 是backbone $l_i$ 层的特征
  - 输出：a list of new features $\overrightarrow{P}^{out} = f(\overrightarrow{P}^{in})$
    - 目标是找到一个变换 $f$ 有效地融合不同层特征
- 拿FPN举例说明
  - 3-7 层是输入特征 $\overrightarrow{P}^{in} = (P_{3}^{in}, …, P_{7}^{in})$，$P_{i}^{in}$ 表示第i层的feature map，它的分辨率等于输入图片的 $1/2^i$
  - 例如：输入图片的大小是 640 x 640，那么 $P_{3}^{in}$ 表示 80 x 80 的特征图 $\leftarrow$ 640/$2^3$ = 80，其他层依次类推
  - FPN 集成backbone不同层特征的方式是 top-down pathway：
    - $P_{7}^{out} = Conv(P_{7}^{in})$
    - $P_{6}^{out} = Conv(P_{6}^{in} + Resize(P_{7}^{out}))$
    - $\cdots$
    - $P_{3}^{out} = Conv(P_{3}^{in} + Resize(P_{4}^{out}))$
    - $Resize$ 通常是 upsampling or downsampling operation
    - $Conv$ 通常是卷积操作
- Cross-Scale Connections —— 这一部分探究融合不同层次特征的方法，追求高的检测精度和运行速度
  - 从FPN的结构看出，信息流是从上到下的，也就是说单向的
  - PANet 提出双向特征融合的方法，既有从上到下的信息流，也有从下到上的
  - NAS-FPN [10] 采用神经架构搜索的方式，选取较优的特征融合方式
    - 需要费很多时间、动用许多GPU设备，才可能找到好的架构
    - 搜索结果可解释性差
  - 本文提出的 BiFPN，作了几点改进
    - 移除只有一条入边的结点，作者这样的结点贡献很小，当然删除后无疑简化了网络：？？不太清楚以什么网络为基础，以及如何做这样的操作
    - 同层的输入、输出结点，增加一条边：类似 skip connection 的操作
    - unlike PANet [26]，把每个 bidirectional (top-down and bottom-up) path 当作特征融合的一层或一个block，然后repeat the same layer multiple times
- Weighted Feature Fusion
  - 通常的特征融合方法，没有区别每层的输入特征对输出的贡献，本文认为应该区别对待，即对每层特征加权，加权的方式有几种：
  - unbounded fusion：$O = \sum_{i} w_i \cdot I_i$，$w_i$ 是个可学习的权重，具体可以是标量（per-feature）、向量（per-channel）、多维Tensor（per-pixel）。本文认为采用标量的形式，达到的效果与其他形式类似。但是标量的取值范围变化很大 —— 可以是非常大的值、非常小的值，因此要采用归一化的权重。（？？不明白说这些有什么用，大家都懂，而且本文没采用这种方式加权特征）
  - softmax-based fusion: $O = \sum_{i} \frac{e^{w_i}}{\sum_{j}e^{w_j}} \cdot I_i$，相当于对归一化做的变形，这种方式的问题是计算量很大，会降低模型效率
  - fast normalized fusion: $O = \sum_{i} \frac{w_i}{\epsilon + \sum_{j}w_j}$，$\epsilon$ = 0.0001，其实没有多大改变，就是关注到了很多细节之处。
    - 后面的实验表明 fast normalized fusion 这样做提高了模型运行效率
- As a concrete example, here we describe the two fused features at level 6 for BiFPN
  - $P^{td}_{6}$ is the intermediate feature at level 6 on the top-down pathway
  - and P^{out}_6 is the output feature at level 6 on the bottom-up pathway
  - 为了进一步提高效率(从这里来看，这篇论文写作技巧很好，到处强调自己的东西，把使用前人的工作的描述放在边边角角)
    - use depthwise separable convolution [7, 37] for feature fusion
    - and add batch normalization and activation after each convolution
EfficientDet
- Architecture
  - ImageNet-pretrained EfficientNets as the backbone network
  - BiFPN as feature network，输入是 backbone L3-7 的特征
  - features are fed to a class and box network to produce object class and bounding box predictions
    - 物体类别预测、物体边界框回归两个网络，共享所有层的特征
- Compound Scaling
  - 之前的缩放方法：堆叠 FPN layer、使用更大的backbone，对模型效率不够好
  - 本文受 EfficientNets 启发，设定一个 compound coefficient $\phi$，同时缩放 all dimensions of backbone , BiFPN, class/box network, and resolution.
  - Backbone network
    - 复用 width/depth scaling coefficients of EfficientNet-B0 to B6
    - EfficientNet 是在ImageNet上训练的，学习到了大量常见物体的特征
  - BiFPN network
    - 线性增加 BiFPN 的深度 $D_{bifpn}$(#layers) $\leftarrow$ 网络深度需要是整数
    - 指数增加 BiFPN 的宽度 $W_{bifpn}$(#channels) $\leftarrow$ 与EfficientNet的操作类似
    - 因此，$ W_{bifpn} = 64 \cdot (1.35^\phi)$，$D_{bifpn} = 3 + \phi$
      - 1.35 是从 {1.2, 1.25, 1.3, 1.35, 1.4, 1.45} 网格搜索得到
  - Box&Class prediction network
    - 让网络宽度与BiFPN保持一致，线性增加深度 $\rightarrow$ $D_{box} = D_{class} = 3 + \lfloor \phi/3 \rfloor$
  - input image resolution
    - 线性增加分辨率，$R_{input} = 512 + \phi \cdot 128$；由于之前BiFPN的设计，为了让分辨率能被 $2^7$ 整除
  - 至此，变换不同的 $\phi$，就能得到一系列不同架构的检测器

实验

EfficientDet for Object Detection
- 数据集：
  - COCO 2017 detection datasets [25] with 118K training images
  - report accuracy for both test-dev (20K test images with no public ground-truth) and val with 5K validation images
EfficientDet for Semantic Segmentation
- 主要是为目标检测设计的，这里是为了看语义分割的效果
- modify EfficientDet model to keep feature level {P2, P3, …, P7} in BiFPN, but only use P2 for the final per-pixel classification
- only evaluate a EfficientDet-D4 based model, which uses a Ima- geNet pretrained EfficientNet-B4 backbone (similar size to ResNet-50)
Ablation Study
- all accuracy results here are for COCO validation set
- Disentangling Backbone and BiFPN
- BiFPN Cross-Scale Connections
- Softmax vs. Fast Normalized Fusion
- Compound Scaling