一文读懂——RetinaFace

Contributions

手工标注wider face数据集的5个关键点，在外监督的辅助下，人脸检测准确率得到提升
添加自监督网格编码分支（3D部分不讨论）。
在IJB-C测试集上，RetinaFace将ArcFace在人脸认证（face verification）上进一步提升（TAR=89.59%FAR=1e-6）。这表示更好的人脸定位可以显著提升人脸识别。
在WIDER FACE难子集上，RetinaFace的AP=91.4%,比最好的两级级联方法ISRN提升1.1%

model

1.特征金字塔
RetinaFace应用特征金字塔从P2到P6，其中P2到P5是从Resnet残差级（C2到C5）计算而来。P6将C5通过一个3×3，s=2的卷积得到。C1到C5来自于在ImageNet-11k数据集上预训练的ResNet-152分类框架而P6通过Xavier随机初始化。
p5=c5，通过skip connection，将相同维度的feature map 相加，获得p2-p6。

2.上下文模块
将独立上下文模块应用于5个特征金字塔上用于提高感受野和加强严格上下文建模能力。将所有侧连的3×3卷积层和上下文模块都替换为了DCN（deformable conv），可以进一步加强非严格上下文建模能力。

DCN在标准卷积中向采样网络中添加了2D偏移。对于输入的一张feature map，假设原来的卷积操作是3×3的，那么为了学习offset，我们定义另外一个3×3的卷积层，输出的offset field其实就是原来feature map大小，channel数等于2（分别表示x,y方向的偏移）。这样的话，有了输入的feature map，有了和feature map一样大小的offset field，我们就可以进行deformable卷积运算。所有的参数都可以通过反向传播学习得到。

在获得金字塔输出p2-p6后，作者又将输出放入context module。context module将原feature分成128×2，上面的128feature经过两层3×3deformable conv生成64feature，最后将带有3个不同感受野的feature concatenate成256的feature。其目的就是增加感受野，加强上下文联系。

3.Anchor设置
Anchor设置如表2所示，在从P2到P6的特征金字塔上使用特定尺度anchor。P2用于抓取小脸，通过使用更小的anchor，当然，计算代价会变大同事误报会增多。宽高比1:1。输入图像640×640,anchor从16×16到406×406在特征金字塔上。总共有102,300个anchors，75%来自P2层。给大家解释一下这个102300怎么来的：(160×160+80×80+40×40+20×20+10×10）x3 = 102300。

LOSS

对于每一个训练anchor i，我们最小化多任务损失：

1.人脸分类损失 $L_{cls}(p_i,p_i^*)$ ,pi表示月anchor i为人脸的概率，pi*表示lable真值.分类损失是softmax损失
2.人脸框回归损失 $L_{box}(t_i,t_i^*)$ ,其中 $t_i=(t_x,t_y,t_w,t_h)_i,t_i^*=(t_x^*,t_y^*,t_w^*,t_h^*)_i$ 表示与正样本anchor对应的预测狂的位置与真实标注框的位置，归一化box回归目标并使用 $L_{box}(t_i,t_i^*)=R(t_i,t_i^*)$ ,R表示smooth_L1
3.人脸关键点回归 $L_{pts}(l_i,l_i^*)$ ,于box回归一致，关键点归一化后使用smooth_L1函数计算loss。

一文读懂——RetinaFace

Contributions

model

LOSS

Published by

风君子