深度学习

人脸识别的loss设计

改进人脸识别模型的核心思路

封面图片：Photo by Ben Sweet

基于深度学习的物体检测离不开复杂的Anchor策略。与之相比人脸识别看起来复杂而实际逻辑简单了很多。文章“ArcFace: Additive Angular Margin Loss for Deep Face Recognition”中设计了一种能够有效提升人脸识别准确率的loss方案。除了技术细节，Introduction部分的内容对于了解loss设计的背景帮助很大，特地摘抄在这里。

基于深度卷积神经网络编码的人脸识别是一种有效的方案。深度卷积神经网络将人脸图像编码为同时具备较小类内距离与较大类间距离的抽象特征。

训练这类网络通常有两种方案。一种基于多类别分类器实现训练集内部的身份辨别，例如softmax分类器；另一种则直接学习抽象特征，例如triplet loss方案。在大规模数据与深度神经网络的加持下，两种方案都可以取得出色的识别结果。但是它们也有各自的不足之处。对于softmax loss来说，最后一层的权重矩阵随着数据中身份数量的增加而线性增加；学习到的特征用于区分训练集内的身份来说足够好，但是应对未知身份数据时差强人意。对于triplet loss，身份数量的增加会爆炸性的增加训练样本组合的数量，延长训练时间；中等难度样本的挖掘对于高效训练来说也是一大难点。

一系列方案被用来提升softmax loss类模型的辨识能力。例如center loss，通过衡量每个特征向量与其类别中心的欧氏距离来获得紧凑的类内分布，同时借助softmax保证类间的疏离分布。这种方案的不足在于当身份数量急剧上升时，训练中更新类别中心变得异常困难。

基于softmax方案模型的最后一个全连接层权重参数理论上蕴含了每个身份的类别中心的信息，Sphereface提出使用乘性的角度区间来同时获得紧凑的类内分布与疏离的类间分布。然而Sphereface的loss引入的近似运算会导致训练不稳定，为了弥补这一缺陷需要联合标准softmax一起使用。然而基于整数的乘性角度区间数值曲线非常陡峭不利于收敛，使得softmax主导了训练过程。相比之下CosFace直接将反余弦区间叠加在目标数值之上，不仅可以脱离softmax，实现简单，还获得了更好的效果。

ArcFace提出的加性角度区间loss进一步提升了人脸识别模型的辨别能力并且使训练过程更加稳定。如图所示，深度卷积神经网络的特征与全连接层权重的点乘等同于特征与权重归一化后的余弦距离。使用反余弦函数可以计算出当前特征与目标权重之间的角度。为目标角度叠加加性的角度区间，之后便可以使用余弦函数获得目标数值。将该数值进一步缩放之后，剩余的步骤与softmax完全一致。