6.2 使用深度卷积网络提取特征
经过人脸检测和人脸识别两个步骤,就获得了包含人脸的区域图像,接下来就要进行人脸识别了。这一步一般是使用深度卷积网络,将输入的人脸图像转换成一个向量的表示,也就是所谓的“特征”。
如何针对人脸来提取特征?可以先来回忆VGG16的网络结构(见图2-22),输入神经网络的是图像,经过一系列卷积计算后,全连接分类得到类别概率。
在通常的图像应用中,可以去掉全连接层,使用卷积层的最后一层当作图像的“特征”,如图3-1中的conv5_3。但如果对人脸识别问题同样采用这种方法,即使用卷积层最后一层做为人脸的“向量表示”,效果其实是不好的。这其中的原因和改进方法是什么?在后面会谈到,这里先谈谈希望这种人脸的“向量表示”应该具有哪些性质。
在理想的状况下,希望“向量表示”之间的距离可以直接反映人脸的相似度:
· 对于同一个人的两张人脸图像,对应的向量之间的欧几里得距离应该比较小。
· 对于不同人的两张人脸图像,对应的向量之间的欧几里得距离应该比较大。
例如,设人脸图像为x1, 2x,对应的特征为f(x1), f(x2),当x1, 2x对应是同一个人的人脸时,f(x1), f(x2)的距离|| f(x1)-f(x2)||2应该很小,而当x1, x2是不同人的人脸时,f(x1), f(x2)的距离|| f(x1)-f(x2)||2应该很大。
在原始的CNN模型中,使用的是Softmax损失。Softmax是类别间的损失,对于人脸来说,每一类就是一个人。尽管使用Softmax损失可以区别出每个人,但其本质上没有对每一类的向量表示之间的距离做出要求。
举个例子,使用CNN对MNIST进行分类,设计一个特殊的卷积网络,让最后一层的向量变为2维,此时可以画出每一类对应的2维向量,如图6-10所示。
图6-10 当最后一层为2维时各个类别对应的2维向量的分布情况
图6-10是直接使用Softmax训练得到的结果,它不符合希望特征具有的特点:
· 希望同一类对应的向量表示尽可能接近。但这里同一类的点可能具有很大的类间距离。
· 希望不同类对应的向量应该尽可能远。但在图中靠中心的位置,各个类别的距离都很近。
对于人脸图像同样会出现类似的情况。对此,有很多改进方法。这里介绍其中两种,一种是使用三元组损失(Triplet Loss),一种是使用中心损失。
6.2.1 三元组损失的定义
三元组损失(Triplet Loss)的原理是:既然目标是特征之间的距离应当具备某些性质,那么就围绕这个距离来设计损失。具体地,每次都在训练数据中取出三张人脸图像,第一张图像记为,第二张图像记为,第三张图像记为。在这样一个“三元组”中,和对应的是同一个人的图像,而是另外一个不同的人的人脸图像。因此,距离应该较小,而距离应该较大。严格来说,三元组损失要求下面的式子成立
即相同人脸间的距离平方至少要比不同人脸间的距离平方小α(取平方主要是方便求导)。据此,设计损失函数为
这样的话,当三元组的距离满足时,不产生任何损失,此时Li=0。当距离不满足上述等式时,就会有值为的损失。此外,在训练时会固定‖f(x)‖2=1,以保证特征不会无限地“远离”。
三元组损失直接对距离进行优化,因此可以解决人脸的特征表示问题。但是在训练过程中,三元组的选择非常地有技巧性。如果每次都是随机选择三元组,虽然模型可以正确地收敛,但是并不能达到最好的性能。如果加入“难例挖掘”,即每次都选择最难分辨的三元组进行训练,模型又往往不能正确地收敛。对此,又提出每次都选取那些“半难”(Semi-hard)的数据进行训练,让模型在可以收敛的同时也保持良好的性能。此外,使用三元组损失训练人脸模型通常还需要非常大的人脸数据集,才能取得较好的效果。
6.2.2 中心损失的定义
与三元组损失不同,中心损失(Center Loss)不直接对距离进行优化,它保留了原有的分类模型,但又为每个类(在人脸模型中,一个类就对应一个人)指定了一个类别中心。同一类的图像对应的特征都应该尽量靠近自己的类别中心,不同类的类别中心尽量远离。与三元组损失相比,使用中心损失训练人脸模型不需要使用特别的采样方法,而且利用较少的图像就可以达到与三元组损失相似的效果。下面就一起来学习中心损失的定义。
还是设输入的人脸图像为xi,该人脸对应的类别为yi,对每个类别都规定一个类别中心,记作。希望每个人脸图像对应的特征f(xi)都尽可能接近其中心。因此定义中心损失为
多张图像的中心损失就是将它们的值加在一起
这是一个非常简单的定义。不过还有一个问题没有解决,那就是如何确定每个类别的中心呢?从理论上来说,类别yi的最佳中心应该是它对应的所有图片的特征的平均值。但如果采取这样的定义,那么在每一次梯度下降时,都要对所有图片计算一次,计算复杂度就太高了。针对这种情况,不妨近似一处理下,在初始阶段,先随机确定,接着在每个batch内,使用对当前batch内的也计算梯度,并使用该梯度更新。此外,不能只使用中心损失来训练分类模型,还需要加入Softmax损失,也就是说,最终的损失由两部分构成,即L=Lsoftmax+λLcenter,其中λ是一个超参数。
最后来总结使用中心损失来训练人脸模型的过程。首先随机初始化各个中心,接着不断地取出batch进行训练,在每个batch中,使用总的损失L,除了使用神经网络模型的参数对模型进行更新外,也对进行计算梯度,并更新中心的位置。
中心损失可以让训练处的特征具有“内聚性”。还是以MNIST的例子来说,在未加入中心损失时,训练的结果不具有内聚性。在加入中心损失后,得到的特征如图6-11所示。
图6-11 同时使用中心损失和Softmax得到的各个类别的2维向量的分布
从图中可以看出,当中心损失的权重λ越大时,生成的特征就会具有越明显的“内聚性”。