人工智能:模式识别
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4 二维主成分分析

众所周知,主成分分析(PCA)是线性特征抽取的最为重要的技术之一,广泛应用在人脸等图像识别领域。采用主成分分析技术进行人脸识别的最为著名的方法是Turk和Pentland所提出的Eigenfaces[23]方法(特征向量转化为图像显示,像一张人脸,故称为特征脸,即Eigenfaces)。尽管Eigenfaces方法在性能上有着不错的表现,但其弱点也是明显的。这是因为传统的PCA是基于图像向量的,图像向量的维数常常高达上万维。尽管利用奇异值分解定理可在一定程度上加速St的特征向量的求解速度,但整个特征抽取过程所耗费的计算量还是相当可观的。

受Liu[24]代数特征抽取思想的启发,本节提出了一种直接基于图像矩阵的PCA方法:二维主成分分析(Two-Dimensional PCA,2DPCA)[25,26]。该方法在处理图像识别问题时,不需要事先将图像矩阵转化为图像向量,而是直接利用图像矩阵本身构造所谓的图像总体散布矩阵,然后取它的d个最大特征值所对应的标准正交的特征向量作为投影轴即可。在标准人脸图像库上的试验结果表明,所提出的方法不仅在识别性能上优于基于传统PCA的Eigenfaces方法,而且大幅度提升了特征抽取的速度。

X为一个m×n型的图像矩阵,ζ为一个n维单位列向量,我们的思想是将X通过以下线性变换直接投影到ζ上。

于是,得到一个m维列向量Y,称为图像X的投影特征向量。那么,究竟往哪个方向投影呢?事实上,可以通过投影特征Y的散布情况来决定投影方向ζ。在此,我们采用以下准则

式中,Sy表示投影特征Y的总体散布矩阵。最大化准则式(2-57)的直观意义是,我们将寻找这样的投影方向ζ,使得投影后所得特征向量的总体散布量最大。Sy可表示为

则总体散布量为

定义以下的图像总体散布矩阵

由此定义,易证明Gtn×n型的非负定矩阵。

故式(2-57)中的准则函数为

该准则称为广义总体散布量准则。最大化该准则的单位向量ζ称为最优投影轴,其物理意义是,图像矩阵在ζ方向上投影后所得特征向量的总体分散程度最大。事实上,该最优投影轴即图像总体散布矩阵Gt的最大特征值所对应的单位特征向量。

一般来说,在样本类别数较多的情况下,单一的最优投影方向是不够的,我们希望寻找一组满足标准正交条件且极大化准则函数式(2-61)的最优投影轴ζ1,…,ζd

由于准则函数式(2-61)等价于

式(2-62)即为矩阵Gt的瑞利商,由瑞利商的极值性质[14],最优投影轴ζ1,…,ζd可取为Gtd个最大特征值所对应的标准正交的特征向量。具体地讲,设Gt的特征值满足λ1λ2≥…≥λn,且对应的标准正交的特征向量为ζ1,…,ζn,则最优投影轴取为前dζ1,…,ζd

基于最优图像投影轴ζ1,…,ζd,令

则得到一组m维图像投影特征向量Y1,…,Yd,它们可合并为图像X的一个N=md维整体投影特征Y

Y可以用于随后的分类识别。

接下来介绍基于2DPCA的图像重建。

在特征脸方法中,由特征脸和主成分的加权组合可以重构人脸图像。类似地,2DPCA也可以实现人脸图像的重建。

ζ1,…,ζd为2DPCA的一组标准正交的投影轴,图像X在这组投影轴上投影后,得到图像投影特征向量为Yk=kk=1,2,…,d)。令

V=[Y1,…,Yd],U=[ζ1,…,ζd]

则有

由于ζ1,…,ζd是标准正交的,由式(2-65)容易得到图像X的重建图像:

每个,与图像X具有相同的大小,构成X的重建子图,通过这些子图的相加可以近似地重建图像X。若选取d=n个主成分向量,其中nGt的特征值的总个数,则有,即实现X的无损重建。否则,若dn,重建图像是原始图像X的近似。