摘　要 针对视频人脸识别(Video Face Recognition, VFR)中系统不能很好地学习人脸图像有效特征的问题，提出了非约束局部参考集匹配方法（Non-Binding Local Reference Set Matching, NB-LRSM），利用参考集在两个图像集之间预先定义参考集，构造成多个离线的局部模型，分别与参考集进行匹配，无需考虑所有的成对情况，从而计算出它们的相似度，有效地将视频人脸识别问题转化成了一个二次规划问题。所提方法的有效性在Honda、MoBo及YouTube三大视频人脸数据库上进行了验证，实验结果表明，与几种最先进的方法相比，所提方法取得了更好的识别效果。

关键词 视频人脸识别；特征提取；非约束；局部参考集匹配

中图分类号 TP3 文献标识码 A

Application of Non-Binding Local Reference Set Matching in Video Face Recognition

XXX

Abstract For the case that system cannot extracts effective feature of the face images in video face recognition (VFR), Non-Binding Local Reference Set Matching (NB-LRSM) is proposed by which in advance between the two image-sets constructing multiple offline local models. Match with the reference set rather than considering all pairs of cases which used for calculating similarity. This challenge is transformed into a quadratic programming issue, which contains the local neighboring relations and consistency of the local geometry. The effectiveness of the proposed method is validated in three databases: Honda, MoBo and YouTube. Experiments results show that the proposed method has better recognition accuracy comparing with several latest approaches.

Keywords Video face recognition; Feature extraction; Non-Binding; Local referring set matching

0引　言

随着模式识别技术的飞速发展，基于视频的人脸识别（Video Face Recognition, VFR）^[1-2]越来越受到关注，因为与静止的相机相比，摄像机比较常用，并且可以提供更多的信息。在VFR情况下，图库和查寻集都是视频序列，而不是静止的图像。所以VFR问题可以转换成两个视频序列之间的相似度测量^[3]。直观地说，可以通过从视频序列中选取一组具有代表性的帧（即所谓的关键帧或样本）作为模型建立基于外貌的系统，然后执行基于静止图像的识别。显然，这种方法没有充分利用空间和时间信息。为了利用这些信息，人们开发出一些技术，例如使用隐马尔可夫模型 (Hidden Markov Model, HMM) ^[4-5]。尽管如此，基于时间模型的方法尚未完全显示出其潜能，因为这些方法存在着一些缺陷，例如仅仅使用全局容貌而忽略局部信息，缺乏面部动态特征的判别能力。

近年来，基于图像分类的图像集相关的方法经历了一次爆炸性的发展^[6]。总的来说，这些方法归于两类：参数模型法和非参数样本法。前者使用一些参数分布（例如高斯分布^[7]）去表达每个图像集，然后测量其分布相似性。参数法的不足是其必须预先假设某个分布并且该分部存在参数估计问题。如果数据集不是按照定义的统计分布，则估计模型将会与数据集不一致。一些非参数方法试图把图像集表示为一个线性子空间^[8]，或非线性簇^[9]。这种方法不附带任何数据分布的假设，并且相对于参数模型来说具有许多优点。与此同时，也开发出测量两个子空间之间的相似度或者距离的算法。代表性的方法是主角法，计算出两个空间的主成分的夹角以及两个仿射包之间距离最近的点。文献[10]应用仿射包模型来解释不可见外观并且提出近似最近点法以衡量不同集之间的相似性，其通过施加稀疏约束使得最近点贴近某些平面。

基于这样的假设，相同目标的人脸头像以非线性簇分布而不是线性子空间分布，文献[11]从子空间-子空间距离拓展至簇-簇距离^[12]，其中通过最大线性分割^[13]，线性簇分割成数个局部线性模型，然后转化成逐对的子空间之间的距离。局部线性模型的一个延伸称为簇判别分析，它的提出用于求解约束簇之间的距离。这些基于非线性簇的方法在多个公共人脸数据库中都收到了很好的效果。

为了解决上述问题，本文提出了非约束参考集匹配方法(Non-Binding Local Reference Set Matching, NB-LRSM)，较好地定义一个参考图像集并且事先结构化成若干局部线性离线模型，然后将其与所有的图像集匹配。换言之，给定两个用于比较的图像集，只要它们都与参考集进行匹配，它们都会互相匹配且很好的结构化，不再使用MDA^[14-15]中的总体线性变换，通过训练对应子空间中可以得到多元线性变换，然后可以运用在查询图像集上。与文献[11]的几何结构匹配方法不同，本文构建了局部重建关系，是仿射不变的，所以不需要考虑所有可能的排列。除了施加平滑功能，还在模型中添加了匹配成本项来增加稳定性。

1图像集匹配（ISM）

图像集匹配（Image Set Matching, ISM）之前，首先选择一个图像集作为参考集，这样所有的图像集都可以与之进行相互匹配。引入参考集的目的有以下三点：（1）避免由上述提到的MMD和MDA归类引起的偏差；（2）解决由于查寻集和图库集部分一致性造成的困难；（3）减少查寻集和所有图库集在线匹配的高计算成本。

下文首先开发了一个初级方案来解决图像集对齐问题，并提供了每个模型的术语进行详细描述。最后，总结了一个高效的算法。本文中，连接所有像素的强度，形成特征向量进而表征任意人脸图像。形式上看，两个图像集，目标集（图库集或待测集）和参考集分别由和表示，其中和表示样本，和分别是和中的样本数。目标是寻找一个映射函数，即所谓的匹配函数，它将中任意目标图像映射到中的参考图像。将这个问题看作一个优化问题：

(1)

上述方程中，表示的邻近元素，和是三项的影响平衡系数。第一项表征两图像集之间的几何相似度值，其中为几何一致性函数，衡量两个局部模型的差异程度。第二项反应了外观相似度，其中为两点之间的匹配成本函数。第三项用于保持平滑性，例如目标集的邻近关系应当储存在参考集中。受局部线性嵌入（LLE）和最近的文献^[2-8]的启发，引入局部恒定的几何约束用于图像集的匹配。如上面所说，将每个图像集表示为一个簇。为了表征簇中每个点的领域的几何性质，假设每个可近似表示为它邻近点的仿射和：

(2)

其中是所有点的重组权重矩阵，存储了点的所有重组系数，其中。具体而言，就是利用最小二乘法描述每个点的局部几何特性，即：

(3)

显然，方程(3)是近似仿射不变的。所以，可以通过权重矩阵进一步将式化，如下面的目标函数所示，

(4)

其中表征了图像集的重组权重矩阵。如果将每个点的映射关系标记为一个向量，那么函数可以表示为二维矩阵。因此，式(4)可以改写成如下的矩阵式，

(5)

由于每一行的和都等于1，所以可以看做某个图形的拉普拉斯矩阵，其中边界可以由构建，其中是一个单位矩阵。

相对于文献[7]的方法，利用k个邻近图像集的欧式距离矩阵去描述局部几何特性，其所有的可能的排列都考虑进匹配成本，模型是局部仿射不变的，求解映射是很容易的。

2非约束局部参考集匹配（NB-LRSM）

为了测量姿势，光照，表情及其他因素互不相同的来自不同图像集的两个图像的相似度，本文提出其对应局部空间的最大主角作为面部匹配样本。

给定两个线性子空间和，主角

等同于如下定义：

(6)

其中和是标准向量的第对元素，“\”指子空间的减法运算。主角的余弦值称为典型相关值。显然，最大主角越小，子空间越接近。通常情况下，根据最相似模模型选取标准向量的第一对元素之间的距离作为两个子空间的距离。为了求解该模型，引入文献的基于奇异值分解的数值稳定性算法。

鉴于上述对于子空间距离的定义，可以根据两个局部线性子空间的最大主角计算两个图像的相貌匹配成本，进而推进到邻近的两个图像。式中，因为和分别来自于和，所以他们邻近的元素可以拓展为子空间和。然后，根据上述子空间距离计算和和匹配分值，记作。然后，将图像集和的匹配值记作矩阵。这样，函数(3)式中可以改写为。其中表示矩阵的迹。直观地说，簇应当保持平滑，构成的曲面嵌入更高维数的欧式空间中。因此，匹配两个图像集时，应当保存其局部的邻近关系。也就是说，X中邻近的两个图像，在Y中与之对应的图像也应当是邻近的。

形式上，定义X每个图像的第k个邻近关系记为矩阵，

(7)

所以，第三项式（4）中可以由以下式表出，

(8)

其中，，是局部邻近元素个数。

根据以上分析，目标函数（1）可以由一个如下的带整数约束的二次规划进行式化，

(9)

变量是一个的表征图像匹配函数的二维分配矩阵。的每一行只包含一个，这意味着中每个点在中有且仅有一个投影点。式(9)中有三个约束。第一个约束保证中所有图像匹配到中。第二个表示和中点的匹配关系要么是“是”要么是“否”。第三个约束表征了中最多有个图像可以匹配到中相同的图像。

式(9)是一个带整数约束的二次目标函数，这完全是问题，不能有效求解。放开整数约束，同时将目标函数简化如下：

(10)

其中，可以由求出，方程如下，

(11)

本文采用“内点”法去优化目标函数(11)。为了提高算法的执行效率，利用置信区间收缩法（如文献[9]所述）去近似求解凸面优化问题。用中几何结构和相貌相似度最相似的样本去初始化置信区间。因而，主要的时间成本用来求解目标函数(11)。值得庆幸的是，恰好该目标函数是凸函数，所以可以快速地收敛。

所提方法的实现过程如下所示：

算法1 非约束局部参考集匹配

输入：

输出：二维矩阵

1) 分别找出和中每个点的近邻；

2) 由式（3）计算出权重矩阵；

3) 由主角计算出相貌匹配成本；

4) 对于每个点，初始化置信区间；

5) While置信区间足够大:

6) 由式（10）求解；

7) 通过移除中值非常低的点收缩置信区间；

8) End

9) 根据最终的置信区间，由式（10）求解。

10) 将量化到矩阵；

11) 优化目标函数(11)；

12) 计算各个图像集与参考集之间的欧式距离；

13) K近邻完成识别。

3实验

3.1人脸数据库

实验使用了三大通用的视频人脸数据库：Honda/UCSD^[3]，CMU MoBo^[4]和YouTube Celebrities^[7]。

Honda/UCSD由Lee等人收集用于视频人脸识别研究。实验用他们的第一个子集，包含20个目标的59段视频（对于每个目标至少有2段视频）。每个视频序列包含不同的姿势和表情变化。使用级联的人脸检测器检测每段视频序列的人脸。然后，将所有的人脸调成20×20像素的灰度图像[7]。视频的长度从12帧到645帧不等。为了消除灯光影响，采用直均衡化的方图对图像进行预处理。

CMU MoBo数据库起初创建是为了用于人的姿势鉴定。该数据库包括了24个不同目标的96个序列，即每个目标4段视频。每个视频都是从跑步机上行走时抓拍的，有300帧。利用处理Honda数据库相同的方法去获得30×30像素的人脸图像。

YouTube用于在真实世界中进行跟踪和识别。该数据集包含47位明星（男演员，女演员和政治家）的1910段视频序列。每个序列数百帧，低分辨率和高压缩率。与Honda和MoBo数据库相比，该数据库更加具有挑战性，因为噪声因素以及姿势，光照和表情的复杂变化。人脸图像同上调整为30×30像素。

3.2实验结果

实验首先进行图像匹配实验去验证所提的匹配方法的有效性，接着，将该匹配方法应用到基于视频的人脸识别中。为了验证提出的匹配算法的有效性，用各种姿态执行人脸图像匹配，利用数据库去评估该算法。这里，随机选取50个目标，对于每个目标，选取7个姿势，面侧角( 间隔)下不同表情和光照的83张人脸图像。这些图像裁剪至20×30像素来模拟低质量的视频人脸图像。

所提方法主要的参数设置：(1) 控制参数：λ1=2，λ2= 0.1；(2) 当对局部线性模型的灰度特征的进行投影时，对应于三个数据库，PCA的维数分别设定为70，60，80；(3)LDA的维数设置为分类数减1。实验利用欧式距离计算投影后两个相关线性模型的相似度，最小值就是最终图像集的距离。的值取0或1，近邻数k取不同的值(k=1,3,4,…,10)，进行了大量的实验，在三个视频人脸数据库上的实验结果图1（）、图2（）所示。

图1 r=1时所提方法在各个人脸库上的识别率

图2 r=0时所提方法在各个人脸库上的识别率

从图1、图2中可以看出，随着近邻数的增加，r为1的情况下，所提方法在三个视频人脸数据库上取得的最佳识别率分别为98.9%、95.0%、74.6；r为0的情况下，所提方法在三个视频人脸数据库上取得的最佳识别率分别为97.2%、93.8%、72.5%。当为1时，最近的姿势也视为是一次正确的匹配，而为0时，表示仅仅当计算对应的姿势时才是正确的匹配。同时，时，该方法的最高识别率可达98.90%，这意味着几乎所有的匹配结果最多在的姿势偏差内。值得指出的是，以前的研究仅使用几何相似度，而没有相貌匹配成本，所提方法具有更高的精度，可能是因为同时使用了相貌匹配成本和几何结构相似度的原因。此外，该方法仅需3秒就可以完成两个图像集之间的匹配，这比文献[7]的方法快多了。如图3所示为人脸图像匹配结果示例，其中，第三个人脸图像没有正确匹配：正面图像匹配到了一张偏了的图像。

图3 匹配结果示例

3.3比较与分析

这部分将所提方法与最近几年提出的各种图像集方法进行了比较，包括线性判别分析方法（LDA）^[2]、相互子空间法（MSM）^[4]，判别典型相关性分析法（DDC）^[5]，簇-簇距离法（MMD）^[7]，簇判别分析法（MDA）^[8]，以及稀疏近似邻近点法（SANP）^[11]。除了LDA方法，这里没有提供较多的基于样本方法的实验结果，因为文献[5,7,8,11]都已表明基于图像集方法的实验效果均比基于样本的方法好。对于三个不同的人脸数据库，所有参与比较的方法的最佳识别率如表1所示。

表1 不同方法的匹配样本识别率(%)

数据库	方法
数据库	LDA	MSM	MMD	DCC	MDA	SANP	所提方法
Honda/UCSD	0.78	0.923	0.963	0.981	0.982	0.959	0.989
CMU MoBo	0.885	0.886	0.897	0.903	0.947	0.902	0.950
YouTube	0.604	0.616	0.634	0.673	0.676	0.634	0.746

从表1中可以看出，与其它所有方法相比，所提方法在三个视频人脸数据库上取得的效果都是最好的。其中，MSM，MMD及SANP均以衍生的方法处理图像数据，而DCC、MDA及所提方法都利用了辨别式标签信息，这使得它们比DCC、MDA及所提方法稍逊一筹。在三个人脸数据库上，SANP方法都比MSM方法的效果更好，这是因为稀疏约束使得最近点更加贴近仿射面。与SANP方法一样，相对于MSM方法，MMD方法存在更优的识别效果，这是因为它把复杂图像用多个局部线性模型表示，也正因为如此，MDA和所提方法相对于DCC来说更加优越。MDA采用了非线性模型，但是它忽略了集之间的对应关系，仅仅采用总体线性转化以提取辨别特征，并执行成对子空间的比较，而没有匹配过程。与MDA相比，所提方法更为优越，这是因为它消除了由于归类而造成的偏差。

4结束语

针对视频人脸识别(Video Face Recognition, VFR)中系统不能很好地学习人脸图像有效特征的问题，本文提出了非约束局部参考集匹配方法，通过预先定义一个参考集，构造了多个局部模型，这些模型对于两个图像集的匹配起着很关键的作用。所以，仅需要几个对应的局部模型而非成对的模型就可以获得相似度的值。

目前而言，所提的非约束局部参考集匹配算法首次从簇的观点将求解这个问题转化成了优化问题，在三大通用视频人脸数据库上的实验结果表明，相比其它文献中的方法，所提方法在处理视频人脸识别问题时是非常有效的，并且效果也是非常稳定的。经后，会将所提的方法运用到其它视频人脸数据库中进行测试，改变不同参数的初始设置及变化，通过实验进一步提高识别率，并且改善识别率的效率。

参　考　文　献 :

[1] 孙吉贵, 刘杰, 赵连宇. 聚类算法研究 [J]. 软件学报. 2008, 19(1): 48-61.

[2] 乔立山, 陈松灿, 王敏. 基于相关向量机的图像阈值技术 [J]. 计算机研究与发展. 2010, 47(8): 1329-1337.

[3] Z. Zhang, J. Wang, and H. Zhan, Adaptive Manifold Learning, IEEE Transactions on Pattern Analysis and Machine Intelligence. 2012, 34(1): 131-137.

[4] J. Wright, A.Y. Yang, A. Ganesh, S.S. Pastry, and Y. Ma, Robust Face Recognition via Sparse Representation, IEEE Trans. Pattern Analysis and Machine Intelligence. 2009, 31(2): 210-227.

[5] 文乔龙, 万遂人, 徐双. Fisher准则和正则化水平集方法分割噪声图像 [J]. 计算机研究与发展. 2012, 49(6): 1339-1347.

[6] JF Connolly, E Granger, R Mambourin, An adaptive classification system for video-based face recognition [J]. Information Sciences. 2012, 192(1): 50-70.

[7] 王佳奕, 葛玉荣. 基于Contourlet及支持向量机的纹理识别方法 [J]. 计算机应用. 2013, 33(3): 677-679.

[8] F Hafiz, AA Shafer, YM Mustafa, Face Recognition From Single Sample Per Person by Learning of Generic Discriminant Vectors [J], Procardia Engineering. 2012, 45(3): 465-472.

[9] Z. Xie, G. Liu, Z. Fang, Face Recognition Based on Combination of Human Perception and Local Binary Pattern [J], Lecture Notes in Computer Science. 2012, 72(2): 365-373.

[10] 杨关, 冯国灿, 陈伟福等. 纹理分析中的图模型 [J]. 中国图像图形学报. 2011, 16(10): 1818-1825.

[11] R Wang, S Shan, X Chen, eta1. Manifold–Manifold Distance and its Application to Face Recognition with Image Sets. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2012, 21(10): 4466-4479.

[12] Wang R, Shan S, Chen X, et al. maximal linear embedding for dimensionality reduction [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2011, 33(9): 1776-1792.

[13] Li H, Kim E, Huang X, et al. Object matching with a locally affine-invariant constraint[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 1641-1648.

[14] J.J.Verbeek. Learning nonlinear image manifolds by global alignment of local linear models [J]. IEEE Trans. Pattern Analysis and Machine Intell, 2006, 28(8):1236-1250.

[15] T. Zhang, D. Tao, X. Li, and J. Yang. Patch Alignment for Dimensionality Reduction [J]. IEEE Trans. Knowl. Data Eng. 2009, 21(9): 1299-1313.

0引 言