KaiSu's Homepage

以我目前所读论文为依据，现有算法大体上分为两种类型：

1.Classifying Search Windows
2.Directly Predict Key Point Positions（or Shape Parameters）

暂时没有接触第一种category的paper，第二种还可以细分为两种：

1.基于模型（Model Based），代表有AAM、ASM
2.基于回归（Regression Based）。还可以细分为基于线性回归的，代表有CPR, LBF等；基于非线性回归的，代表有DCNN、CFAN、TDA等

对每个paper我关注以下几点：

属于那种框架或模型：基于Model？Cascaded（级联）模型？基于Deep Learning的非线性回归模型？等等
优缺点：算法的Speed、Accuracy；是否利用特征点之间的相对位置关系（Geometric/Shape Constraints）以增强鲁棒性；对Occlusion、Pose Variations、Lighting的是够敏感
Feature是如何提取的，使用的是Local Feature还是Global Feature

Model Based

基于模型的论文都对人脸建立了一定的模型，也是论文的核心idea，较为出名的模型有：AAM模型、ASM模型、CLM模型。它们提出的模型可以刻画出人脸图像，所以只需要求得特定人脸对应的模型参数（即Directly Predict Shape Parameters），即可合成相应的人脸图像

ASM（Active Shape Model）是一种基于点分布模型（Point Distribution Model）的算法，AAM（Active Appearance Model）则在ASM基础上，进一步对纹理进行建模，并将形状和纹理两个统计模型进一步融合为表观模型。其中ASM为每个特征点构建局部特征，AAM则使用全局纹理信息

AAM模型拟合过程如下：

基于模型的方法难点在于人脸模型的建立，而且对初始值很敏感，鲁棒性不高

这方面论文大都在1998年左右发表，只看了4篇，理解不多，就简略介绍

Regression Based

该方法尝试学习从Deteced Face Region 到 Facial Landmarks的 Mapping，有基于线性和非线性Regressor的两种方案

1.线性Regressor

1.1 Cascaded Pose Regression（CVPR 10）

级联回归模型在CVPR 10首次提出。它的核心思想是学习多个回归器，每个回归器预测当前形状和真实形状之间的偏差（也叫增量），然后将偏差合成（想加）到当前形状，形成新的预测形状，作为下一个回归器的输入，从而逐步逼近真实值

每个回归器均不一样，需要预先提取特征，作为回归器的输入，特征采用Pose-Indexed Features（不是很理解特征提取这方面，懂的人可以告知本人，不胜感激），也可以使用SIFT、HOG等人工设计的特征；回归函数采用Random Fern Regressors

CPR有明显的缺点：其对初始化形状非常敏感，论文中使用K次不同的初始化形状来测试，并融合K次的测试结果作为最终预测形状。而且CPR不能有效解决Occlusion问题

CPR出现后，之后的回归模型算法大都基于级联框架，统一称作级联回归模型，只是不同的级联回归算法使用的Regressor和特征不同，别的基本一致，所以级联框架的提出算是Face Alignment发展史的伟大一步

1.2 Face Alignment by Expicit Shape Regression（CVPR 12）

论文设计了Two-Level Boosted Regression增强了鲁棒性，使用Correlation-Based Feature Selection方案来提取Shape Indexed Feature，大大提高了时间效率

Two-Level Boosted Regression具体是指：External-level和Internal-level，即boosted regression和two level cascaded的结合。其中最原始的回归器r基于Random Fern学习

而且，论文注意到形状约束的重要性。它认为只有那些显著的特征点（眼睛中心、嘴巴边缘）可以由image appearance可靠地得到，其余不显著的Landmarks需要使用特征点间的shape constraint进行约束。先前的工作如ASM、AAM利用参数化的形状模型（PCA）来强制这种约束，而本文则抛弃不灵活的固定模型，使用boosted regression，使得shape constraint adaptively enforced from coarse to fine，论文的结论是最终的shape是初始形状和所有训练形状的线性组合，只要初始形状满足形状约束，得到的regressed shape在由所有训练的shape构成的线性子空间中也满足形状约束（具体证明见论文），所以和之间预先固定的PCA shape model相比，论文非参数化的形状约束adaptively determined

1.3 Using Conditional Regression Forests（CVPR 12）

论文不同于基于Regression Forest的方法，它的核心是基于Conditional Regression Forests。一般基于Regression Forest学习到facial image patches和location of feature points之间的mapping，而conditional regression forest则基于face image的某些属性预先进行分类，然后基于特定分类下的regression forest学习相应的mapping

如图，可以依据head pose将图片分为5种Label：profile left；left；front；right；profile right

1.4 Robust Face Landmark estimation under occlusion（ICCV 13）

又名：Robust Cascaded Pose Regression（RCPR），旨在解决CPR的遮挡问题，它在预测landmarks的同时预测特征点被遮挡的状态

同时RCPR对CPR的初始化敏感问题也提出了改进，即智能重启：随机初始化一组形状，运行至级联模型的前10%回归器，统计形状预测的方差，如果方差小于一定阈值，说明这组初始化不错，则跑完剩下的90%的级联函数，得到最终的预测结果；如果方差大于一定阈值，则说明初始化不理想，选择重新初始化一组形状

1.5 DRMF（CVPR 13）

论文首先用Constrained Local Models（CLM模型）对人脸进行建模。之后DRMF利用SVR对回归器建模，并使用HOG特征（相对的有：SIFT特征）最为回归函数的输入，最终预测出CLM的人脸模型参数，而不是直接预测人脸的形状。由于模型很难刻画出完整的人脸变化形状，所以鲁棒性欠缺

1.6 Regressing Local Binary Features（CVPR 14）

如图，LBF使用了Random Forest作预测，但LBF并没有直接采用随机树中叶子节点存储的形变量作为最终预测结果，而是将输出组成二值化特征（LBF），再利用这个LBF来作最终的形变预测

总的来说，LBF方法第一步为每个landmark独立建立随机森林，形成各自的Local Binary Feature；然后连接所有的LBF作全局线性回归（这样可以有效利用关键点间的约束信息）得到最终形变量。其中第一步基于random forest学习得到Feature Mapping需要使用到shape indexed feature，也因为LBF非常稀疏，所以计算速度很快

1.7 Supervised Descent Method

SDM将Face Alignment看作非线性最小二乘问题。通常求解非线性最小二乘问题可以通过二阶的牛顿法解决，然而在computer vision任务中，某些函数不一定可微，而且Hessian矩阵位维数很大且不一定正定，所以论文提出了SDM算法来最小化非线性最小二乘函数，即以监督学习方式求解梯度方向

在训练阶段，SDM学习每个特征点的非线性最小二乘函数的梯度方向，组成梯度序列。之后测试阶段，就可以直接使用学习好的梯度方向来最小化非线性最小二乘函数，从而避免直接计算Jacobian或Hessian矩阵

通过论文可以发现，因此需要学习一组梯度序列，该方法属于级联回归模型

1.8 Face Alignment with an Ensemble of Regression Trees（CVPR 14）

论文基于集成回归树学习从input image到landmarks的映射；而且论文为image中每个landmark引入权重W可以解决训练数据标记缺失的问题

2.非线性Regressor：利用CNN进行非线性建模（级联卷积神经网络）

2.1 CUHK的DCNN（CVPR 13）提出了3层框架

DCNN

第一层使用整个face image作为input region（所以特征是global high-level feature），得到了initial predicitons，所以该层为initialization stage。而且该层同时进行不同key points的预测，所以能有效利用geometric constraints

之后的二三层对第一层的结果进行refine，每层的cnn以当前预测点为中心，提取local feature，预测出当前facial points和ground truth之间的偏差

可以看出DCNN采用coarse-to-fine的步骤，一步一步逼近ground truth，因此也属于cascaded（级联）模型

2.2 CFAN（ECCV 14）

与DCNN类似，也是coarse-to-fine的级联模型，第一个CNN预测出初始值，后面的CNN用于refine从而逼近真实值。DCNN二三层是对第一层初始结果的refine，使用没有shape constraint的local features，因此容易得到局部最优值，对occlusion等影响因素的鲁棒性不理想。CFAN解决了这个问题，在同样的第一层处理之后，之后的每层使用point之间的约束信息（constraint），因此CFAN对第一步init值的敏感度要比DCNN低。另外，CFAN的每层的input image的分辨率逐渐提高，第一步用于快速的预测初始值，低分辨率的图片对应于large search step，后面紧跟的refine用作局部调整，则选择使用高分辨率的image作为input

2.3 TDA（ACCV 14）

TDA与DCNN、CFAN大体类似，其不同之处是先根据Face Image的Topic进行分类，然后使用每个分类下独立特有的CNN网络进行处理

这里的Topic分类是指通过k-means clustering对人脸图片进行分类，来决定人脸图片属于5中Topic中的哪一类，以决定之后使用某具体分类下的CNN网络。和级联回归模型中的Conditional Regression Forests（利用face image的head pose对face进行分类）想法类似

可以看出上面三种级联深度模型都将Image To Shape的mapping分解到级联框架的各个stage分别进行训练或处理，而且基于CNN对非线性映射进行建模，也免于特征的手动提取

References

作为CV新手，文章不免会有许多理解上的错误

Kai Su / 2016-08-24
Published under (CC) BY-NC-SA in categories Research tagged with face alignment paper