NO IMAGE

人臉識別主要演算法原理

主流的人臉識別技術基本上可以歸結為三類,即:基於幾何特徵的方法、基於模板的方法和基於模型的方法。

1. 基於幾何特徵的方法是最早、最傳統的方法,通常需要和其他演算法結合才能有比較好的效果;
2. 基於模板的方法可以分為基於相關匹配的方法、特徵臉方法、線性判別分析方法、奇異值分解方法、神經網路方法、動態連線匹配方法等。
3. 基於模型的方法則有基於隱馬爾柯夫模型,主動形狀模型和主動外觀模型的方法等。

1. 基於幾何特徵的方法

人臉由眼睛、鼻子、嘴巴、下巴等部件構成,正因為這些部件的形狀、大小和結構上的各種差異才使得世界上每個人臉千差萬別,因此對這些部件的形狀和結構關係的幾何描述,可以做為人臉識別的重要特徵。幾何特徵最早是用於人臉側面輪廓的描述與識別,首先根據側面輪廓曲線確定若干顯著點,並由這些顯著點匯出一組用於識別的特徵度量如距離、角度等。Jia 等由正面灰度圖中線附近的積分投影模擬側面輪廓圖是一種很有新意的方法。
    採用幾何特徵進行正面人臉識別一般是通過提取人眼、口、鼻等重要特徵點的位置和眼睛等重要器官的幾何形狀作為分類特徵,但Roder對幾何特徵提取的精確性進行了實驗性的研究,結果不容樂觀。

可變形模板法可以視為幾何特徵方法的一種改進,其基本思想是 :設計一個引數可調的器官模型 (即可變形模板),定義一個能量函式,通過調整模型引數使能量函式最小化,此時的模型引數即做為該器官的幾何特徵。
    這種方法思想很好,但是存在兩個問題,一是能量函式中各種代價的加權係數只能由經驗確定,難以推廣,二是能量函式優化過程十分耗時,難以實際應用。 基於引數的人臉表示可以實現對人臉顯著特徵的一個高效描述,但它需要大量的前處理和精細的引數選擇。同時,採用一般幾何特徵只描述了部件的基本形狀與結構關係,忽略了區域性細微特徵,造成部分資訊的丟失,更適合於做粗分類,而且目前已有的特徵點檢測技術在精確率上還遠不能滿足要求,計算量也較大。 

2. 區域性特徵分析方法(Local Face Analysis)

    主元子空間的表示是緊湊的,特徵維數大大降低,但它是非區域性化的,其核函式的支集擴充套件在整個座標空間中,同時它是非拓撲的,某個軸投影后臨近的點與原影象空間中點的臨近性沒有任何關係,而區域性性和拓撲性對模式分析和分割是理想的特性,似乎這更符合神經資訊處理的機制,因此尋找具有這種特性的表達十分重要。基於這種考慮,Atick提出基於區域性特徵的人臉特徵提取與識別方法。這種方法在實際應用取得了很好的效果,它構成了FaceIt人臉識別軟體的基礎。

3. 特徵臉方法(Eigenface或PCA)

特徵臉方法是90年代初期由Turk和Pentland提出的目前最流行的演算法之一,具有簡單有效的特點, 也稱為基於主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。
    特徵子臉技術的基本思想是:從統計的觀點,尋找人臉影象分佈的基本元素,即人臉影象樣本集協方差矩陣的特徵向量,以此近似地表徵人臉影象。這些特徵向量稱為特徵臉(Eigenface)。

實際上,特徵臉反映了隱含在人臉樣本集合內部的資訊和人臉的結構關係。將眼睛、面頰、下頜的樣本集協方差矩陣的特徵向量稱為特徵眼、特徵頜和特徵脣,統稱特徵子臉。特徵子臉在相應的影象空間中生成子空間,稱為子臉空間。計算出測試影象視窗在子臉空間的投影距離,若視窗影象滿足閾值比較條件,則判斷其為人臉。 
    基於特徵分析的方法,也就是將人臉基準點的相對比率和其它描述人臉臉部特徵的形狀引數或類別引數等一起構成識別特徵向量,這種基於整體臉的識別不僅保留了人臉部件之間的拓撲關係,而且也保留了各部件本身的資訊,而基於部件的識別則是通過提取出區域性輪廓資訊及灰度資訊來設計具體識別演算法。現在Eigenface(PCA)演算法已經與經典的模板匹配演算法一起成為測試人臉識別系統效能的基準演算法;而自1991年特徵臉技術誕生以來,研究者對其進行了各種各樣的實驗和理論分析,FERET’96測試結果也表明,改進的特徵臉演算法是主流的人臉識別技術,也是具有最好效能的識別方法之一。
    該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然後再計算出它們的幾何特徵量,而這些特徵量形成一描述該面像的特徵向量。其技術的核心實際為“區域性人體特徵分析”和“圖形/神經識別演算法。”這種演算法是利用人體面部各器官及特徵部位的方法。如對應幾何關係多資料形成識別引數與資料庫中所有的原始引數進行比較、判斷與確認。Turk和Pentland提出特徵臉的方法,它根據一組人臉訓練影象構造主元子空間,由於主元具有臉的形狀,也稱為特徵臉  ,識別時將測試  影象投影到主元子空間上,得到一組投影係數,和各個已知人的人臉影象比較進行識別。Pentland等報告了相當好的結果,在 200個人的 3000幅影象中得到 95%的正確識別率,在FERET資料庫上對 150幅正面人臉象只有一個誤識別。但系統在進行特徵臉方法之前需要作大量預處理工作如歸一化等。
    在傳統特徵臉的基礎上,研究者注意到特徵值大的特徵向量 (即特徵臉 )並不一定是分類效能好的方向,據此發展了多種特徵 (子空間 )選擇方法,如Peng的雙子空間方法、Weng的線性歧義分析方法、Belhumeur的FisherFace方法等。事實上,特徵臉方法是一種顯式主元分析人臉建模,一些線性自聯想、線性壓縮型BP網則為隱式的主元分析方法,它們都是把人臉表示為一些向量的加權和,這些向量是訓練集叉積陣的主特徵向量,Valentin對此作了詳細討論。總之,特徵臉方法是一種簡單、快速、實用的基於變換系數特徵的演算法,但由於它在本質上依賴於訓練集和測試集影象的灰度相關性,而且要求測試影象與訓練集比較像,所以它有著很大的侷限性。

基於KL 變換的特徵人臉識別方法
基本原理:
    KL變換是圖象壓縮中的一種最優正交變換,人們將它用於統計特徵提取,從而形成了子空間法模式識別的基礎,若將KL變換用於人臉識別,則需假設人臉處於低維線性空間,且不同人臉具有可分性,由於高維圖象空間KL變換後可得到一組新的正交基,因此可通過保留部分正交基,以生成低維人臉空間,而低維空間的基則是通過分析人臉訓練樣本集的統計特性來獲得,KL變換的生成矩陣可以是訓練樣本集的總體散佈矩陣,也可以是訓練樣本集的類間散佈矩陣,即可採用同一人的數張圖象的平均來進行訓練,這樣可在一定程度上消除光線等的干擾,且計算量也得到減少,而識別率不會下降。

4. 基於彈性模型的方法

    Lades等人針對畸變不變性的物體識別提出了動態連結模型 (DLA),將物體用稀疏圖形來描述 (見下圖),其頂點用區域性能量譜的多尺度描述來標記,邊則表示拓撲連線關係並用幾何距離來標記,然後應用塑性圖形匹配技術來尋找最近的已知圖形。Wiscott等人在此基礎上作了改進,用FERET影象庫做實驗,用 300幅人臉影象和另外 300幅影象作比較,準確率達到 97.3%。此方法的缺點是計算量非常巨大 。
    Nastar將人臉影象 (Ⅰ ) (x,y)建模為可變形的 3D網格表面 (x,y,I(x,y) ) (如下圖所示 ),從而將人臉匹配問題轉化為可變形曲面的彈性匹配問題。利用有限元分析的方法進行曲面變形,並根據變形的情況判斷兩張圖片是否為同一個人。這種方法的特點在於將空間 (x,y)和灰度I(x,y)放在了一個 3D空間中同時考慮,實驗表明識別結果明顯優於特徵臉方法。
    Lanitis等提出靈活表現模型方法,通過自動定位人臉的顯著特徵點將人臉編碼為 83個模型引數,並利用辨別分析的方法進行基於形狀資訊的人臉識別。彈性圖匹配技術是一種基於幾何特徵和對灰度分佈資訊進行小波紋理分析相結合的識別演算法,由於該演算法較好的利用了人臉的結構和灰度分佈資訊,而且還具有自動精確定位面部特徵點的功能,因而具有良好的識別效果,適應性強識別率較高,該技術在FERET測試中若干指標名列前茅,其缺點是時間複雜度高,速度較慢,實現複雜。

5. 神經網路方法(Neural Networks)

人工神經網路是一種非線性動力學系統,具有良好的自組織、自適應能力。目前神經網路方法在人臉識別中的研究方興未艾。Valentin提出一種方法,首先提取人臉的 50個主元,然後用自相關神經網路將它對映到 5維空間中,再用一個普通的多層感知器進行判別,對一些簡單的測試影象效果較好;Intrator等提出了一種混合型神經網路來進行人臉識別,其中非監督神經網路用於特徵提取,而監督神經網路用於分類。Lee等將人臉的特點用六條規則描述,然後根據這六條規則進行五官的定位,將五官之間的幾何距離輸入模糊神經網路進行識別,效果較一般的基於歐氏距離的方法有較大改善,Laurence等採用卷積神經網路方法進行人臉識別,由於卷積神經網路中整合了相鄰畫素之間的相關性知識,從而在一定程度上獲得了對影象平移、旋轉和區域性變形的不變性,因此得到非常理想的識別結果,Lin等提出了基於概率決策的神經網路方法 (PDBNN),其主要思想是採用虛擬 (正反例 )樣本進行強化和反強化學習,從而得到較為理想的概率估計結果,並採用模組化的網路結構 (OCON)加快網路的學習。這種方法在人臉檢測、人臉定位和人臉識別的各個步驟上都得到了較好的應用,其它研究還有 :Dai等提出用Hopfield網路進行低解析度人臉聯想與識別,Gutta等提出將RBF與樹型分類器結合起來進行人臉識別的混合分類器模型,Phillips等人將MatchingPursuit濾波器用於人臉識別,國內則採用統計學習理論中的支撐向量機進行人臉分類。
    神經網路方法在人臉識別上的應用比起前述幾類方法來有一定的優勢,因為對人臉識別的許多規律或規則進行顯性的描述是相當困難的,而神經網路方法則可以通過學習的過程獲得對這些規律和規則的隱性表達,它的適應性更強,一般也比較容易實現。因此人工神經網路識別速度快,但識別率低 。而神經網路方法通常需要將人臉作為一個一維向量輸入,因此輸入節點龐大,其識別重要的一個目標就是降維處理。
    PCA的演算法描述:利用主元分析法 (即 Principle Component Analysis,簡稱 PCA)進行識別是由 Anderson和 Kohonen提出的。由於 PCA在將高維向量向低維向量轉化時,使低維向量各分量的方差最大,且各分量互不相關,因此可以達到最優的特徵抽取。

6. 其它方法:

除了以上幾種方法,人臉識別還有其它若干思路和方法,包括一下一些:
1) 隱馬爾可夫模型方法(Hidden Markov Model)
2) Gabor 小波變換 圖形匹配
(1)精確抽取面部特徵點以及基於Gabor引擎的匹配演算法,具有較好的準確性,能夠排除由於面部姿態、表情、髮型、眼鏡、照明環境等帶來的變化。
(2)Gabor濾波器將Gaussian網路函式限制為一個平面波的形狀,並且在濾波器設計中有優先方位和頻率的選擇,表現為對線條邊緣反應敏感。
(3)但該演算法的識別速度很慢,只適合於錄象資料的回放識別,對於現場的適應性很差。

3) 人臉等密度線分析匹配方法
(1) 多重模板匹配方法
該方法是在庫中存貯若干標準面像模板或面像器官模板,在進行比對時,將取樣面像所有象素與庫中所有模板採用歸一化相關量度量進行匹配。
(2) 線性判別分析方法(Linear Discriminant Analysis,LDA)
(3)本徵臉法
    本徵臉法將影象看做矩陣 ,計算本徵值和對應的本徵向量作為代數特徵進行識別 ,具有無需提取眼嘴鼻等幾何特徵的優點 ,但在單樣本時識別率不高 ,且在人臉模式數較大時計算量大 
(4) 特定人臉子空間(FSS)演算法
該技術來源於但在本質上區別於傳統的”特徵臉”人臉識別方法。”特徵臉”方法中所有人共有一個人臉子空間,而該方法則為每一個體人臉建立一個該個體物件所私有的人臉子空間,從而不但能夠更好的描述不同個體人臉之間的差異性,而且最大可能地擯棄了對識別不利的類內差異性和噪聲,因而比傳統的”特徵臉演算法”具有更好的判別能力。另外,針對每個待識別個體只有單一訓練樣本的人臉識別問題,提出了一種基於單一樣本生成多個訓練樣本的技術,從而使得需要多個訓練樣本的個體人臉子空間方法可以適用於單訓練樣本人臉識別問題。
(5)奇異值分解(singular value decomposition,簡稱SVD)
是一種有效的代數特徵提取方法.由於奇異值特徵在描述影象時是穩定的,且具有轉置不變性、旋轉不變性、位移不變性、映象變換不變性等重要性質,因此奇異值特徵可以作為影象的一種有效的代數特徵描述。奇異值分解技術已經在影象資料壓縮、訊號處理和模式分析中得到了廣泛應用.

 

7. 面像識別的主要商業系統

90年代中後期以來,一些商業性的面像識別系統開始進入市場。目前,主要商業系統包括:
● Visionics公司的FaceIt面像識別系統,該系統基於Rockefeller大學開發的區域性特徵分析(LFA)演算法;
● Lau Tech.公司的面像識別/確認系統,採用MIT技術;
● Miros公司的Trueface及eTrue身份驗證系統,其核心技術為神經網路;
● C-VIS公司的面像識別/確認系統;
● Banque-Tec.公司的身份驗證系統;
● Visage Gallery’s 身份認證系統,基於MIT媒體實驗室的Eigenface技術;
● Plettac Electronic’s FaceVACS出入控制系統;
● 臺灣的BioID系統,它基於人臉、脣動和語音三者資訊融合的Biometrics系統。

其中,FaceIt系統是最具有代表性的商業產品,目前已在很多地方得到了應用。去年,它在英國用於被稱為“Mandrake”的反罪犯系統中,該系統在144個監控攝像機採集的視訊序列中搜尋已知的罪犯或者嫌疑犯,如發現可能的罪犯,系統將通知中心控制室的警員。
筆者曾使用過FaceIt系統,並對其進行了各項指標的評測。結果表明,該系統在控制光照、準正面(3座標軸上的旋轉不超過15度)、無飾物的情況下具有較好的識別效能。但在實用過程中也發現,只有訓練集人臉影象的採集條件與測試集人臉影象的採集條件基本一致時才能具有良好的識別效能,否則,其效能將急劇下降,尤其光照變化、姿態變化、黑框眼鏡、帽子、誇張的表情、鬍鬚和長髮等對其效能的影響更大。

面像識別系統的測試
    基於對面像識別技術在軍事安全等領域重要性的考慮,美國國防部的ARPA資助建立了一個對現有面像識別技術進行評測的程式,並分別於1994年8月、1995年3月和1996年9月(截至1997年3月)組織了三次面像識別和人臉確認的效能評測,其目的是要展示面像識別研究的最新進展和最高學術水平,同時發現現有面像識別技術所面臨的主要問題,為以後的研究提供方向性指南。儘管該測試只對美國研究機構開放,但它在事實上成為了該領域的公認測試標準,其測試結果已被認為反映了面像識別研究的最高學術水平。
    根據2000年公開發表的FERET’97測試報告,美國南加州大學(USC)、馬里蘭大學(UMD)、麻省理工學院(MIT)等研究機構的面像識別技術具有最好的識別效能。在訓練集和測試集攝像條件相似的200人的識別測試中,幾個系統都產生了接近100%的識別率。值得一提的是,即使是最簡單的相關匹配演算法也具有很高的識別效能。在更大物件集的FERET測試中(人數大於等於1166人),在同一攝像條件下采集的正面影象識別中,最高首選識別率為95%;而對用不同的攝像機和不同的光照條件採集的測試影象,最高首選識別率驟降為82%;對一年後採集的影象測試,最大的準確率僅僅接近51%。
    

該測試結果表明,目前的面像識別演算法對於不同的攝像機、不同的光照條件和年齡變化的適應能力非常差,理應得到研究者的足夠重視。而且值得注意的是,該測試中所用的人臉影象均為比較標準的正面人臉影象,姿態變化非常小,也沒有誇張的表情和飾物,以及沒有提及面部毛髮改變的情況。所以,我們認為,除了FERET測試所揭示的上述面像識別研究需要面對的問題之外,還需要考慮諸如姿態、飾物(眼鏡、帽子等)、面部表情、面部毛髮等可變因素對面像識別效能的影響。這些因素也是開發實用的面像識別產品時必然會遇到的最關鍵的技術問題。
為進一步測試商業面像識別系統的效能,並揭示2000年前後面像識別技術的最新進展,美國國防部的反毒品技術開發計劃辦公室於去年5月和6月對美國的主要商業面像識別系統進行了評測,稱為FRVT’2000(Face Recognition Vender Test)評測。該計劃邀請了美國所有面像識別系統廠商參加,共24家,但只有8家響應,最終有5家公司參加了評測,而只有3家的系統在規定時間內完成了全部對比實驗。可以認為,這3家公司的產品是目前最具競爭力的商業識別系統,它們分別是FaceIt系統、Lau Tech.公司的系統和C-VIS公司的系統。FRVT’2000評估了這些系統對影象壓縮、使用者-攝像機距離、表情、光照、錄製裝置、姿態、解析度和時間間隔等影響因素的識別效能。結果表明,面像識別系統的效能與1997年的測試相比有了一定的進步,但其識別效能對各種條件,如光照、老化、距離、姿態等,仍然離人們的期望值較遠。

國內:

中科院-上海銀晨

近年來,國內學者在對特徵臉技術進行認真研究的基礎上,嘗試了基於特徵臉特徵提取方法和各種後端分類器相結合的方法,並提出了各種各樣的改進版本或擴充套件演算法,主要的研究內容包括線性/非線性判別分析(LDA/KDA)、Bayesian概率模型、支援向量機(SVM)、人工神經網路(NN)以及類內和類間雙子空間(inter/intra-class dual subspace)分析方法等等。

 近年來,中科院計算所在對特徵臉技術進行認真研究的基礎上,嘗試了基於特徵臉特徵提取方法和各種後端分類器相結合的方法,並提出了各種各樣的改進版本或擴充套件演算法,主要的研究內容包括線性/非線性判別分析(LDA/KDA)、Bayesian概率模型、支援向量機(SVM)、人工神經網路(NN)以及類內和類間雙子空間(inter/intra-class dual subspace)分析方法等等。
  針對Eigenface演算法的缺點,中科院計算所提出了特定人臉子空間(FSS)演算法。該技術來源於但在本質上區別於傳統的”特徵臉”人臉識別方法:”特徵臉”方法中所有人共有一個人臉子空間,而中科院計算所的方法則為每一個體人臉建立一個該個體物件所私有的人臉子空間,從而不但能夠更好的描述不同個體人臉之間的差異性,而且最大可能地擯棄了對識別不利的類內差異性和噪聲,因而比傳統的”特徵臉演算法”具有更好的判別能力。另外,針對每個待識別個體只有單一訓練樣本的人臉識別問題,中科院計算所提出了一種基於單一樣本生成多個訓練樣本的技術,從而使得需要多個訓練樣本的個體人臉子空間方法可以適用於單訓練樣本人臉識別問題。在Yale人臉庫、本實驗室350人影象庫上的對比實驗也表明中科院計算所提出的方法比傳統的特徵臉方法、模板匹配方法對錶情、光照、和一定範圍內的姿態變化具有更好的魯棒性,具有更優的識別效能。
  彈性圖匹配技術是一種基於幾何特徵和對灰度分佈資訊進行小波紋理分析相結合的識別演算法,由於該演算法較好的利用了人臉的結構和灰度分佈資訊,而且還具有自動精確定位面部特徵點的功能,因而具有良好的識別效果,該技術在FERET測試中若干指標名列前茅,其缺點是時間複雜度高,實現複雜。中科院計算所對該演算法進行了研究,並提出了一些啟發策略。
 4、 人臉識別關鍵問題研究
  a) 人臉識別中的光照問題
  光照變化是影響人臉識別效能的最關鍵因素,對該問題的解決程度關係著人臉識別實用化程序的成敗。中科院計算所將在對其進行系統分析的基礎上,考慮對其進行量化研究的可能性,其中包括對光照強度和方向的量化、對人臉反射屬性的量化、面部陰影和照度分析等等。在此基礎上,考慮建立描述這些因素的數學模型,以便利用這些光照模型,在人臉影象預處理或者歸一化階段儘可能的補償乃至消除其對識別效能的影響。重點研究如何在從人臉影象中將固有的人臉屬性(反射率屬性、3D表面形狀屬性)和光源、遮擋及高光等非人臉固有屬性分離開來。基於統計視覺模型的反射率屬性估計、3D表面形狀估計、光照模式估計,以及任意光照影象生成演算法是中科院計算所的主要研究內容。具體考慮兩種不同的解決思路:
   1、 利用光照模式引數空間估計光照模式,然後進行針對性的光照補償,以便消除非均勻正面光照造成的陰影、高光等影響;
   2、 基於光照子空間模型的任意光照影象生成演算法,用於生成多個不同光照條件的訓練樣本,然後利用具有良好的學習能力的人臉識別演算法,如子空間法,SVM等方法進行識別,
  

b) 人臉識別中的姿態問題研究
  姿態問題涉及頭部在三維垂直座標系中繞三個軸的旋轉造成的面部變化,其中垂直於影象平面的兩個方向的深度旋轉會造成面部資訊的部分缺失。使得姿態問題成為人臉識別的一個技術難題。解決姿態問題有三種思路: 
第一種思路是學習並記憶多種姿態特徵,這對於多姿態人臉資料可以容易獲取的情況比較實用,其優點是演算法與正面人臉識別統一,不需要額外的技術支援,其缺點是儲存需求大,姿態泛化能力不能確定,不能用於基於單張照片的人臉識別演算法中等。
第二種思路是基於單張檢視生成多角度檢視,可以在只能獲取使用者單張照片的情況下合成該使用者的多個學習樣本,可以解決訓練樣本較少的情況下的多姿態人臉識別問題,從而改善識別效能。 
  第三種思路是基於姿態不變特徵的方法,即尋求那些不隨姿態的變化而變化的特徵。中科院計算所的思路是採用基於統計的視覺模型,將輸入姿態影象校正為正面影象,從而可以在統一的姿態空間內作特徵的提取和匹配。
  

因此,基於單姿態檢視的多姿態檢視生成演算法將是中科院計算所要研究的核心演算法,中科院計算所的基本思路是採用機器學習演算法學習姿態的2D變化模式,並將一般人臉的3D模型作為先驗知識,補償2D姿態變換中不可見的部分,並將其應用到新的輸入影象上去。