前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)識別方法主題范文,僅供參考,歡迎閱讀并收藏。
【關(guān)鍵詞】圖像分類深度 卷積神經(jīng)網(wǎng)絡(luò) 加權(quán)壓縮近鄰
1 研究背景
手寫數(shù)字識別是一個經(jīng)典的模式識別問題。從0 到9這10 個阿拉伯數(shù)字組成。由于其類別數(shù)比較小,它在些運算量很大或者比較復(fù)雜的算法中比較容易實現(xiàn)。所以,在模式識別中數(shù)字識別一直都是熱門的實驗對象。卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)不但可以解決淺層學(xué)習(xí)結(jié)構(gòu)無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。
2 深度卷積神經(jīng)網(wǎng)絡(luò)
深度卷積神經(jīng)網(wǎng)絡(luò)是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡(luò),隱含層中的卷積層和池采樣層是實現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數(shù)來進行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過迭代訓(xùn)練提高分類精確度。
深度卷積神經(jīng)網(wǎng)絡(luò)的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應(yīng)的分類結(jié)果。正常情況下,一個卷積后面都跟一個子采樣層?;诰矸e層里權(quán)值共享和局部連接的特性,可以簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù)。運算之后,獲得的結(jié)果通過激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應(yīng)的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個卷積層,反復(fù)進行特征學(xué)習(xí)。將被標記的樣本輸入到Softmax分類器中。
CNN 能夠簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù),降低計算難度。這些良好的性能是網(wǎng)絡(luò)在有監(jiān)督方式下學(xué)會的,網(wǎng)絡(luò)的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個特點:
2.1 局部連接
深度卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的神經(jīng)元節(jié)點是局部連接,不像BP 神經(jīng)網(wǎng)絡(luò)中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡(luò)利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點連接相鄰的上一層神經(jīng)元節(jié)點。
2.2 權(quán)重共享
在深度卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中每一個卷積濾波器共享相同參數(shù)并重復(fù)作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進行分類。
3 實驗結(jié)果
為了驗證卷積神經(jīng)網(wǎng)絡(luò)的有效性,本實驗中使用以最經(jīng)典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數(shù)字MNIST數(shù)據(jù)庫有集60000 個訓(xùn)練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數(shù)字USPS 數(shù)據(jù)庫含有7291 個訓(xùn)練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。
表1給出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST 和USPS 庫上的識別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡(luò)對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。
因此,使用深度卷積神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練在圖像識別中獲得更高識別率。因此,深度卷積神經(jīng)網(wǎng)絡(luò)在識別手寫體字符時有著較好的分類效果。
4 總結(jié)
本文介紹深度卷積神經(jīng)網(wǎng)絡(luò)的理論知識、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經(jīng)網(wǎng)絡(luò)對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。
參考文獻
[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫體數(shù)字識別簡介[J].計算機科學(xué),2013,40(08):316-318.
[2]王強.基于CNN的字符識別方法研究[D].天津師范大學(xué),2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動化學(xué)報,2007,33(12):1247-1251.
作者簡介
關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學(xué)歷?,F(xiàn)為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。
關(guān)鍵詞:車牌;識別;專利;分析
引言
車牌識別技術(shù)[1-2]是指自動提取受監(jiān)控區(qū)域車輛的車牌信息并進行處理的技術(shù),其通過運用圖像處理、計算機視覺、模式識別等技術(shù),對攝像頭捕獲的車輛照片或視頻進行分析,進而自動識別車輛的車牌號碼。車牌識別技術(shù)可應(yīng)用于停車場自動收費管理、道路監(jiān)控等領(lǐng)域,在城市交通管理中發(fā)揮了重要作用。
1 中國專利申請情況分析
以CNABS專利數(shù)據(jù)庫中的檢索結(jié)果為分析樣本,介紹車牌識別技術(shù)的中國專利申請量趨勢以及重要申請人的狀況。
1.1 第一階段(2005年及之前)
在這階段,申請量極少且申請人也極少,且針對的環(huán)境較為簡單,處于技術(shù)的萌芽階段,其中,專利CN1529276,通過車牌定位、字符分割和分類識別完成機動車牌號自動識別,其實現(xiàn)過程較為簡單,具體細節(jié)描述較少。
1.2 第二階段(2006年-2010年)
在這階段的申請量比上一階段有所增加,而且申請人數(shù)量相較之前也有增長,其中來自高校的申請量明顯增加,反映出了高校研究者開始更加注重對研究成果的保護,這一階段的專利所針對的環(huán)境場景更為復(fù)雜,識別準確率得到提高,對車牌定位、字符分割、字符識別等關(guān)鍵技術(shù)的研究更為深入。
1.3 第三階段(2011年及以后)
在2011年之后車牌識別技術(shù)的專利申請量呈現(xiàn)快速增長,這一階段車牌識別技術(shù)得到了更進一步的豐富,涉及的關(guān)鍵技術(shù)的解決途徑也呈現(xiàn)出多樣性,檢測效率和精度也得到進一步提高,其中,專利CN104035954A,涉及一種基于Hadoop的套牌車識別方法,將云計算應(yīng)用于車牌識別,使得與傳統(tǒng)環(huán)境下不經(jīng)過優(yōu)化的方法相比具有^高的運行效率和加速比,可以有效地識別套牌車。
圖2示出了中國重要申請人分布情況,申請量分布前十的申請人包括:電子科技大學(xué)、深圳市捷順科技實業(yè)股份有限公司(捷順科技)、浙江宇視科技有限公司(宇視科技)、信幀電子技術(shù)(北京)有限公司(信幀電子)、中國科學(xué)院自動化研究所(自動化研究所)、安徽清新互聯(lián)信息科技有限公司(清新互聯(lián))、青島海信網(wǎng)絡(luò)科技股份有限公司(海信網(wǎng)絡(luò))、浙江工業(yè)大學(xué)、四川川大智勝軟件股份有限公司(川大智勝)、上海高德威智能交通系統(tǒng)有限公司(高德威智能交通),從圖2中可以看出,不同申請人的申請量差距不是很大,幾乎保持在一個比較持平的狀態(tài)。
電子科技大學(xué)在車牌識別技術(shù)的專利申請中,CN 101064011A提出一種基于小波變換的復(fù)雜背景中的車牌提取方法,可大大提高對晴天、雨天、霧天、白天及夜晚等環(huán)境的通用性和適用性,實現(xiàn)車牌的精確定位并提高車牌提取的準確度;CN 103455815A提出一種復(fù)雜場景下的自適應(yīng)車牌字符分割方法,能快速、準確地搜索2、3字符間隔位置,實現(xiàn)自適應(yīng)調(diào)整分割參數(shù),使車牌字符分割穩(wěn)定可靠,在復(fù)雜的環(huán)境中魯棒性強,防止噪聲干擾;CN 105005757A提出一種基于Grassmann流行的車牌字符識別方法,最大限度地利用了已獲得的車牌字符信息以及同類字符之間的相互關(guān)系,對于車牌字符的成像質(zhì)量要求更低,應(yīng)用于復(fù)雜的環(huán)境中具有很好的魯棒性和準確性。
2 關(guān)鍵技術(shù)分析
一個完整的車牌定位與識別系統(tǒng),其前端包括圖像采集和傳輸系統(tǒng),末端還需要與數(shù)據(jù)庫相連接。從定位到識別的核心算法上,主要包括圖像預(yù)處理、車牌定位、字符分割和字符識別四大部分[3]。
圖像預(yù)處理,是指通過對攝像頭捕獲的彩色圖像進行預(yù)處理。常用的預(yù)處理方法包括圖像灰度化、圖像二值化、邊緣檢測等。
車牌定位,是指在經(jīng)預(yù)處理后的車輛圖像中,定位出車輛的車牌所在位置。常用的車牌定位方法包括基于紋理分析的方法、基于數(shù)學(xué)形態(tài)學(xué)的方法、基于邊緣檢測的方法、基于小波變換的方法和基于神經(jīng)網(wǎng)絡(luò)的方法等。CN 104298976A提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的車牌檢測方法,利用卷積神經(jīng)網(wǎng)絡(luò)完整車牌識別模型對車牌粗選區(qū)域進行篩選,獲取車牌最終候選區(qū)域。
字符分割,是指將定位出的車牌區(qū)域圖像分割成單個的字符圖像。常用的字符分割方法包括基于輪廓的方法、基于投影的方法、基于模板匹配的方法和基于連通區(qū)域的方法等。CN 104408454A提出一種基于彈性模板匹配算法的車牌字符分割方法,基于彈性模板,通過插空進行模板序列形狀的彈性調(diào)整,將車牌圖片與理想模板進行匹配,獲得全局最優(yōu)匹配,確定字符位置,將分割算法作用于投影序列,實現(xiàn)對車牌字符的分割。
字符識別,是指對字符分割之后的單個字符圖像進行識別,進而得到車輛的車牌號碼。常用的車牌字符識別方法包括基于字符結(jié)構(gòu)特征的識別方法、基于模板匹配的識別方法、基于神經(jīng)網(wǎng)絡(luò)的識別方法、基于模糊理論的模式識別方法和基于支持向量機分類識別方法等。CN 105975968A提出一種基于Caffe框架的深度學(xué)習(xí)車牌字符識別方法,以基于Caffe架構(gòu)的深度學(xué)習(xí)為基礎(chǔ),解決了現(xiàn)有的車牌字符識別方法中對傾斜、斷裂、相近字符識別精度不高的問題,大大提高了對于車牌字符的識別精度。
3 結(jié)束語
本文以車牌識別相關(guān)專利文獻為樣本,分析統(tǒng)計了該技術(shù)中國專利申請現(xiàn)狀,并對車牌識別技術(shù)的關(guān)鍵技術(shù)進行簡單分析。在經(jīng)歷了從無到有、從萌芽到飛速發(fā)展的階段之后,車牌識別技術(shù)慢慢走向成熟,越來越多的企業(yè)和高校在車牌識別的研究上投入了大量的精力,也獲得了豐碩的研究成果。
參考文獻
[1]尹旭.汽車牌照定位研究綜述[J].電腦知識與技術(shù),2010,6(14):3729-3730.
關(guān)鍵詞人臉識別;特征提取
1人臉識別技術(shù)概述
近年來,隨著計算機技術(shù)的迅速發(fā)展,人臉自動識別技術(shù)得到廣泛研究與開發(fā),人臉識別成為近30年里模式識別和圖像處理中最熱門的研究主題之一。人臉識別的目的是從人臉圖像中抽取人的個性化特征,并以此來識別人的身份。一個簡單的自動人臉識別系統(tǒng),包括以下4個方面的內(nèi)容:
(1)人臉檢測(Detection):即從各種不同的場景中檢測出人臉的存在并確定其位置。
(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。
(3)人臉表征(FaceRepresentation):采取某種方式表示檢測出人臉和數(shù)據(jù)庫中的已知人臉。
(4)人臉識別(Recognition):將待識別的人臉與數(shù)據(jù)庫中的已知人臉比較,得出相關(guān)信息。
2人臉識別算法的框架
人臉識別算法描述屬于典型的模式識別問題,主要有在線匹配和離線學(xué)習(xí)兩個過程組成,如圖1所示。
圖1一般人臉識別算法框架
在人臉識別中,特征的分類能力、算法復(fù)雜度和可實現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對最終分類結(jié)果有著決定性的影響。分類器所能實現(xiàn)的分辨率上限就是各類特征間最大可區(qū)分度。因此,人臉識別的實現(xiàn)需要綜合考慮特征選擇、特征提取和分類器設(shè)計。
3人臉識別的發(fā)展歷史及分類
人臉識別的研究已經(jīng)有相當長的歷史,它的發(fā)展大致可以分為四個階段:
第一階段:人類最早的研究工作至少可追朔到二十世紀五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。
J.S.Bruner于1954年寫下了關(guān)于心理學(xué)的Theperceptionofpeople,Bledsoe在1964年就工程學(xué)寫了FacialRecognitionProjectReport,國外有許多學(xué)校在研究人臉識別技術(shù)[1],其中有從感知和心理學(xué)角度探索人類識別人臉機理的,如美國TexasatDallas大學(xué)的Abdi和Tool小組[2、3],由Stirling大學(xué)的Bruce教授和Glasgow大學(xué)的Burton教授合作領(lǐng)導(dǎo)的小組等[3];也有從視覺機理角度進行研究的,如英國的Graw小組[4、5]和荷蘭Groningen大學(xué)的Petkov小組[6]等。
第二階段:關(guān)于人臉的機器識別研究開始于二十世紀七十年代。
Allen和Parke為代表,主要研究人臉識別所需要的面部特征。研究者用計算機實現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點是識別過程全部依賴于操作人員,不是一種可以完成自動識別的系統(tǒng)。
第三階段:人機交互式識別階段。
Harmon和Lesk用幾何特征參數(shù)來表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設(shè)計了基于這一特征表示法的識別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計識別方法,用歐氏距離來表征人臉特征。但這類方法需要利用操作員的某些先驗知識,仍然擺脫不了人的干預(yù)。
第四階段:20世紀90年代以來,隨著高性能計算機的出現(xiàn),人臉識別方法有了重大突破,才進入了真正的機器自動識別階段。在用靜態(tài)圖像或視頻圖像做人臉識別的領(lǐng)域中,國際上形成了以下幾類主要的人臉識別方法:
1)基于幾何特征的人臉識別方法
基于幾何特征的方法是早期的人臉識別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時往往要用到人臉結(jié)構(gòu)的一些先驗知識。識別所采用的幾何特征是以人臉器官的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,本質(zhì)上是特征矢量之間的匹配,其分量通常包括人臉指定兩點間的歐式距離、曲率、角度等。
基于幾何特征的識別方法比較簡單、容易理解,但沒有形成統(tǒng)一的特征提取標準;從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時;對較大的表情變化或姿態(tài)變化的魯棒性較差。
2)基于相關(guān)匹配的方法
基于相關(guān)匹配的方法包括模板匹配法和等強度線方法。
①模板匹配法:Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,并得出結(jié)論:基于幾何特征的人臉識別方法具有識別速度快和內(nèi)存要求小的優(yōu)點,但在識別率上模板匹配要優(yōu)于基于幾何特征的識別方法。
②等強度線法:等強度線利用灰度圖像的多級灰度值的等強度線作為特征進行兩幅人臉圖像的匹配識別。等強度曲線反映了人臉的凸凹信息。這些等強度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實形狀的等強度線。
3)基于子空間方法
常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴展到混合線性子空間和非線性子空間。
Turk等[11]采用本征臉(Eigenfaces)方法實現(xiàn)人臉識別。由于每個本征矢量的圖像形式類似于人臉,所以稱本征臉。對原始圖像和重構(gòu)圖像的差分圖像再次進行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對于眼、鼻和嘴等特征分別建立一個本征子空間,并聯(lián)合本征臉子空間的方法獲得了好的識別結(jié)果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉方法的識別結(jié)果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識別效果好于本征臉方法。當每個人有多個樣本圖像時,本征空間法沒有考慮樣本類別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識別結(jié)果。Bartlett等[18]采用獨立分量分析(ICA,IndependentComponentAnalysis)的方法識別人臉,獲得了比PCA方法更好的識別效果。
4)基于統(tǒng)計的識別方法
該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。
①KL變換:將人臉圖像按行(列)展開所形成的一個高維向量看作是一種隨機向量,因此采用K-L變換獲得其正交K-L基底,對應(yīng)其中較大特征值基底具有與人臉相似的形狀。國外,在用靜態(tài)圖像或視頻圖像做人臉識別的領(lǐng)域中,比較有影響的有MIT的Media實驗室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。
②隱馬爾可夫模型:劍橋大學(xué)的Samaria和Fallside[20]對多個樣本圖像的空間序列訓(xùn)練出一個HMM模型,它的參數(shù)就是特征值;基于人臉從上到下、從左到右的結(jié)構(gòu)特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識別人臉[24],如圖2(b)所示。后來集成coupledHMM和HMM通過對超狀態(tài)和各嵌入狀態(tài)采用不同的模型構(gòu)成混合系統(tǒng)結(jié)構(gòu)[25]。
基于HMM的人臉識別方法具有以下優(yōu)點:第一,能夠允許人臉有表情變化,較大的頭部轉(zhuǎn)動;第二,擴容性好.即增加新樣本不需要對所有的樣本進行訓(xùn)練;第三,較高的識別率。
(a)(b)
圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型
5)基于神經(jīng)網(wǎng)絡(luò)的方法
Gutta等[26]提出了混合神經(jīng)網(wǎng)絡(luò)、Lawrence等[27]通過一個多級的SOM實現(xiàn)樣本的聚類,將卷積神經(jīng)網(wǎng)絡(luò)CNN用于人臉識別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡(luò)方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進一步壓縮特征,最后采用一個MLP來實現(xiàn)人臉識別。Er等[30]采用PCA進行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia等[31]基于PZMI特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進行人臉識別。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢是通過學(xué)習(xí)的過程獲得對這些規(guī)律和規(guī)則的隱性表達,它的適應(yīng)性較強。
6)彈性圖匹配方法
Lades等提出采用動態(tài)鏈接結(jié)構(gòu)(DLA,DynamicLinkArchitecture)[32]的方法識別人臉。它將人臉用格狀的稀疏圖如圖3所示。
圖3人臉識別的彈性匹配方法
圖3中的節(jié)點用圖像位置的Gabor小波分解得到的特征向量標記,圖的邊用連接節(jié)點的距離向量標記。Wiskott等人使用彈性圖匹配方法,準確率達到97.3%。Wiskott等[33]將人臉特征上的一些點作為基準點,構(gòu)成彈性圖。采用每個基準點存儲一串具有代表性的特征矢量,減少了系統(tǒng)的存儲量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個多層的分級結(jié)構(gòu)。Grudin等[35]也采用分級結(jié)構(gòu)的彈性圖,通過去除了一些冗余節(jié)點,形成稀疏的人臉描述結(jié)構(gòu)。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表(x,y,I(x,y)),將人臉匹配問題轉(zhuǎn)換為曲面匹配問題,利用有限分析的方法進行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識別人臉。
7)幾種混合方法的有效性
(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。
K-L變換的核心過程是計算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當圖像有小的擾動時,奇異值的變化不大。奇異值表示了圖像的代數(shù)特征,在某種程度上,SVD特征同時擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對人臉進行識別,提高識別的準確性[37]。
(2)HMM和奇異值分解相融合的分類判別方法。
采用奇異值分解方法進行特征提取,一般是把一幅圖像(長為H)看成一個N×M的矩陣,求取其奇異值作為人臉識別的特征。在這里我們采用采樣窗對同一幅圖片進行重疊采樣(如圖4),對采樣所得到的矩陣分別求其對應(yīng)的前k個最大的奇異值,分別對每一組奇異值進行矢量標準化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。
圖4采樣窗采樣
綜合上述論文中的實驗數(shù)據(jù)表明[39],如表1:
表1人臉識別算法比較
8)基于三維模型的方法
該類方法一般先在圖像上檢測出與通用模型頂點對應(yīng)的特征點,然后根據(jù)特征點調(diào)節(jié)通用模型,最后通過紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結(jié)構(gòu)光源和立體視覺理論,通過攝像機獲取立體圖像,根據(jù)圖像特征點之間匹配構(gòu)造人臉的三維表面,如圖5所示。
圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型
Zhao[41]提出了一個新的SSFS(SymetricShape-from-Shading)理論來處理像人臉這類對稱對象的識別問題,基于SSFS理論和一個一般的三維人臉模型來解決光照變化問題,通過基于SFS的視圖合成技術(shù)解決人臉姿態(tài)問題,針對不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。
三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中,基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點的坐標,而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖,如圖7所示。
圖7三維建模的系統(tǒng)框圖
三維人臉建模、待識別人臉的姿態(tài)估計和識別匹配算法的選取是實現(xiàn)三維人臉識別的關(guān)鍵技術(shù)。隨著采用三維圖像識別人臉技術(shù)的發(fā)展,利用直線的三維圖像信息進行人臉識別已經(jīng)成為人們研究的重心。
4總結(jié)與展望
人臉自動識別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實際應(yīng)用中仍然面臨困難,不僅要達到準確、快速的檢測并分割出人臉部分,而且要有效的變化補償、特征描述、準確的分類的效果,還需要注重和提高以下幾個方面:
(1)人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進一步深入研究,以便能準確描述復(fù)雜的人臉模式分布。
(2)多特征融合和多分類器融合的方法也是改善識別性能的一個手段。
(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準確的人臉識別仍較困難。為了滿足自動人臉識別技術(shù)具有實時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術(shù)的融合方法。
(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對各種變化因素采用模擬或補償?shù)姆椒ň哂休^好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統(tǒng)識別算法的基礎(chǔ)上改進和創(chuàng)新。
(5)表面紋理識別算法是一種最新的算法[52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。
總之,人臉識別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識別效果,如何與其它技術(shù)相結(jié)合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實現(xiàn),如何實用化都是將來值得研究的。
參考文獻
[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411
[2]張翠萍,蘇光大.人臉識別技術(shù)綜述.中國圖像圖形學(xué)報,2000,5(11):885-894
[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67
[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86
[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464
[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640
[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95
[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136
[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553
[10]HaddadniaJ,AhmadiM,F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16
[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311
[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191
[13]羊牧.基于KL投影和奇異值分解相融合人臉識別方法的研究[D].四川大學(xué).2004,5,1
[14]白冬輝.人臉識別技術(shù)的研究與應(yīng)用[D].北方工業(yè)大學(xué).2006,5
關(guān)鍵詞:深度學(xué)習(xí);人臉識別;深度信念網(wǎng)絡(luò)
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1009-3044(2016)35-0184-03
在實際應(yīng)用中,采集到的人臉圖像往往是具有多種姿態(tài)變化的,受姿態(tài)變化影響,人臉圖像識別性能迅速下降,這是人臉識別中一個最為突出的難題。姿態(tài)變化將非線性因素引入了人臉識別,而現(xiàn)有的一些機器學(xué)習(xí)方法大多使用淺層結(jié)構(gòu),難以有效表示復(fù)雜函數(shù)。而深度學(xué)習(xí)可通過一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,體現(xiàn)出它對于輸入樣本數(shù)據(jù)的強大的本質(zhì)特征的抽取能力。因此本文將運用深度神經(jīng)網(wǎng)絡(luò)的方法克服姿態(tài)變量的影響,并在實驗數(shù)據(jù)集上進行一系列驗證試驗從而得出結(jié)論。
1 簡介
在實際應(yīng)用中,姿態(tài)變化成為人臉識別的瓶頸問題??缱藨B(tài)人臉識別方法通常分為三類:通用型算法,二維算法和三維算法,在此僅介紹通用型算法。通用型算法是為解決一般的人臉識別而設(shè)計的,本身即包括處理圖像中姿態(tài)變化等因素。通用型算法主要有以主成分分析(Prinxipal Componet Analysis,PCA,也稱為特征臉)[[1]],F(xiàn)isher判別分析(Fisher Discriminant Analysis,F(xiàn)DA,也稱為線性判別分析,簡稱LDA)[2],局部二值模式(LBP)[3],自組織映射和卷積網(wǎng)絡(luò),模板匹配,模塊化PCA等,這些方法都基于二維面部圖像中提取的分類模式,從現(xiàn)有庫已知的圖像中識別輸入的人臉圖像。我們選取LDA方法作為研究基礎(chǔ),同時引入深度學(xué)習(xí),通過構(gòu)建具有多層隱層的機器學(xué)習(xí)模型和海量訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征。
3.2 參數(shù)更新
采用自頂向下的監(jiān)督學(xué)習(xí),通過最小化的損失函數(shù)重建誤差?;诘谝徊降玫降母鲗訁?shù)進一步調(diào)節(jié)整個多層模型的參數(shù),利用梯度下降法微調(diào)整個網(wǎng)絡(luò)參數(shù),對DBN進行優(yōu)化。這一步是一個有監(jiān)督訓(xùn)練過程。由于深度學(xué)習(xí)的第一步不是隨機初始化,而是通過學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。
4 實驗
4.1 實驗數(shù)據(jù)
為了能夠在較大范圍不同姿態(tài)下評估該方法,我們選擇了MultiPIE人臉數(shù)據(jù)庫。它是由CMU采集的一組包含用姿態(tài)、光照和表情三個因素變化構(gòu)成的人臉庫。庫中包含68個人,每個人有13種不同的姿態(tài),3-4種不同的表情和多組不同光照。相較于其他數(shù)據(jù)庫,MultiPIE人臉庫包含因素最為豐富,采集條件最為真實,且包含較大的姿態(tài)變化和垂直深度上的旋轉(zhuǎn),便于我們對該方法進行充分評估。
4.2 實驗結(jié)果
我們采用MATLAB2012B編寫重構(gòu)Demo,由此獲得了重構(gòu)后的人臉圖像,圖3截取了一部分實驗結(jié)果。由此可以清晰看到,我們重構(gòu)人臉的方法可以去除不同姿態(tài)的影響,并且保持了人臉輪廓和結(jié)構(gòu)。
基于LDA算法,我們計算出了人臉重構(gòu)前后的識別率,如表格1所示。顯然,重構(gòu)后人臉的識別率遠高于重構(gòu)前。經(jīng)統(tǒng)計,旋轉(zhuǎn)角度為+15°和-15°的人臉圖像識別率平均上升7.75%,+30°和-30°的人臉圖像識別率平均上升8.67%,而+45°和-45°的人臉圖像識別率平均上升了13%,由此可見,我們的算法對于旋轉(zhuǎn)角度大的姿態(tài)優(yōu)勢更加明顯。
另外,我們將試驗結(jié)果與其他關(guān)于姿態(tài)變化的研究結(jié)果進行了比較。如表格2所示,LGBP[11]屬于二維方法,而VAAM,F(xiàn)A-EGFC[12]和SA-EGFC均為三維方法,且除FA-EGFC外,其他方法都需要知道探測器的角度。結(jié)果顯示,我們所用的方法識別率在各個角度均為最高,且忽略角度的影響。顯然,相較于這幾種方法,我們的方法更具有優(yōu)越性和穩(wěn)定性。
5 結(jié)語
從結(jié)果分析中可以看出經(jīng)過深度學(xué)習(xí)網(wǎng)絡(luò)轉(zhuǎn)換后的人臉識別率明顯高于未經(jīng)過轉(zhuǎn)換的,且部分識別率達到了100%,顯然本文的方法在姿態(tài)因素問題的處理上表現(xiàn)出明顯的優(yōu)勢,尤其在旋轉(zhuǎn)角度較大的情況下有較大提升。實驗說明FIP特征不僅僅對姿態(tài)變化具有健壯性,而且可以用來重建人臉圖像。
在未來的工作中,我們將擴展框架以便于在其他困難條件下進行人臉識別,同時會將FIP方法進行進一步的提高。
參考文獻:
[1] TURK M A,PENTLAND A P. Face recognition using eigenfaces [C]. Computer Vision and Pattern Recognition,San Diego,1991:22-28.
[2] ZHAO W,KRISHNASWAMY A,CHELLAPPA R,et al. Discriminant analysis of principal components for face recognition [M]. Face Recognition. Berlin Heidelberg :Springer.1998
[3] S. Li, X. Liu, X. Chai, H. Zhang, S. Lao, and S. Shan. Morphable displacement field based image matching for face recognition across pose. In ECCV. 2012.
[4] C. D. Castillo and D. W. Jacobs. Wide-baseline stereo for face recognition with large pose variation. In CVPR, 2011.
[5] A. Asthana, T. K. Marks, M. J. Jones, K. H. Tieu, and M. Rohith. Fully automatic pose-invariant face recognition via 3d pose normalization. In ICCV, 2011.
[6] Zhenyao Zhu1,? Ping Luo1,3,? Xiaogang Wang2 Xiaoou Tang1,3,Department of Information Engineering, The Chinese University of Hong Kong,Department of Electronic Engineering, The Chinese University of Hong Kong,Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
[7] Q. V. Le, J. Ngiam, Z. Chen, D. Chia, P. W. Koh, and A. Y. Ng. Tiled convolutional neural networks. In NIPS, 2010.
[8] G. E. Hinton, S. Osindero, and Y.-W. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18(7):1527C1554, 2006.
[9] N. Qian. On the momentum term in gradient descent learning algorithms. Neural Networks, 1999
[10] V. Nair and G. E. Hinton. Rectified linear units improve restricted Boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.