公務員期刊網(wǎng) 精選范文 卷積神經(jīng)網(wǎng)絡存在的問題范文

卷積神經(jīng)網(wǎng)絡存在的問題精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡存在的問題主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經(jīng)網(wǎng)絡存在的問題

第1篇:卷積神經(jīng)網(wǎng)絡存在的問題范文

關鍵詞: 列車車號; 車號識別; 卷積神經(jīng)網(wǎng)絡; LeNet?5

中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)13?0063?04

Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.

Keywords: train license; license recognition; convolutional neural network; LeNet?5

0 引 言

目前貨運列車車號識別系統(tǒng)[1?2]主要是基于RFID技術實現(xiàn)的,但是,由于該系統(tǒng)的準確性依賴于列車底部安裝的RFID標簽,而RFID標簽容易損壞、丟失,因此,此類系統(tǒng)無法保證車號識別的準確性。為此,研究者開發(fā)了基于圖像的貨運列車車號識別系統(tǒng),系統(tǒng)根據(jù)視頻采集到的圖像,利用模糊集合論[1?2]、人工神經(jīng)網(wǎng)絡[3]、支持向量機[4]以及隱馬爾可夫模型[4]等技術進行車號字符的識別。但是,由于貨運列車車號存在因噴涂方式而導致的單個字符斷裂,或者列車長期的野外運行導致的車廂污損,車號字符的殘缺等現(xiàn)象,這使得目前的基于圖像的貨運列車車號識別系統(tǒng)的魯棒性與識別率還有待進一步提高。

LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經(jīng)網(wǎng)絡,該網(wǎng)絡避免了人工提取特征依賴于主觀意識的缺點,只需要將歸一化大小的原始圖像輸入網(wǎng)絡,該網(wǎng)絡就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結(jié)合起來,通過綜合評價和學習,并在不斷的反向傳播過程中選擇和優(yōu)化這些特征,將特征提取變?yōu)橐粋€自學習的過程,通過這種方法找到分類性能最優(yōu)的特征。LeNet?5已經(jīng)成功應用于銀行對支票手寫數(shù)字的識別中。

為此,本文將卷積神經(jīng)網(wǎng)絡LeNet?5應用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數(shù),并在此基礎上,改變網(wǎng)絡中各層特征圖的數(shù)量以形成新的網(wǎng)絡模型。

1 LeNet?5的改進

卷積神經(jīng)網(wǎng)絡可以從很多方面著手改進。諸如多層前饋網(wǎng)絡,可以考慮在誤差函數(shù)中增加懲罰項使得訓練后得到趨向于稀疏化的權(quán)值,或者增加一些競爭機制使得在某個特定時刻網(wǎng)絡中只有部分節(jié)點處在激活狀態(tài)等。本文主要從卷積神經(jīng)網(wǎng)絡的層次化以及局部鄰域等結(jié)構(gòu)上的特點入手,考慮卷積神經(jīng)網(wǎng)絡中各層特征圖數(shù)量及大小對網(wǎng)絡訓練過程及識別結(jié)果的影響。

以LeNet?5結(jié)構(gòu)為基礎,去除掉LeNet?5中的一些針對手寫字符識別而特別設計的連接方式及參數(shù),得到改進后的神經(jīng)網(wǎng)絡。在此基礎上,改變網(wǎng)絡中各層特征圖的數(shù)量以形成新的網(wǎng)絡模型。定義一種新的網(wǎng)絡模型,將其命名為LeNet?5.1,該網(wǎng)絡結(jié)構(gòu)與LeNet?5基本相同,主要做出以下改變:

(1) 將原先LeNet?5所采用的激活函數(shù)由雙曲正切函數(shù)修改為Sigmoid函數(shù),此時,網(wǎng)絡中所有層的輸出值均在[0,1]區(qū)間內(nèi),輸出層的最終結(jié)果也將保持在[0,1]區(qū)間內(nèi)。

(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(shù)(RBF)網(wǎng)絡結(jié)構(gòu)。

(3) 簡化原LeNet?5中的學習速率。原LeNet?5網(wǎng)絡中采用的學習速率為一個特殊的序列,而在本網(wǎng)絡中將學習速率固定為0.002。

(4) 輸入數(shù)據(jù)原始尺寸為28×28,采取邊框擴充背景像素的方法將圖像擴充至32×32。

之所以做以上相關改動,是因為原始的LeNet?5就是專門為手寫字符識別任務而特殊設計的,這就造成了LeNet?5網(wǎng)絡中相關的預處理及參數(shù)的選擇過程或多或少均帶有一些針對特定問題的先驗知識。例如激活函數(shù)中參數(shù)的選擇,學習速率定的速率序列以及數(shù)據(jù)預處理殊的填充方式等,這些特定的設計使得LeNet?5在其他任務的識別過程中并不一定適用,或者需要進行長期的觀察實驗以選得一組針對特定任務的較好的值,造成了LeNet?5不能快速的應用于除手寫字符外其他的識別任務中。

2 改進后的網(wǎng)絡對列車車號字符的識別

車號經(jīng)過分割之后為一個個的單字符圖像,采用邊框擴充背景像素的方法將其歸一化為32×32,如圖1所示。

由圖1中可以看出,待識別的字符圖像質(zhì)量不高,有的數(shù)字字符出現(xiàn)殘缺、斷裂或者嚴重變形。這都給識別任務提出了一定的挑戰(zhàn)。

本文采集到的車號圖像來自于不同型號的貨運列車。從中選取400幅圖像作為訓練集,另外選取400幅圖像作為測試集。用上一節(jié)提出的LeNet?5.1網(wǎng)絡進行訓練,誤分類率曲線如圖2所示??梢钥闯?,在LeNet?5.1訓練過程中,訓練MCR(Misclassification Rate)和測試MCR的變化過程相對穩(wěn)定,驗證了改進后網(wǎng)絡結(jié)構(gòu)的合理性。在經(jīng)過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩(wěn)定,即16次迭代之后,網(wǎng)絡達到了當前的最佳訓練效果,達到了收斂狀態(tài)。這時,訓練MCR為0.5%,測試MCR是5.75%。

訓練過程中的誤分類率曲線

而針對相同的數(shù)據(jù),采用原始的LeNet?5進行訓練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經(jīng)過了18次的迭代后,測試MCR才達到相對穩(wěn)定的狀態(tài),降至6%,最終的訓練MCR為1%。相比之下,經(jīng)過簡化和改進的LeNet?5.1,由于改進了原始的LeNet?5中專門為手寫字符識別任務而特殊設計的一些預處理及函數(shù)選擇等固定模式,并且精簡了網(wǎng)絡結(jié)構(gòu),使得LeNet?5.1在列車車號的識別方面具有了更快的訓練速度和收斂速度,另外,最終達到的準確度也有所提升。

在證明了改進后的LeNet?5.1網(wǎng)絡的合理性之后,增加訓練圖像的規(guī)模,采用10 000幅車號數(shù)字字符圖像用來訓練,5 000幅用來測試。為了與其他方法進行比較,采用相同的訓練數(shù)據(jù)對車號識別中常用的三層BP網(wǎng)絡進行訓練和測試,這里采用的BP網(wǎng)絡隱含層節(jié)點數(shù)量為450,學習速率采用0.01。實驗結(jié)果比較如表1所示。從表1可以看出,改進后的LeNet?5.1網(wǎng)絡的識別率比BP網(wǎng)絡的識別率高出4.62個百分點,在識別速度方面,LeNet?5.1也明顯優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡。

3 針對車型號字母識別而改進的神經(jīng)網(wǎng)絡及其結(jié)果

貨運列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進行識別,車型號中除了有阿拉伯數(shù)字字符之外,還有很多表示車種及車廂材質(zhì)等屬性的英文字母,這些英文字母同樣采用卷積神經(jīng)網(wǎng)絡來識別。由于車型號很多,初期針對若干常用型號的列車進行識別,以測試網(wǎng)絡的性能,后期對全車型進行識別。

3.1 常用列車車型的識別

在試運行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個大寫字母C),主要對后面代表該車型載重量的兩位數(shù)字以及最后代表車廂材質(zhì)等屬性的字母進行識別??紤]到車型號字符串的固定模式,如圖4所示,可以分別建立兩個不同的卷積神經(jīng)網(wǎng)絡分別用來識別數(shù)字和字母,由于之前已經(jīng)解決了數(shù)字的識別問題,接下來主要進行字母的識別。要識別的代表車廂材質(zhì)的字母共有6個:K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導致的識別錯誤,把AK和BK分別作為一個整體來識別,那么需要識別的字符組合變?yōu)椋篕,H,A,E,AK和BK。由于識別種類的減少,可以對網(wǎng)絡模型LeNet?5.1進行相應的簡化,命名該模型為LeNet?5.2。

LeNet?5.2是在LeNet?5.1的基礎上進行改動而得到的:

(1) 卷積層C1的特征圖由6個減少為4個,相應地,S2層的特征圖也由6個減少為4個。

(2) 卷積層C3的特征圖由16個減少為11個,相應地,S4層的特征圖也由16個減少為11個。

(3) 卷積層C5的特征圖個數(shù)由120個減少為80個。

(4) 輸出分類的數(shù)目由10個減少為6個。

另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。

表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個特征圖是由S2中的那幾個特征圖結(jié)合而成。卷積層C3中第0個至第5個特征圖分別與次抽樣層S2中的兩個特征圖相連接,一共6種組合。C3中的這6個特征圖負責抽取上一層中某兩個特征圖所潛在的特征。C3層中第6個至第9個特征圖中每個特征圖分別對應上一層中的3個特征圖的組合,而C3層中最后一個特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時,相對于輸入數(shù)據(jù),C3層相比S2層具有更好的對位移、扭曲等特征的不變性。

相比LeNet?5.1,LeNet?5.2將網(wǎng)絡層中的特征圖數(shù)量做了相應的削減,減少了網(wǎng)絡中可訓練參數(shù)的數(shù)量。

實驗數(shù)據(jù)來自以上提到的7類常用車型。經(jīng)過前面過程的定位和分割之后,將分割之后代表車廂材質(zhì)等屬性的字母圖像收集起來。本實驗中,共收集到6種代表不同車廂材質(zhì)屬性的字母共800幅,其中400幅用作訓練數(shù)據(jù),另外400幅用作測試數(shù)據(jù)。

圖5為LeNet?5.2使用以上數(shù)據(jù)訓練過程中得到的MCR曲線圖。由圖5中可以看出,在經(jīng)過13次迭代之后,測試MCR達到最低的3.25%,并且在隨后的迭代過程中基本保持穩(wěn)定,而對應的訓練MCR為0.75%。

3.2 全車型識別

經(jīng)過對鐵道行業(yè)標準《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進行統(tǒng)計,除了10個阿拉伯數(shù)字外,包括了除O,R,V,Z四個字母外所有的大寫英文字母,總共有32類字符。

訓練過程中的誤分類率曲線

針對車型號的識別需求,本文在LeNet?5.1的基礎上提出了一種新的網(wǎng)絡模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎上對網(wǎng)絡中各層的特征圖數(shù)量進行擴充:

(1) 卷積層C1的特征圖由6個增加至8個,相應地,S2層的特征圖也由6個增加至8個。

(2) 卷積層C3的特征圖由16個增加至24個,相應地,S4層的特征圖也由16個增加至24個。

(3) 卷積層C5的特征圖個數(shù)由120個增加至240個。

(4) 輸出層神經(jīng)元的個數(shù)由10個增加至32個。

其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個特征圖的主要組合。

與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數(shù)量也做了相應的增加,以增加整個網(wǎng)絡的識別性能。為了驗證改進后的LeNet?5.3的性能,收集了大量真實列車車廂圖片,經(jīng)過車號定位和分割之后,將單個的數(shù)字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓練圖像庫和測試圖像庫。

由于LeNet?5.1各層的特征圖數(shù)量多,因此該網(wǎng)絡涉及到的可訓練參數(shù)也大大增加,這也意味著需要更多的數(shù)據(jù)樣本用于網(wǎng)絡訓練。若訓練集和測試集規(guī)模依然采用跟前面實驗中一樣的各400幅,訓練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩(wěn)定,波動較大。測試MCR達到最低點后又突然升高,不能獲得穩(wěn)定的分類結(jié)果,訓練過程無法收斂。

網(wǎng)絡訓練過程中無法收斂的主要原因在于相比網(wǎng)絡中過多的需要訓練確定的權(quán)值,數(shù)據(jù)集規(guī)模過小,已然不能滿足學習的要求。從特征圖角度來看,網(wǎng)絡無法通過不充足的訓練樣本學習到穩(wěn)定而有效的特征圖組合,從而導致了網(wǎng)絡不收斂。要解決這個問題需要加大測試樣本的數(shù)量。

為了訓練和測試LeNet?5.3,對數(shù)據(jù)集進行了擴充:訓練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經(jīng)過32次迭代之后網(wǎng)絡趨于收斂,并且達到了較好的識別率。

4 結(jié) 語

本文針對貨運列車車號識別的難題,提出了基于卷積神經(jīng)網(wǎng)絡LeNet?5改進后的識別方法,主要對卷積神經(jīng)網(wǎng)絡中各層特征圖數(shù)量及大小進行了改進。且與傳統(tǒng)的BP網(wǎng)絡進行了比較,從實驗結(jié)果可以看出,改進后的卷積神經(jīng)網(wǎng)絡無論在魯棒性還是識別率以及識別速度上都優(yōu)于BP網(wǎng)絡,可以很好地勝任列車車號識別任務。

參考文獻

[1] 宋敏.鐵路車輛車號自動識別系統(tǒng)的研究和開發(fā)[D].天津:河北工業(yè)大學,2011:1?5.

[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.

[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.

[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.

[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.

第2篇:卷積神經(jīng)網(wǎng)絡存在的問題范文

關鍵詞:PCA算法;人臉識別;五級并行PCA模型;權(quán)重計算;均值濾波

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)19-0147-02

Research on Face Recognition System Based on Parallel PCA Algorithm

ZHAO Ya-peng

(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )

Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.

Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter

1 概述

隨著智能終端設備(手機、Pad、門禁等)的不斷發(fā)展,身份識別已經(jīng)成為我們?nèi)粘I畹闹匾M成部分,身份驗證技術被廣泛應用于各個領域,特別是人們對于個人隱私信息的保護,使得身份識別再次成為關注的焦點。人臉識別作為身份識別的重要手段之一,因其具有識別率高、采集性強、接受性高等特點,在身份識別的各類方法中具有獨特的優(yōu)勢,成為了目前比較熱門的研究領域。

目前,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks)是圖像識別領域最重要的研究熱點,而且在語音識別領域也取得了不錯的效果,但是卷積神經(jīng)網(wǎng)絡的整個訓練過程比較費時,而且實現(xiàn)相對復雜,而基于PCA算法的人臉識別技術因其自身存在的許多缺陷,一直沒有被廣泛應用,但該方法實現(xiàn)簡單、學習速度較快,因此,本文主要研究改進的并行PCA算法,以彌補傳統(tǒng)PCA算法在人臉識別領域的不足。

本文提出的基于并行PCA算法的人臉識別技術,首先對原始圖像進行預處理,如灰度歸一化和中值濾波等操作,以消除圖像噪聲、光照等因素造成的影響,使得特征提取更加準確可靠。然后,通過5級并行PCA模型獲取數(shù)據(jù)的不同特征矩陣,然后將訓練圖像和測試圖像分別進行子空間的投影,利用歐氏徑向基函數(shù)(Euclidean Radial Basis Function)進行人臉的匹配,最后根據(jù)訓練得到的權(quán)值向量進行加權(quán)決策。本文通過ORL人臉數(shù)據(jù)庫的仿真實驗證明,該算法的效果明顯好于PCA算法。

2 并行PCA算法

PCA(Principal Component Analysis)即主成分分析技術,PCA是基于K-L變換的統(tǒng)計學分析方法,是多元分析中常用的方法,其基本思想是將高維數(shù)據(jù)投影到低維空間,主要過程在于特征值的計算和矩陣的降維。將PCA應用于人臉識別時,首先將圖像轉(zhuǎn)化成矩陣向量,然后進行矩陣的奇異值分解(Singular Value Decomposition),將高維向量通過計算得到的特征向量矩陣投影到低維的向量空間,從而減少數(shù)據(jù)的計算量。

2.1 基于并行PCA算法的人臉識別流程

本文中提出的并行PCA算法,正是基于上述的PCA算法,通過建立5級的PCA算法模型同時進行數(shù)據(jù)特征的學習,使得最終的人臉識別準確率得到進一步的提高,具體的人臉識別流程如圖1所示。

2.2 并行PCA算法的實現(xiàn)的步驟

2.2.1 人臉圖像的預處理

首先,需要把ORL人臉數(shù)據(jù)數(shù)據(jù)庫的所有訓練圖像大小進行歸一化,并轉(zhuǎn)化為像素矩陣,矩陣大小記為,為矩陣的行數(shù),為矩陣的列數(shù)。之后利用均值濾波和灰度歸一化進行圖像的去噪處理,以消除光線等問題對圖像造成的影響,以方便后期的特征提取等操作。

2.2.2 人臉圖像的PCA降維

根據(jù)PCA的原理,可以將每一張圖像看成是一個高維的向量,所有的圖像可以看成是這個高維空間中的一點,PCA要做的就是找出另外一個盡可能多的反應圖像特征的低維空間。

假如樣本由n張大小為p*q的人臉圖像組成,那么每一張圖像可以保存為一列向量,向量維數(shù)是p*q,真?zhèn)€樣本可以看成是一個行數(shù)為n,列數(shù)為p*q的矩陣記為矩陣A。

根據(jù)上述過程,首先求出矩陣A的協(xié)方差矩陣,然后求出協(xié)方差矩陣的特征值,選取前m個最大的特征值,然后求出對應的特征向量,組成一個特征矩陣。通常所說的“特征臉”就是這些特征向量,而特種功能矩陣就是“特征臉”空間或者說子空間。然后可以將每一張圖片投影到該子空間,得到了每一張圖像的投影矩陣(l*m)。

2.2.3 人臉圖像的識別

對于待識別的圖像,也可以看成是一列向量,投影到子空間得到一個投影矩陣,然后一一求出這個投影矩陣與樣本圖像投影矩陣最相似的。然而有可能該人臉不是人臉庫中的,所以最相似的人臉也不一定是同一個人臉,還需要設置一個閾值來判斷待識別人臉是否是人臉庫中的。

人臉識別部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5級的PCA模型同時進行人臉識別這一操作,最后根據(jù)訓練得到的權(quán)值向量進行決策,通過使用多個PCA模型,從而使得整個識別過程的準確率得到進一步的提升。

3 系統(tǒng)設計及實現(xiàn)

3.1 系統(tǒng)總體設計

本文中所提出的基于并行PCA算法的人臉識別系統(tǒng),包括人臉圖像采集模塊、圖像預處理模塊、識別模塊。人臉圖像采集模塊主要是采集訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù),并由原始圖像提取出4幅與之對應的部分圖像;圖像預處理模塊主要就是進行圖像歸一化和圖像的去噪工作,圖像的歸一化包括大小歸一化和灰度歸一化,可以使用比較常見的直方圖均衡化等技術,而圖像的去噪可以使用中值濾波技術,以去除比較常見的高斯噪聲等;人臉識別模塊是基于5級相互獨立的PCA模型進行特征值的學習和比對,而且通過訓練得到的權(quán)值向量進行最終的是臉識別決策。整個系統(tǒng)的實現(xiàn)是基于Matlab進行仿真實驗的,實驗數(shù)據(jù)來自劍橋大學AT&T實驗室創(chuàng)建的ORL人臉數(shù)據(jù)庫。

3.2系統(tǒng)功能模塊實現(xiàn)

3.2.1人臉圖像采集實現(xiàn)

圖像采集模塊主要就是將存儲在本地的圖像文件通過Matlab的imread函數(shù)讀入矩陣中,以方便后期的PCA操作,其核心語句為Image{t}=imread([[filepath,F(xiàn)ilDir(ii).name],'\',ImDir{ii}(jj).name]);

使用上述語句即可讀入訓練數(shù)據(jù)和測試數(shù)據(jù)文件。

3.2.2 圖像預處理模塊

該模塊的主要任務就是利用中值濾波和直方圖均衡化進行圖像的去噪工作,以消除不同光照和圖像噪聲的影響,提高準確率。其核心代碼為:

S1=zeros(1,256);

for i=1:256

for j=1:i

S1(i)=GP(j)+S1(i);

end

end

S2=round((S1*256)+0.5);

for i=1:256

GPeq(i)=sum(GP(find(S2==i)));

end

3.2.3 識別模塊

圖像經(jīng)過之前的預處理之后,需要將圖像矩陣轉(zhuǎn)化為列向量,一幅圖像就是一列向量,整個訓練圖像構(gòu)成了整個特征空間矩陣,測試圖像也會轉(zhuǎn)化為一列向量,之后會利用矩陣之間的運算進行圖像的分析計算。識別模塊的工作就是根據(jù)測試圖像和之前所有的訓練數(shù)據(jù)進行對比,查找到與之最相似的圖像,實驗的結(jié)果如圖2所示。

4 結(jié)論

PCA算法作為傳統(tǒng)的人臉識別算法,因其自身存在的許多缺陷而沒能發(fā)揮較好的作用,但是其自身具有其他算法所不具有的特點,本文設計的并行PCA算法雖然是基于PCA算法,但是借鑒了卷積神經(jīng)網(wǎng)絡的多層結(jié)構(gòu),而且使用加權(quán)操作進行最終人臉識別的決策?;贠RL人臉數(shù)據(jù)庫的測試結(jié)果表明,該并行PCA算法的準確率和魯棒性均得到了進一步的提升,與其他的單獨PCA算法具有十分明顯的優(yōu)勢。

參考文獻:

[1] 張利芳. 基于PCA算法的人臉識別系統(tǒng)研究[D].太原:中北大學,2015.

[2] 楊海燕,蔣新華. 基于并行卷積神經(jīng)網(wǎng)絡的人臉關鍵點定位方法研究[J]. 計算機應用研究, 2015, 32(8): 2517-2519.

[3] 楊穎嫻. 基于PCA算法和小波變換的人臉識別技術[J]. 微電子與計算機, 2011, 28(1): 92-94.

[4] 段寶彬,韓立新. 改進的卷積神經(jīng)網(wǎng)絡及在碎紙拼接中的應用[J]. 計算機工程與應用, 2014, 50(9): 176-181.

第3篇:卷積神經(jīng)網(wǎng)絡存在的問題范文

【關鍵詞】照相軟件 人臉識別技術 計算機

人臉識別作為一項現(xiàn)代化科技技術,具有極大的發(fā)展空間。1964年,人臉識別(AFR)這一領域逐漸出現(xiàn)在人們的視野里,至于1991年至1997年,若干具有代表性的人臉識別算法誕生于世,到如今,以支持向量機為代表的統(tǒng)計學習理論被應用到了人臉識別中來。前人的側(cè)重點在于對其算法的延伸探究,但就筆者而言,存在一定程度上專業(yè)知識的限制,因而根據(jù)自身的知識儲備與探究能力,將人臉識別技術這一寬泛概念的探討縮小至相對更貼近生活,且較為容易理解與研究的一個主題――對于照相機軟件中人臉識別技術的探究,并由此展開對計算機人臉識別的部分性探究。

1 對于人臉識別技術的初步了解

科幻性質(zhì)的故事往往以其并不符合實際的奇幻情節(jié),模糊得描繪了現(xiàn)實世界未來的發(fā)展藍圖。這里不得不提及一部具有啟發(fā)意義的電影――《生化危機》,電影中追蹤主角行蹤的衛(wèi)星定位人臉識別技術,是否未來也將存在于我們的現(xiàn)實社會當中?由此,便聯(lián)想到生活中照相軟件的人臉識別是否也是通過相似的原理而執(zhí)行的。

關于人臉識別,其本質(zhì)上隸屬于生物特征識別的一支。其余包含指紋識別,虹膜識別,DNA識別等技術。當今最為廣泛運用的是指紋識別,但隨之而來產(chǎn)生的是一定的安全性問題。例如去年熱門的高考替考話題,指紋貼的出現(xiàn)使指紋識別的安全性受到質(zhì)疑。而人臉識別仍處于一個不完全成熟的發(fā)展階段,就目前現(xiàn)狀來說,其所具有的不可復制性、自然性、不可察覺性,使其安全性與實用性都處于相對較高的水平。但同樣,其技術難度也呈正比例增長。

通過對與計算機信息科技的學習,能夠得出這樣一個總結(jié)性結(jié)論:“人臉識別是通過計算機視覺的一些算法所實現(xiàn)的?!?/p>

前人對從不斷更新的研究中得出,人臉識別的基本算法有四種:

(1)基于人臉特征點的識別算法(Feature-based recognition algorithms)。

(2)基于整幅人臉圖像的識別算法(Appearance-based recognition algorithms)。

(3)基于模板的識別算法(Template-based recognition algorithms)。

(4)利用神經(jīng)網(wǎng)絡進行識別的算法(Recognition algorithms using neural network)。

當然,如今也早已存在許多其他的的算法能夠支持人臉識別技術的實現(xiàn)。而對于該項技術的應用的范圍也在逐漸擴大,門禁考勤系統(tǒng)、住宅安全管理、電子身份等等,都將在很大程度上的得益于其的不斷發(fā)展。

讓我們回到主題:照相機的人臉跟蹤究竟是如何實現(xiàn)的呢?圍繞這一問題,由淺及深,筆者將本文中的探究內(nèi)容主要分為以下三個部分:

(1)圖像在計算機內(nèi)部的存儲方式。

(2)計算機如何區(qū)分出物體與其所在背景。

(3)計算機如何定位人臉并從而實現(xiàn)識別功能。(注:由于照相軟件只是作為一個對于人臉識別問題的切入點,單單深究照相軟件會帶來一定的局限性,因此二、三兩點將跳過作為載體的照相軟件,直接對于照相機功能背后的原理作進一步探究。)

1.1 圖像在計算機內(nèi)部的儲存方式

計算機通過往往通過bitmap的形式來儲存圖像,也就是像素矩陣。

從結(jié)構(gòu)上講,計算機中儲存的圖像一把可以分為兩大類,即矢量圖和位圖。矢量圖通過數(shù)學公式計算獲得,優(yōu)點在于不會失真,但其最大的缺點是難以表現(xiàn)色彩層次豐富的逼真圖像效果。而位圖的基本思想,則是把一幅圖像按照行列進行分割,所獲得的點成為像素。相機所拍攝獲得的照片便是以位圖的形式儲存的。每一幅圖像均是由無數(shù)像素組成,而每一個像素對應顯存中1、8、16或24位二進制數(shù)來表示顏色信息。位數(shù)決定了圖像所含的最大顏色數(shù),位數(shù)越多,圖像的色彩就越豐富。

1.2 計算機如何區(qū)分出物體與其所在背景

大致的過程可以由圖1所知,用相對容易理解的話來解釋,計算機對于區(qū)分物體與其所在背景,首先是通過對要是別的物體提取表面特征,然后再對真實的照片提取表面特征,最終在進行匹配,配合相應的算法,這樣,計算機便可以區(qū)分出物體與其所在背景。

由此所延伸的科目是計算機視覺。

正如定義所提到:計算機視覺是一門關于如何運用照相機和計算機來獲取我們所需的,被拍攝對象的數(shù)據(jù)與信息的學問。

通過這門科目,我們能夠做到使用計算機來處理圖像,并區(qū)分出目的對象。形象地說,在這門科目的輔助之下,計算機能夠成為人類的第二雙眼睛,對目標進行識別、跟蹤和測量。

“One picture is worth ten thousand words.”圖像的處理,將為人類提供巨大的便捷。

大致羅列出其處理所進行的步驟,分別是:圖像獲取、特征提取、檢測分割、高級處理。

1.3 計算機如何定位人臉并從而實現(xiàn)識別功能

關于人臉的定位與識別,在很大一定程度上與區(qū)別物體與背景的技術存在著相似之處。但是人臉的定位與識別,又是更高于目標對象的識別的。這正是算法的不停更新與發(fā)展所帶來的科技發(fā)展的結(jié)果。

目前比較流行的Cascade Classifier(Opencv中做人臉檢測的時候的一個級聯(lián)分類器)效果還是比較好的,正臉檢測到的成功率能達到90%以上。

此外,在人臉局部區(qū)域特征提取時,一種叫做CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡技術的運用――使用提取特征的filter對像素點進行幾層處理,也為識別帶來一定的便利。CNN運用到了深度學習,因此這里將拓展以下有關deep learning的概念:

deep learning的概念源于人工神經(jīng)網(wǎng)絡的研究。其三大框架為:CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡),DBN(Deep Belief Network,深度置信網(wǎng)絡),AE(AutoEncoder,自動編碼機)。而目前在CV(Computer Vision的縮寫,指計算機視覺)領域應用最廣的是CNN。到近來也有很多人嘗試用deep learning的方法來實現(xiàn)人臉識別,其與先前所提到的計算機區(qū)分物體和背景的原理也是相似的。

2 結(jié)論

回到最初的問題:照相機的人臉跟蹤是如何實現(xiàn)的?綜上所述,可以獲得的結(jié)論是:照相機的人臉跟蹤是通過計算機視覺的一些算法實現(xiàn)的。但這些算法在技術方面人仍然面臨著一些難點,例如,在特征識別時,外界客觀因素,有如,光線、著裝遮擋、目標對象的姿態(tài)、臉型、樣本缺乏等等尚未解決的問題。這些都使人臉識別技術尚有巨大的可發(fā)展空間。就像前段時間由推出的How Old do I Look線上臉部偵測服務,曾一度掀起熱潮,可見,人們對于人臉識別技術的期望也是很高的。

那么,未來的人臉識別技術到底能夠發(fā)展到何種程度呢?香港中文大學教授湯曉鷗、王曉剛及其研究團隊曾在2014年6月宣布,他們研發(fā)的DeepID人臉識別技術的準確率超過99%,比肉眼識別更加精準。相信未來,計算機人臉識別技術將與我們共同成長,逐漸成熟與完善。畢業(yè)于UC Berkeley的博士賈揚清,創(chuàng)造了Caffe――全稱Convolutional Architecture for Fast Feature Embedding,一個清晰而高效的深度學習框架,具有上手快、速度快、模塊化、開放性、社區(qū)好等優(yōu)點。如此不斷迅捷發(fā)展的計算機技術,在這個數(shù)字化的時代,正是對未來發(fā)展很好的導向。

參考文獻

[1]韋鳳年.怎樣寫科技論文[J].河南水利,2006(09).

[2]董琳,趙懷勛.人臉識別技術的研究現(xiàn)狀與展望[J].China Academic Journal Electronic Publishing House,2011,10.

作者簡介

孫文倩(1998-),上海市人?,F(xiàn)在上海市洋涇中學高中在讀。

第4篇:卷積神經(jīng)網(wǎng)絡存在的問題范文

【關鍵詞】互聯(lián)網(wǎng)金融 人臉識別 信息安全 身份認證

一、引言

國家建設部于“十二五”期間頒布了關于開展國家智慧城市試點工作的通知,意在通過綜合運用現(xiàn)代科學技術來營造社會建設和管理的新模式。伴隨著智慧經(jīng)濟的建設和我國的傳統(tǒng)金融行業(yè)對于創(chuàng)新變革的訴求,國內(nèi)的互聯(lián)網(wǎng)金融行業(yè)開始快速發(fā)展。人臉識別在國內(nèi)互聯(lián)網(wǎng)金融領域的應用也借助這一浪潮拉開帷幕。

二、人臉識別技術簡介

進入21世紀,隨著計算機技術、光學技術等技術的迅猛發(fā)展,人臉識別技術逐漸成熟,步入了應用階段。人臉識別安防、考勤、支付等系統(tǒng)走進了我們的生活。

人臉識別算法蓬勃發(fā)展,尤其是基于深度學習的識別方法。深度學習利用其對大型數(shù)據(jù)集的優(yōu)秀預測能力突破了之前在人臉識別過程中的精準率瓶頸。深度學習算法種類繁多,目前被廣泛應用于人臉識別領域的主要是卷積神經(jīng)網(wǎng)絡。其現(xiàn)主要分為四個步驟。

首先是局部感知。在處理在圖像處理中,把圖像表示為像素的向量。只對局部的聯(lián)系緊密的向量進行感知,初步降低參數(shù);第二步是權(quán)值共享。挑選第一步中的某個局部參數(shù)提取特征,再將其作為探測器也就是卷積核,應用到圖像的任意區(qū)域,對特征進行匹配,得到不同的激活值。將符合條件的激活值篩選出來;第三步是多卷積核。挑選更多的卷積核,不斷重復第二步驟,學習更多特征;最后是池化。一個圖像區(qū)域有用的特征極有可能在另一個區(qū)域同樣適用,對不同位置的特征進行聚合統(tǒng)計可以簡化對于大圖像的描述,進一步降參。

三、互聯(lián)網(wǎng)金融的人臉識別運用

互聯(lián)網(wǎng)金融是借助于互聯(lián)網(wǎng)技術、移動通信技術來實現(xiàn)資金融通、支付和信息中介等業(yè)務的一種新興金融模式。毫無疑問,互聯(lián)網(wǎng)金融正以其獨特的運行方式和價值創(chuàng)造模式,影響著傳統(tǒng)金融業(yè)務,逐步成為整個金融生態(tài)體系中不可忽視的一部分。

(一)互聯(lián)網(wǎng)金融面臨的風險

互聯(lián)網(wǎng)金融行業(yè)也同傳統(tǒng)金融行業(yè)一樣,它們的核心問題都是如何預防和處理風險。目前我國的互聯(lián)網(wǎng)金融行業(yè)面臨著政策法律風險、監(jiān)管風險、流動風險、市場風險、信用風險、技術風險這六大風險。

(1)信用風險。互聯(lián)網(wǎng)金融的信用風險主要來自于對客戶的真實身份的認證帶來的信息不對稱問題。由于國內(nèi)的互聯(lián)網(wǎng)信用業(yè)務還沒有得到很完善的監(jiān)管,互聯(lián)網(wǎng)金融的虛擬性就會給對客戶身份的認證帶來不確定性素。例如,一些用戶在P2P網(wǎng)貸平臺進行身份信息造假騙取貸款。

(2)技術風險?;ヂ?lián)網(wǎng)金融是互聯(lián)網(wǎng)與金融的結(jié)合產(chǎn)物,自然避免不了對于網(wǎng)絡信息安全的要求。傳統(tǒng)的字符密碼具有可復制性,容易被網(wǎng)絡黑客、木馬病毒所竊取,造成不必要的損失。傳統(tǒng)的字符密碼認證對互聯(lián)網(wǎng)金融企業(yè)的網(wǎng)絡技術安全提出了更高的要求,而我國的互聯(lián)網(wǎng)金融企業(yè)大多還在成長階段,無法維護龐大的信息數(shù)據(jù)庫,給行業(yè)帶來了很大的技術風險。

(二)人臉識別技術降低信用風險與技術風險

人臉識別技術依靠人臉獨特性、難以復制性等優(yōu)勢可以很大程度上降低互聯(lián)網(wǎng)金融的信用風險和技術風險。目前,國內(nèi)的云從科技、Linkface等科技公司都在LFW數(shù)據(jù)庫的實驗環(huán)境下,取得了99.5%以上的人臉識別成功率,高于人眼識別97.52%的準確率。

在人臉識別模式下的開戶過程需要用戶先需要出示自己的二代身份證,系統(tǒng)在客戶填寫開戶信息后繼續(xù)發(fā)出指令,讓客戶進行基于視頻流的身份認證,人臉識別系統(tǒng)會以此判別個人身份的真實性。同時,利用“活體檢測算法”、“圖像脫敏算法”以及“人臉比對算法”等算法對視頻流的背景和人像的對比分析,可以避免一些用戶利用錄制好的視頻來偽造身份信息。

識別開戶成功后,系統(tǒng)自動上傳用戶信息至后臺。當遇到支付等操作指令時調(diào)出信息,再次對客戶進行基于視頻流的身份認證來確定指令的安全性。

(三)互聯(lián)網(wǎng)金融中的人臉識別運用

(1)招商銀行“ATM刷臉取款”。我國的招商銀行一直以勇于創(chuàng)新的先行者姿態(tài)活躍于金融領域,在手機銀行和自助銀行等多種電子信息化自助服務渠道中保持著領先地位。繼在VTM渠道應用人臉識別技術以輔助柜員核實客戶身份后,又率先推出“ATM刷臉取款”業(yè)務。首先收集客戶的可信照片,再主要利用人臉識別技術并輔之以手機號碼驗證和密碼驗證來確認客戶信息,誤識率在萬分之一以下。

這是國內(nèi)銀行首次將人臉識別技術應用到自助提款機上,也意味著招行“智能銀行”再一次取得進展。

(2)螞蟻金服的人臉識別體系。螞蟻金服起步于阿里巴巴集團的支付寶,致力于推進互聯(lián)網(wǎng)支付、消費、理財。螞蟻金服于2015年在支付寶上推出人臉識別的功能,已在用戶登錄、實名認證、找回密碼、商家審核、支付風險校驗等多個場景中投入使用,利用人臉識別代替?zhèn)鹘y(tǒng)的密碼輸入。同年,阿里巴巴董事局主席馬云在德國漢諾威消費電子、信息及通信博覽會上展示了螞蟻金服的“smiletopay”技術,用手機“刷臉支付”的方式在網(wǎng)上購買了一張1948年的漢諾威紀念郵票,完美展示了計算機人臉技術在支付中的應用。此項技術還在不斷完善,螞蟻金服的刷臉支付功能正式投入商用指日可待。

(四)人臉識別目前存在的問題

(1)沒有統(tǒng)一的安全標準。人臉識別技術領域的實際應用還在起步階段,目前還沒有統(tǒng)一的行業(yè)標準與國家標準,主要都是技術廠家自己制定標準。然而廠家標準制定的不一致,會導致不同的安全狀況與安全水平。只有通過制定統(tǒng)一的國家安全標準,才能解決人臉識別在技術推廣過程中的障礙。

(2)識別中的“矯枉過正”。當人臉識別技術被作為加密技術投入實際應用時,我們最看重的就是它的安全性。而人臉識別技術的安全性可以用誤接受率與誤拒絕率兩個指標來衡量。為了嚴格保證安全,技術廠商往往會盡量降低誤接受率,但這同時會提高誤拒絕率,使一些真正的用戶也會被系統(tǒng)拒絕,“矯枉過正”,影響了用戶體驗。

(3)可信照片的分辨率低。目前互聯(lián)網(wǎng)金融行業(yè)在使用人臉識別技術進行開戶等操作時,用于確定客戶信息的可信照片往往是居民二代身份證。而二代身份證的照片不僅分辨率低而且信息量少,這會降低人臉注冊、識別的準確率。

(4)人臉的變化。隨著時間的推移,用戶的年齡增長,會發(fā)生胖瘦、常規(guī)的化妝、自然老化等變化。通常情況下,這些變化是在計算機的識別范圍內(nèi)的,但是如果出現(xiàn)整容、過濃的妝容、或者是佩戴眼鏡與一些裝飾性的飾物可能就會影響人臉識別的識別率。同時,由于雙胞胎、多胞胎的人臉信息過于相像,雙胞胎、多胞胎人臉信息的分辨在人臉識別技術中也是一個待攻克的難題。

四、未來發(fā)展應用趨勢

(一)發(fā)展展望

(1)制定統(tǒng)一的行業(yè)標準。為了保障人臉識別技術在應用過程中的安全性、規(guī)范性,有關的人臉識別科技公司和互聯(lián)網(wǎng)金融企業(yè)等應該聯(lián)合國家相關機構(gòu),加速人臉識別技術系列標準和規(guī)范的起草進一步規(guī)范人臉識別的技術指標和要求,為業(yè)務的深入和推廣提供基礎參考。

(2)突破對源圖信息提取瓶頸。計算機人臉識別技術中很關鍵的一環(huán)就是將可信的源圖信息與后期獲取圖像的信息進行對比篩選,計算機才能做出精確的判斷。在獲取到的源圖數(shù)據(jù)不充分、不理想的時,如何對信息進行有效的提取,到目前為止還沒有很好的解決辦法。但是,伴隨著科技的高速發(fā)展,人臉識別技術的這一瓶頸在將來必定會被突破。

(3)與其他生物識別技術相結(jié)合。各種生物特征識別技術都有各自的優(yōu)缺點,在具體的應用過程中,人臉識別技術可以和虹膜、靜脈等其他生物特征識別技術相結(jié)合使用,降低對用戶的誤接受率和誤拒絕率,進一步提高身份識別的整體安全性。

(二)應用展望

(1)全方位的身份查核。人臉識別身份驗證技術的應用是對互聯(lián)網(wǎng)金融業(yè)務的基礎性工作的一項重要技術保障。在將來,人臉識別身份驗證技術的應用應該從單純的“登錄認證”到擴展到“支付認證”,做到全方位的身份核查,提高群眾服務的便捷性,同時保證業(yè)務更加安全、可靠。除此之外,人臉識別身份驗證技術還可以帶動其他行業(yè)的類似業(yè)務場景,從而在全社會范圍內(nèi)促成更廣泛的工作流程改進和社會成本節(jié)約。

(2)全面的私人數(shù)據(jù)保護。在將來,用戶的一切經(jīng)濟活動信息都可以通過人臉識別技術進行有效保護,避免敏感數(shù)據(jù)泄露,消除欺詐者利用不正當途徑來竊取用戶個人信息進行非法交易的可能,提升互聯(lián)網(wǎng)金融行業(yè)客戶的體驗友好程度。

五、結(jié)語

對于互網(wǎng)金融行業(yè)來說,改革與創(chuàng)新、提高金融服務質(zhì)量和安全防范是今后互聯(lián)網(wǎng)金融行業(yè)發(fā)展的主要趨勢,人臉識別等高科技技術投入互聯(lián)網(wǎng)金融行業(yè),會對整個行業(yè)的發(fā)展起到一種非常積極的作用。未來的人臉識別技術在互聯(lián)網(wǎng)金融行業(yè)中的應用必會繼續(xù)朝著遠程化發(fā)展,進一步取代現(xiàn)在的柜臺開戶、字符密碼認證等傳統(tǒng)的服務流程,做到“智慧金融,智慧生活,智慧城市”。

參考文獻:

[1]李子青.人臉識別結(jié)合視頻監(jiān)控看公安與金融市場應用[J].中國安防,2015,(8).

[2]呂曉強. 生物識別技術再造銀行客戶身份認證體系[J].金融電子化,2016,(4).

[3]廖敏飛,黃瑞吟,劉麗娟. 生物識別技術在金融行業(yè)的應用現(xiàn)狀與前景分析[J].金融電子化,2016,(4).

第5篇:卷積神經(jīng)網(wǎng)絡存在的問題范文

關鍵詞:裂紋實時監(jiān)測系統(tǒng);Linux操作系統(tǒng);ARMS3C2440開發(fā)板;QT

中圖分類號:TP29 文獻標識碼:A

文章編號:1004-373X(2009)21-138-03

Development and Research of Intelligent Building Crack′s Real-time

Measuring System Based on ARMS3C2440

ZUO Yongbo

(Electrical College,Hunan University,Changsha,410082,China)

Abstract:With the enhancement of variety of embedded processor′s speed and the development of integrated circuits,a large number of embedded devices are increasingly being applied in each aspects of people's living.In this study,with Linux operating system ARMS3C2440 development board for the development platform,the building crack monitoring system for real-time algorithm implementation and the final software development is completed.Different from the general crack detecting system,adopting edge of the crack detection and crack width measurement separately,making crack and measuring the results of locking position is more accurate.Using QT for interface design,making the software developed by a more intelligent,user-friendly and so on.

Keywords:crack real-time monitoring system;Linux operating system;ARMS3C2440 development board;QT

0 引 言

在建筑業(yè)中,評價墻體裂紋,地面裂紋是評價房屋質(zhì)量的一項重要指標。由于傳統(tǒng)的利用手工標尺進行裂紋寬度測量的方法既不準確又不方便,于是將嵌入式應用于自動測量建筑裂紋寬度成為了許多研究者的重要研究內(nèi)容。

本研究將問題劃分為以下兩個部分:

(1) 裂紋寬度測量算法;

(2) 將以上所開發(fā)軟件移植到ARM開發(fā)板,并優(yōu)化算法提高軟件運行速度。

1 裂紋寬度測量算法

計算裂縫寬度關鍵是要利用圖像分割技術得到裂縫的真正邊緣。雖然已有文獻介紹了多種分割方法[1-4],但是未見有針對裂縫測試儀采集到的裂縫圖像進行處理的方法。因此,本文針對裂縫圖像,提出了結(jié)合OTSU圖像分割與Sobel邊緣檢測的混合算法進行裂紋檢測與寬度測量。

1.1 圖像獲取

圖像獲取過程如圖1所示:被檢測的裂縫通過光學系統(tǒng)在CMOS圖像傳感器上成像,然后通過USB接口將裂縫圖像輸出到ARM上進行處理。

裂縫圖像如圖2所示。裂縫寬度分布范圍較廣,自幾十至幾百像素不等,但遠遠小于圖像的寬度值。裂縫周圍有部分噪聲,有的圖像含有大量污染區(qū)域,這成為裂縫位置鎖定的難點。

1.2 OTSU圖像分割

通過與已有圖像分割方法如:直方圖法、OTSU法、區(qū)域分割法等進行比較發(fā)現(xiàn),OTSU在最后的效果上占有明顯的優(yōu)勢。因此采用OTSU方法進行圖像的分割。

圖像分割的結(jié)果如圖3所示。觀察結(jié)果,很容易發(fā)現(xiàn)圖像的邊緣很大區(qū)域被錯分為與裂縫一樣。于是直接計算裂縫寬度時會導致將錯分的區(qū)域計算成裂縫。因此除了計算裂縫寬度外,對候選裂縫集合進行有效剔除是另一個重要任務。對選裂縫集合進行有效剔除將會在下一小節(jié)中進行討論。

分割完圖像后,計算所有可能成為裂縫的區(qū)域的寬度。采用從圖像給定行的起始位置開始計算裂縫寬度,當發(fā)現(xiàn)像素灰度由0變?yōu)?55,記為一個裂縫的左邊緣起始位置;當查找到像素灰度由255變?yōu)?,記為一個裂縫的右邊緣結(jié)束位置。通過這種方法可以獲取給定行的所有可能的裂縫寬度。但是在具體試驗中發(fā)現(xiàn),計算對單行的裂縫進行寬度測量還是存在比較大的誤差。于是采用求取給定行上下5行共10行的平均值的方法。這樣可以有效地去除毛刺的干擾。通過這種方法,得到一個裂縫的候選集合,并且計算出候選集合中每一個位置的寬度。

1.3 Sobel邊緣檢測

以上小節(jié)得出了裂縫的候選集合,但是事實上這個候選集合含有大量的非裂縫區(qū)域。這一節(jié)中的主要內(nèi)容是設計算法剔除這些干擾裂縫,獲取更小的裂縫候選集合。在試驗中,由于裂縫具有明顯的邊緣,而干擾圖像區(qū)域有比較模糊的邊緣或者僅有一個邊緣等,通過分析,提出采用Sobel邊緣檢測的方法進行裂縫位置的鎖定。Sobel算子由兩個卷積核組成,如圖4所示,圖像中的每個點都用這兩個核做卷積,一個核對通常的垂直邊緣相應最大,而另一個對水平邊緣相應最大。兩個卷積的最大值作為該點的輸出位。運算結(jié)果是一幅邊緣幅度圖像。

通過對原始圖像采用Sobel邊緣檢測得到如圖5所示結(jié)果。

但是,這個結(jié)果很明顯存在很多微小的干擾,這些干擾必須予以剔除,否則將對鎖定裂縫邊緣沒有任何效果。通過對邊緣檢測結(jié)果圖像仔細分析發(fā)現(xiàn),雖然存在微小干擾,但是他們的灰度值普遍偏小,針對這一發(fā)現(xiàn),對緣檢測結(jié)果圖像做與上一節(jié)中一樣的圖像分割,這會將微小的干擾有效地剔除。實際的實驗結(jié)果也驗證了這一點,如圖6所示。

同過對分割后的邊緣圖像進行觀察,圖像仍然存在一些微小的干擾,但這些干擾相對于未處理的緣檢測結(jié)果圖像已經(jīng)很少,將在后續(xù)的處理中對圖像裂縫添加附加約束,從而取出這些干擾的影響。

1.4 基于裂縫特征的附加約束

通過對大量的裂縫圖像進行分析,發(fā)現(xiàn)圖像裂縫有如下特點:

(1) 裂縫灰度值低于墻體的灰度值。

(2) 裂縫的寬度相對于整個圖像不超過圖像寬度的1/3。

(3) 污染的墻體區(qū)域一般呈大的塊狀出現(xiàn),且很多僅含有一個邊界,另一邊界延伸至圖像外面。

(4) 墻體的一些微小的干擾呈小塊狀出現(xiàn)。

(5) 裂縫一般為帶狀。

使用ARM處理器處理圖像,由于其速度慢且有實時性要求,故不能處理整張的圖像,換句話說,必須處理局部圖像。這就很明顯增加了剔除候選裂縫的難度。該系統(tǒng)顯然是無法使用特點(4)、特點(5)的。因此僅使用了前三個特點,并提出了約束:剔除寬度高于圖像寬度1/3的裂縫候選集,剔除寬度低于1/10的裂縫候選集。

通過添加以上約束,實驗效果有了明顯的提高。圖7是PC機的結(jié)果,由于同時使用了5個約束效果比較好。圖8是ARM系統(tǒng)運行的截圖,由于在ARM上不方便分步計算出每一個步驟,故直接給出了帶有測量結(jié)果的截圖。

2 基于Linux的QT界面設計算法

前文討論的是主要的算法部分,完整的裂紋測量系統(tǒng)還包括用戶接口部分,即圖形界面接口。在ARM上采用QT進行界面設計已經(jīng)比較成熟,它具有以下主要特點:

(1) 入門容易、學習成本低。了解基本概念后就可以邊查文檔邊寫程序。

(2) 跨平臺效果好。本來是Linux下的工具庫,在Windows下默認觀感也很好。

3 軟件移植與程序優(yōu)化

由于最終的程序是運行在ARM系統(tǒng)上,而由于ARM處理圖像時的速度慢與裂縫測量儀器的實時性要求,必須對程序進行優(yōu)化,并將算法移植到ARM系統(tǒng)上,使之可以正確運行。

軟件的移植比較容易。由于一開始很注重將PC機上仿真成功的算法及時移植到ARM上,故程序的移植變得比較容易。

但是程序的優(yōu)化是一個問題,雖然現(xiàn)在的ARM速度已經(jīng)提高了很多,但是在處理圖像時還是很吃力,加上算法中需要對原圖像兩次獨立處理,相當于加倍了ARM的負擔。通過對大量裂縫圖像的分析,針對前文中提出的裂縫特點以及結(jié)合ARM本身的運算速度條件,提出剔除處理全部圖像的算法。采用了只處理給定行位置上下10行的區(qū)域。通過只處理這20行圖像,極大地提高了程序的運行速度。以上方法并行,還采用多線程編程方法,通過將圖像采樣與圖像的處理分為兩個進程完成,有效地提高了程序的運行速度。

4 實驗結(jié)果分析

該程序分別在PC機和ARM開發(fā)板上運行,效果如圖7,圖8所示。

通過大量的實驗發(fā)現(xiàn)該算法能較好地檢測出裂縫的分布和寬度。在算法中采用了結(jié)合OTSU圖像分割與Sobel邊緣檢測的混合算法進行裂紋檢測與寬度測量。這種算法能分別有效利用邊緣檢測與圖像分割兩種方法各自的優(yōu)點。另外在該算法中加入了一些分析獲得的約束條件,這能極大地彌補邊緣檢測與圖像分割混合方法的不足,從而有效地提高了裂紋位置鎖定與裂縫寬度測量的精度。

5 結(jié) 語

針對墻體裂紋測量,設計出了一套適用于裂縫寬度檢測的算法。該算法能較好地檢測出裂縫的分布和寬度。采用邊緣檢測與圖像分割混合的方法并通過對大量圖像進行分析,對算法添加了一系列符合圖像裂縫特征的約束條件,極大地提高了算法的準確性與健壯性。分別將程序運行于PC機系統(tǒng)與ARM系統(tǒng),并針對ARM系統(tǒng)的特點對算法進行了一系列優(yōu)化,引入了并行處理技術,在提高ARM運行速度的同時,使得ARM系統(tǒng)檢測出的結(jié)果達到與PC機系統(tǒng)幾乎同等的效果。

參考文獻

[1]施樹明,初秀民,王榮本.瀝青路面破損圖像測量方法研究 [J].公路交通科技,2004,24(7):12-16.

[2]陸玲,陳國明,戴揚.水下結(jié)構(gòu)物裂縫特征定量分析與測量 [J].計算機測量與控制,2004,12(1):10-12.

[3]甘玲,李濤,趙輝,等.CP神經(jīng)網(wǎng)絡在圖像邊緣檢測中的應用 [J].四川大學學報:自然科學版,2003,35(3):93-96.

[4]王大志,黃劫,徐樹英.采用灰度直方圖的孔型識別和二值化閾值自動匹配 [J].測控技術,2005,24(2):48-49.

[5]耿飛,錢春香.圖像分析技術在混凝土收縮裂縫定量測試與評價中的應用研究 [J].東南大學學報:自然科版,2003,33(6):773-776.

[6]Kima K S,Kangb K S,Kangc Y J,et al.Analysis of an Internal Crack of Pressure Pipeline Using ESPI and Hearography[J].Optics&Laser Technology,2003,35(8):639-643.

[7]陳果,左洪福.圖像閾值分割的兩種新技術[J].模式識別與人工智能,2002,15(4):468-473.

[8]胡霞.國內(nèi)外路面快速檢測技術的現(xiàn)狀與發(fā)展[J].中外公路,2003(6):95-99.

[9]張娟.基于數(shù)字圖像處理的路面裂縫自動識別與評價系統(tǒng)[J].長安大學學報,2004(2):18-22.

[10]付忠良.圖像閾值選取方法――OTSU方法的推廣[J].計算機應用,2000,20(5):37-39.