公務(wù)員期刊網(wǎng) 精選范文 神經(jīng)網(wǎng)絡(luò)降維方法范文

神經(jīng)網(wǎng)絡(luò)降維方法精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經(jīng)網(wǎng)絡(luò)降維方法主題范文,僅供參考,歡迎閱讀并收藏。

神經(jīng)網(wǎng)絡(luò)降維方法

第1篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

【關(guān)鍵詞】圖像分類深度 卷積神經(jīng)網(wǎng)絡(luò) 加權(quán)壓縮近鄰

1 研究背景

手寫數(shù)字識(shí)別是一個(gè)經(jīng)典的模式識(shí)別問題。從0 到9這10 個(gè)阿拉伯?dāng)?shù)字組成。由于其類別數(shù)比較小,它在些運(yùn)算量很大或者比較復(fù)雜的算法中比較容易實(shí)現(xiàn)。所以,在模式識(shí)別中數(shù)字識(shí)別一直都是熱門的實(shí)驗(yàn)對(duì)象。卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN),在手寫體識(shí)別中有著良好的性能。卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)不但可以解決淺層學(xué)習(xí)結(jié)構(gòu)無法自動(dòng)提取圖像特征的問題,并且提高了分類的泛化能力和準(zhǔn)確度。

2 深度卷積神經(jīng)網(wǎng)絡(luò)

深度卷積神經(jīng)網(wǎng)絡(luò)是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡(luò),隱含層中的卷積層和池采樣層是實(shí)現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數(shù)來進(jìn)行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過迭代訓(xùn)練提高分類精確度。

深度卷積神經(jīng)網(wǎng)絡(luò)的首層是輸入層,之后是若干個(gè)卷積層和若干個(gè)子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應(yīng)的分類結(jié)果。正常情況下,一個(gè)卷積后面都跟一個(gè)子采樣層?;诰矸e層里權(quán)值共享和局部連接的特性,可以簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù)。運(yùn)算之后,獲得的結(jié)果通過激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實(shí)現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對(duì)應(yīng)的特征圖中相鄰特征通過池化操作合并成一個(gè)特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個(gè)卷積層,反復(fù)進(jìn)行特征學(xué)習(xí)。將被標(biāo)記的樣本輸入到Softmax分類器中。

CNN 能夠簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù),降低計(jì)算難度。這些良好的性能是網(wǎng)絡(luò)在有監(jiān)督方式下學(xué)會(huì)的,網(wǎng)絡(luò)的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個(gè)特點(diǎn):

2.1 局部連接

深度卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的神經(jīng)元節(jié)點(diǎn)是局部連接,不像BP 神經(jīng)網(wǎng)絡(luò)中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡(luò)利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點(diǎn)連接相鄰的上一層神經(jīng)元節(jié)點(diǎn)。

2.2 權(quán)重共享

在深度卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中每一個(gè)卷積濾波器共享相同參數(shù)并重復(fù)作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。

在得到圖像的卷積特征之后,需要用最大池采樣方法對(duì)卷積特征進(jìn)行降維。用若干個(gè)n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會(huì)被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進(jìn)行分類。

3 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的有效性,本實(shí)驗(yàn)中使用以最經(jīng)典的MNIST 和USPS 庫這兩個(gè)識(shí)別庫作為評(píng)測標(biāo)準(zhǔn)。手寫數(shù)字MNIST數(shù)據(jù)庫有集60000 個(gè)訓(xùn)練樣本集,和10000 個(gè)測試,每個(gè)樣本向量為28×28=784維表示。手寫數(shù)字USPS 數(shù)據(jù)庫含有7291 個(gè)訓(xùn)練樣本和2007 個(gè)測試樣本,每個(gè)樣本向量為16×16=256 維。

表1給出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST 和USPS 庫上的識(shí)別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)MNSIT 庫識(shí)別率能夠達(dá)到97.89%,與用BP 算法得到的識(shí)別率94.26%相比,提高了兩個(gè)多百分點(diǎn)。對(duì)USPS 庫識(shí)別率能夠達(dá)到94.34%,與用BP 算法得到的識(shí)別率91.28%相比,也提高了三個(gè)多百分點(diǎn)。

因此,使用深度卷積神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練在圖像識(shí)別中獲得更高識(shí)別率。因此,深度卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別手寫體字符時(shí)有著較好的分類效果。

4 總結(jié)

本文介紹深度卷積神經(jīng)網(wǎng)絡(luò)的理論知識(shí)、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)兩組手寫識(shí)別庫實(shí)驗(yàn)來驗(yàn)證CNN 有著較低的出錯(cuò)率。

參考文獻(xiàn)

[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫體數(shù)字識(shí)別簡介[J].計(jì)算機(jī)科學(xué),2013,40(08):316-318.

[2]王強(qiáng).基于CNN的字符識(shí)別方法研究[D].天津師范大學(xué),2014.

[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.

[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動(dòng)化學(xué)報(bào),2007,33(12):1247-1251.

作者簡介

關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學(xué)歷?,F(xiàn)為中國電子科技集團(tuán)公司第五十四研究所工程師。研究方向?yàn)橛?jì)算機(jī)軟件工程。

第2篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

上海市作為國家云計(jì)算服務(wù)創(chuàng)新試點(diǎn)城市之一,“十二五”期間將在五大領(lǐng)域推進(jìn)云計(jì)算的示范應(yīng)用,其中包括以云計(jì)算、物聯(lián)網(wǎng)等信息服務(wù)系統(tǒng)來支撐上海建設(shè)“智慧城市”的交通管理。面對(duì)傳統(tǒng)交通信息來源有限、可靠性差、滯后等缺陷,急需借助于云計(jì)算環(huán)境來研究多源交通信息的融合機(jī)理,催生多源交通信息服務(wù)模式的改變。本文著力構(gòu)建多源信息云智能交通系統(tǒng)自適應(yīng)服務(wù)模型,篩選年鑒數(shù)據(jù)為樣本,通過SPSS軟件仿真,最終驗(yàn)證此模型的可行性。

模型構(gòu)建

1、處理流程云計(jì)算環(huán)境下智能交通系統(tǒng)中多源信息渠道得到的原始數(shù)據(jù)具有典型無組織性。本文構(gòu)建多源信息云智能交通系統(tǒng)自適應(yīng)服務(wù)模型,處理流程如圖1所示。多源信息云智能交通系統(tǒng)自適應(yīng)服務(wù)模型全流程均在云計(jì)算環(huán)境下進(jìn)行,實(shí)時(shí)信息至歷史信息的傳遞過程體現(xiàn)本模型處理過程的動(dòng)態(tài)性。此模型中自適應(yīng)性體現(xiàn)在:(1)通過Newton多元參數(shù)優(yōu)化法實(shí)現(xiàn)樣本降維處理;(2)通過前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程得到云智能交通系統(tǒng)信息服務(wù)最優(yōu)拓?fù)浣Y(jié)構(gòu),即確定前饋神經(jīng)網(wǎng)絡(luò)中隱藏層邏輯結(jié)構(gòu),通過前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程得到最優(yōu)層間權(quán)重和最優(yōu)迭代參數(shù),從而得到最優(yōu)神經(jīng)網(wǎng)絡(luò);(3)通過有限混合分布擬合前饋神經(jīng)網(wǎng)絡(luò)正向輸出數(shù)據(jù),得到更具靈活性的全局分布。2、多元參數(shù)優(yōu)化多元參數(shù)優(yōu)化目的旨在尋找維元參數(shù)向量的標(biāo)量評(píng)分函數(shù)的最小值。在多源信息神經(jīng)網(wǎng)絡(luò)自適應(yīng)服務(wù)模型中,實(shí)驗(yàn)樣本維數(shù)通常比較大,而多維空間中局部最小值現(xiàn)象突出,如果在多源數(shù)據(jù)預(yù)處理過程中找到局部最小值,則能剔除非最小值空間,從而有效將樣本數(shù)據(jù)降維。多元參數(shù)優(yōu)化運(yùn)用迭代的思想,直至找到局部最小值。局部迭代一般過程為:其中,是第步迭代時(shí)的估計(jì)參數(shù),是下一步迭代移動(dòng)方向的維向量。神經(jīng)網(wǎng)絡(luò)中的反饋思想運(yùn)用的是最陡峭下降算法,最陡峭下降的梯度不一定指向最小值,理論上經(jīng)過有限次迭代可以找到對(duì)應(yīng)的,但并不是優(yōu)選迭代法。Newton方法定義局部迭代過程為:其中,是在點(diǎn)處二階導(dǎo)數(shù)矩陣的逆矩陣(),為函數(shù)的一階導(dǎo)數(shù),為矩陣中元素,幫助判定并剔除迭代過程中非指向局部最小值的點(diǎn)。3、前饋神經(jīng)網(wǎng)絡(luò)多層前饋神經(jīng)網(wǎng)絡(luò)包括輸入層、若干隱藏層和輸出層。訓(xùn)練樣本反饋入輸入層,輸入層與隱藏層、隱藏層與輸出層之間加權(quán)全連接,和分別為其權(quán)重,如圖2所示。多層前饋神經(jīng)網(wǎng)絡(luò)層數(shù)取決于隱藏層個(gè)數(shù),若隱藏層個(gè)數(shù)為3,則有4層輸出單元,則此多層前饋神經(jīng)網(wǎng)絡(luò)為四層神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越復(fù)雜,則多層前饋神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,需要權(quán)重參數(shù)參與數(shù)越多,自適應(yīng)系統(tǒng)訓(xùn)練能力也就越強(qiáng)。確定最優(yōu)系統(tǒng)的隱藏層個(gè)數(shù)沒有確定的規(guī)則可以遵循,多層前饋神經(jīng)網(wǎng)絡(luò)最優(yōu)結(jié)構(gòu)的確定與網(wǎng)絡(luò)層間最優(yōu)參數(shù)的確定一樣,都是重復(fù)訓(xùn)練過程,訓(xùn)練結(jié)果直接影響神經(jīng)網(wǎng)絡(luò)自適應(yīng)系統(tǒng)的準(zhǔn)確性。估計(jì)的準(zhǔn)確性為本模型重要精度指標(biāo)。4、有限混合分布一般地,多源數(shù)據(jù)集數(shù)據(jù)為異質(zhì)數(shù)據(jù)集,代表數(shù)據(jù)來自不同的小組,而非單一同質(zhì)組。通常,異質(zhì)數(shù)據(jù)可能反映不同內(nèi)在現(xiàn)象,簡單處理異質(zhì)數(shù)據(jù)將人為導(dǎo)致數(shù)據(jù)信息沉沒。引入權(quán)重處理有限源數(shù)據(jù)集的數(shù)據(jù)異質(zhì)性,使得混合分布模型比單一擬合分布模型在分析和預(yù)測上更具靈活性和靈敏性。假設(shè)全局分布為:其中,為隨機(jī)變量的值,為隨機(jī)變量在分量上的分布函數(shù),是分量上的參數(shù)向量,為分布函數(shù)的權(quán)重,全局混合度有限,為。

仿真與結(jié)果

1、樣本選擇本次仿真樣本來源于2003年至2011年的《上海年鑒》以及2001年至2011年的《上海統(tǒng)計(jì)年鑒》,抽取2000年至2010年間4組大類8組小類共32個(gè)屬性(如圖3)驗(yàn)證本文中多源信息云智能交通系統(tǒng)自適應(yīng)服務(wù)模型的可行性。樣本數(shù)據(jù)從旅客出行行為出發(fā),對(duì)不同交通出行模式和支付方式數(shù)據(jù)依次進(jìn)行預(yù)處理、優(yōu)化處理、前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練、混合分布擬合。2、前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果本次仿真在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練之前,運(yùn)用SPSS軟件對(duì)維度為11×32維數(shù)據(jù)進(jìn)行預(yù)處理,首先通過區(qū)間估算方法處理統(tǒng)計(jì)過程中的缺省數(shù)據(jù),其次統(tǒng)一所有數(shù)據(jù)量綱,最后Newton法優(yōu)化為11×19維。優(yōu)化結(jié)果顯示,{{旅客發(fā)送量,公路},{{“市民信箱”累計(jì)注冊(cè)用戶“,付費(fèi)通”業(yè)務(wù)平臺(tái)交易量“,付費(fèi)通”業(yè)務(wù)平臺(tái)交易額,交通卡銷售額,銀行卡交易額},{個(gè)人信用報(bào)告累計(jì)出具數(shù)量}},{{軌道運(yùn)營車輛,軌道行駛里程,軌道客運(yùn)總量},{高架道路長度}},{{公交線路長度,公交線路條數(shù),公交客運(yùn)總量},{出租運(yùn)營車輛數(shù),出租載客車次量,出租運(yùn)營里程},{輪渡乘客人數(shù)}}}被保留進(jìn)入神經(jīng)網(wǎng)絡(luò)訓(xùn)練進(jìn)程。本次仿真取100%樣本作為訓(xùn)練數(shù)據(jù)集,運(yùn)用SPSSClementine軟件進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,對(duì)隱藏層數(shù)為1、2、3三種情況分別做訓(xùn)練,結(jié)果如表1所示。結(jié)果顯示,本次樣本訓(xùn)練得到2個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)為本次最優(yōu)神經(jīng)網(wǎng)絡(luò),估計(jì)的準(zhǔn)確性可達(dá)90.188%。同時(shí)證明Newton法預(yù)優(yōu)化原始數(shù)據(jù)一方面縮短神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間,另一方面控制神經(jīng)網(wǎng)絡(luò)具有較高估計(jì)準(zhǔn)確性。可以認(rèn)為,本多源信息云智能交通系統(tǒng)自適應(yīng)服務(wù)模型基本可行。3、混合分布擬合結(jié)果本次仿真運(yùn)用SPSS軟件擬合混合分布。擬合結(jié)果如圖4所示。X軸為時(shí)間軸,Y軸為數(shù)量軸,X軸下方19個(gè)屬性代號(hào),代表混合分布由19個(gè)簡單分布混合擬合得到。綜上證明,源信息云智能交通系統(tǒng)自適應(yīng)服務(wù)模型具有可行性。

第3篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò);電力變壓器;故障診斷

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)32-0174-03

1引言

電力變壓器在長期的運(yùn)行中,故障是不可避免的。變壓器一旦損壞會(huì)造成大面積停電且故障修復(fù)耗時(shí)長,因此變壓器故障的及早發(fā)現(xiàn)和處理具有非常重要的意義。

電力變壓器的故障一般有機(jī)械故障、熱性故障和電性故障,由于機(jī)械故障一般都以熱性故障和電性故障的形式體現(xiàn),因此主要以熱性故障和電性故障為主。熱性故障一般為中低溫過熱和高溫過熱,電性故障一般為低能放電和高能放電。傳統(tǒng)的變壓器故障診斷方法存在著效率偏低以及診斷準(zhǔn)確率不高的問題,因此我們可以利用人工神經(jīng)網(wǎng)絡(luò)的方法對(duì)電力變壓器的故障進(jìn)行自動(dòng)診斷。

2人工神經(jīng)網(wǎng)絡(luò)

2.1 人工神經(jīng)網(wǎng)絡(luò)概述

人工神經(jīng)網(wǎng)絡(luò)(ANNs)是對(duì)人腦或生物神經(jīng)網(wǎng)絡(luò)若干基本特性的抽象和模擬。

依靠系統(tǒng)的復(fù)雜程度,ANNs可通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,進(jìn)而對(duì)有效信息進(jìn)行可靠處理。而BP神經(jīng)網(wǎng)絡(luò)通常是指基于誤差反向傳播(Back Propagation)算法的多層前向神經(jīng)網(wǎng)絡(luò), 不僅能對(duì)輸入-輸出模式映射關(guān)系進(jìn)行學(xué)習(xí)和存儲(chǔ),而且對(duì)描述此種映射關(guān)系的數(shù)學(xué)方程不需要事前揭示。最速下降法為BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)規(guī)則,通過反向傳播來持續(xù)調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使其誤差平方和最小。

本文采用BP神經(jīng)網(wǎng)絡(luò)的三層前饋結(jié)構(gòu),分別為(input)、隱含層(hide layer)和輸出層(output layer)。輸入層的節(jié)點(diǎn)數(shù)為5(對(duì)應(yīng)電力變壓器油中氣體H2、CH4、C2H4、C2H2、C2H6),輸出層則有5個(gè)節(jié)點(diǎn)(對(duì)應(yīng)無故障,中低溫過熱,高溫過熱,低能放電,高能放電),隱含層的節(jié)點(diǎn)數(shù)根據(jù)經(jīng)驗(yàn)公式確定:

其中,r為隱層的節(jié)點(diǎn)數(shù),n為輸入的節(jié)點(diǎn)數(shù),m為輸出的節(jié)點(diǎn)數(shù),a則為1~10之間的常數(shù)。經(jīng)試驗(yàn),本文r取13。各層間神經(jīng)元相互連接,且各層內(nèi)沒有連接。如圖1所示:

BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練首先對(duì)每一層的權(quán)值和偏差進(jìn)行初始化(用小的隨機(jī)數(shù)),以免被大的加權(quán)輸入飽和,并且需對(duì)一些參數(shù)進(jìn)行設(shè)定及初始化(期望的誤差最小值、最大循環(huán)次數(shù)、修正權(quán)值的學(xué)習(xí)效率);第二步需要對(duì)網(wǎng)絡(luò)各層輸出矢量及網(wǎng)絡(luò)誤差進(jìn)行計(jì)算;第三步需要對(duì)各層反向傳播的誤差變化、各層權(quán)層的修正值及新的權(quán)值進(jìn)行計(jì)算,最后需要對(duì)權(quán)值修正后的誤差平方和進(jìn)行計(jì)算,若符合要求則訓(xùn)練完成,若不符合要求則繼續(xù)。

2.2電力變壓器故障診斷的BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)

2.2.1樣本數(shù)據(jù)的定義

電力變壓器的故障主要體現(xiàn)為中低溫過熱、高溫過熱、低能放電和高能放電。電力變壓器的故障數(shù)據(jù)一共為70組,其中樣本集數(shù)據(jù)為50組,測試集數(shù)據(jù)為20組,且分別定義樣本數(shù)據(jù)如下:

無故障,記為10000;

中低溫過熱,記為01000;

高溫過熱,記為00100;

低能放電,記為00010;

高能放電,記為00001。

2.2.2樣本數(shù)據(jù)的預(yù)處理

為提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,本論文對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,使其落入[-1,1]區(qū)間;并且對(duì)輸入樣本集數(shù)據(jù)進(jìn)行了主元分析,以減小各樣本矢量的相關(guān)性,從而達(dá)到降維的目的。

2.2.3 BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)參數(shù)設(shè)置

MATLAB中,BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)需要定義有關(guān)參數(shù):訓(xùn)練步數(shù)、顯示訓(xùn)練結(jié)果的間隔步數(shù)、訓(xùn)練目標(biāo)誤差、訓(xùn)練允許時(shí)間和訓(xùn)練中最小允許梯度值等,最終可返回訓(xùn)練后的權(quán)值、循環(huán)訓(xùn)練的總數(shù)和最終誤差。神經(jīng)網(wǎng)絡(luò)對(duì)象的一些主要訓(xùn)練參數(shù)及含義如表1所示。

2.2.4 BP神經(jīng)網(wǎng)絡(luò)驗(yàn)證

表2列出了20組測試集數(shù)據(jù),最后一列為網(wǎng)絡(luò)期望輸出,對(duì)應(yīng)變壓器的實(shí)際故障類型。

由電力變壓器故障診斷的誤差變化曲線可知:在使用BP神經(jīng)網(wǎng)絡(luò)法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),網(wǎng)絡(luò)只訓(xùn)練了112步,速度非常的快。網(wǎng)絡(luò)的訓(xùn)練均方誤差此時(shí)已經(jīng)達(dá)到目標(biāo)誤差0.01的數(shù)量級(jí),因此該網(wǎng)絡(luò)可用。對(duì)樣本集數(shù)據(jù)進(jìn)行訓(xùn)練后,我們可得到一個(gè)相關(guān)的BP神經(jīng)網(wǎng)絡(luò)模型,再用測試集數(shù)據(jù)對(duì)改模型進(jìn)行驗(yàn)證,驗(yàn)證結(jié)果如表3所示。(注:圖中*號(hào)表示該BP神經(jīng)網(wǎng)絡(luò)模型診斷錯(cuò)誤的數(shù)據(jù)組)

由以上BP神經(jīng)網(wǎng)絡(luò)自動(dòng)診斷結(jié)果可以得知:電力變壓器故障診斷正確的個(gè)數(shù)為18個(gè),故診斷正確率為90%左右。

3 結(jié)論

本文應(yīng)用人工神經(jīng)網(wǎng)絡(luò)的方法對(duì)電力變壓器的故障進(jìn)行了自動(dòng)診斷,診斷正確率可達(dá)90%。隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的發(fā)展,利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行變壓器的故障診斷有利于有效地實(shí)現(xiàn)對(duì)故障的綜合診斷,從而提高故障診斷的準(zhǔn)確性,可靠性和診斷效率,為變壓器故障診斷技術(shù)的發(fā)展拓展新的途徑。

參考文獻(xiàn):

[1] 張錚,徐超,任淑霞,等.數(shù)字圖像處理與機(jī)器視覺――Visual C++與Matlab實(shí)現(xiàn)[M].北京:人民郵電出版社,2014.

[2] 馬銳.人工神經(jīng)網(wǎng)絡(luò)原理[M].北京:機(jī)械工業(yè)出版社,2010.

[3] 郭磊,董秀成.BP神經(jīng)網(wǎng)絡(luò)在變壓器故障診斷中的應(yīng)用[J] .西華大學(xué)學(xué)報(bào),2008(5):10-13.

[4] 殷躍.基于BP神經(jīng)網(wǎng)絡(luò)的電力變壓器故障診斷的研究[D].吉林:吉林大學(xué)通信工程學(xué)院,2007.

[5] 王連成.基于神經(jīng)網(wǎng)絡(luò)的DGA法在變壓器故障診斷中的應(yīng)用研究[D].黑龍江:哈爾濱工業(yè)大學(xué)電氣工程及自動(dòng)化學(xué)院,2009.

[6] 李霖.基于BP神經(jīng)網(wǎng)絡(luò)的變壓器故障診斷方法研究[D].湖南:長沙理工大學(xué)電氣與信息工程學(xué)院,2013.

[7] 曾成碧,蒲維,曾先鋒.BP神經(jīng)網(wǎng)絡(luò)在油浸式變壓器過熱性故障診斷中的應(yīng)用[J]. 四川電力技術(shù),2012(4):60-63.

[8] 陳小玉.改進(jìn)的神經(jīng)網(wǎng)絡(luò)在變壓器故障診斷中的應(yīng)用[J].計(jì)算機(jī)仿真,2012(8):318-321.

[9] 宋彩利, 吳宏岐.神經(jīng)網(wǎng)絡(luò)在變壓器故障診斷中的應(yīng)用研究[J].微計(jì)算機(jī)信息,2008(34):155-157.

第4篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

【關(guān)鍵詞】人工智能;深度學(xué)習(xí);大數(shù)據(jù)時(shí)代;機(jī)器學(xué)習(xí)

1.引言

近年來,深度學(xué)習(xí)逐步推動(dòng)了人工智能領(lǐng)域的新浪潮。2010年,美國國防部DARPA計(jì)劃首次資助深度學(xué)習(xí)項(xiàng)目;2011年來,微軟和Google研究人員先后采用深度學(xué)習(xí)技術(shù)降低語音識(shí)別錯(cuò)誤率20%~30%,取得該領(lǐng)域重大突破;2013年百度創(chuàng)始人兼CEO李彥宏高調(diào)宣布成立百度研究院,其第一個(gè)重點(diǎn)方向就是深度學(xué)習(xí);2013年4月,《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)之首。在今天,Google、百度、微軟等知名高科技公司爭相投入資源,占領(lǐng)深度學(xué)習(xí)的技術(shù)制高點(diǎn)。

2.大數(shù)據(jù)時(shí)代的深度學(xué)習(xí)

大數(shù)據(jù)時(shí)代迫切需要深度學(xué)習(xí)。為了說明這個(gè)觀點(diǎn),本文來談一下淺層學(xué)習(xí)和深度學(xué)習(xí)模型。

淺層模型有個(gè)重要特點(diǎn)——靠人工經(jīng)驗(yàn)來抽取樣本特征,而強(qiáng)調(diào)模型主要是負(fù)責(zé)分類或預(yù)測。所以,特征提取就成了整個(gè)系統(tǒng)性能的瓶頸,通常開發(fā)團(tuán)隊(duì)中更多的人力是投入到構(gòu)造更好的特征上去的,這就要求開發(fā)人員對(duì)待解決的問題有很深入的理解。而達(dá)到這個(gè)程度,往往需要反復(fù)摸索。因此,人工手動(dòng)構(gòu)造樣本特征,不是一個(gè)具有生命力的途徑。

深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同之處在于:一是強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點(diǎn);二是明確突出了特征學(xué)習(xí)的重要性,即通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,使分類或預(yù)測更加容易。

3.深度學(xué)習(xí)的基本思想和常用方法

(1)Deep Learning的基本思想

假設(shè)我們有一個(gè)系統(tǒng)S,它有n層(S1,…Sn),它的輸入是I,輸出是O,形象地表示為:I=>S1=>S2=>…..=>Sn=>O,如果輸出O等于輸入I,即輸入I經(jīng)過這個(gè)系統(tǒng)變化之后沒有任何的信息損失,保持了不變性,這意味著輸入I經(jīng)過每一層Si都沒有任何的信息損失,即在任何一層Si,它都是原有信息(即輸入I)的另外一種表示?,F(xiàn)在回到我們的主題Deep Learning,我們需要自動(dòng)地學(xué)習(xí)特征,假設(shè)我們有一堆輸入I(如一堆圖像或者文本),假設(shè)我們?cè)O(shè)計(jì)了一個(gè)系統(tǒng)S(有n層),通過調(diào)整系統(tǒng)中的參數(shù),使得它的輸出仍然是輸入I,那么我們就可以自動(dòng)地獲取得到輸入I的一系列層次特征,即S1,…,Sn。

另外,前面是假設(shè)輸出嚴(yán)格地等于輸入,這個(gè)限制太嚴(yán)格,我們可以略微地放松這個(gè)限制,例如我們只要使得輸入與輸出的差別盡可能地小即可,這個(gè)放松會(huì)導(dǎo)致另外一類不同的Deep Learning方法。

(2)Deep Learning的常用方法

AutoEncoder(自編碼),自編碼算法是一種基于神經(jīng)網(wǎng)絡(luò)算法的無監(jiān)督學(xué)習(xí)算法,它使用了神經(jīng)網(wǎng)絡(luò)中經(jīng)典的反向傳播算法,其特殊之處在于其目標(biāo)在于讓神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)的輸出值等于網(wǎng)絡(luò)的輸入值,如在下面具有一個(gè)隱藏層(一般自編碼算法中會(huì)有多個(gè)隱藏層)的神經(jīng)網(wǎng)絡(luò)中,我們應(yīng)使得目標(biāo)輸出,自然地,其輸出節(jié)點(diǎn)數(shù)目與輸入節(jié)點(diǎn)的數(shù)目應(yīng)該相等。同時(shí),自編碼算法的另外一個(gè)特征是隱藏層的節(jié)點(diǎn)數(shù)目一般少于輸入輸出節(jié)點(diǎn)的數(shù)目。這樣的意義在于,此時(shí)相當(dāng)于將輸入的特征通過神經(jīng)網(wǎng)絡(luò)的非線性變換到節(jié)點(diǎn)數(shù)更少的隱藏層,再由隱藏層通過非線性變換“無損”地恢復(fù)出輸入的信息,這樣實(shí)際上相當(dāng)于用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)于高維特征向量的一個(gè)特征提取和降維。如果輸入數(shù)據(jù)中隱含著一些特定的結(jié)構(gòu),比如某些輸入特征是彼此相關(guān)的,那么這一算法就可以發(fā)現(xiàn)輸入數(shù)據(jù)中的這些相關(guān)性。由此,用這種特殊的神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,我們即可“自動(dòng)地”得到輸入數(shù)據(jù)的降維后的特征,即隱藏層的節(jié)點(diǎn),省去了人工特征提取的麻煩。

(3)自編碼算法的實(shí)現(xiàn)過程

將已得到的某一樣本的特征向量(或)作為自編碼算法的輸入,即上面特征向量的每一個(gè)分量代表自編碼網(wǎng)絡(luò)中的一個(gè)輸入節(jié)點(diǎn)。令其輸出節(jié)點(diǎn)的期望類別向量賦值為(或)。

1)對(duì)于自編碼網(wǎng)絡(luò)中某一層,,令矩陣該層權(quán)重矩陣的修正矩陣為零矩陣,偏置向量的修正向量為零向量。

2)設(shè)有個(gè)訓(xùn)練樣本,對(duì)于每一個(gè)訓(xùn)練樣本到。

①調(diào)用反向傳播算法函數(shù)backwards_trans()

計(jì)算訓(xùn)練自編碼網(wǎng)絡(luò)的準(zhǔn)則函數(shù)的梯度和。

②計(jì)算。

③計(jì)算

3)更新權(quán)重系數(shù):

4)反復(fù)迭代上面過程直到達(dá)到要求。訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)最靠近輸出層的隱藏層的輸出值即為深度學(xué)習(xí)后自動(dòng)得到的新特征。

通過上面的學(xué)習(xí)訓(xùn)練,我們便可以得到一個(gè)具有深度學(xué)習(xí)功能的自編碼網(wǎng)絡(luò)。當(dāng)我們需要自動(dòng)提取數(shù)據(jù)包用戶數(shù)據(jù)的特征時(shí),僅需要去掉上面的自編碼網(wǎng)絡(luò)的原來的輸出層,將原來最靠近輸出層的隱藏層作為新的輸出層,再將初始的特征向量輸入,此時(shí)的網(wǎng)絡(luò)輸出即為自動(dòng)提取的特征。

4.總結(jié)

近年,深度學(xué)習(xí)被逐漸應(yīng)用到語音識(shí)別、圖像識(shí)別、自然語言處理等領(lǐng)域,總之,深度學(xué)習(xí)帶來了機(jī)器學(xué)習(xí)的一個(gè)新浪潮,受到從學(xué)術(shù)界到工業(yè)界的廣泛重視,并帶來大數(shù)據(jù)的深度學(xué)習(xí)時(shí)代。深度學(xué)習(xí)在應(yīng)用方面的深度和廣度都將會(huì)得到更高程度的發(fā)展。同時(shí),如果機(jī)器學(xué)習(xí)理論界取得突破,為深度學(xué)習(xí)提供強(qiáng)力的支撐,使之成為今后無論何種機(jī)器學(xué)習(xí)應(yīng)用都不得不采用的基石,那么,人工智能的夢(mèng)想將不再遙遠(yuǎn)。

參考文獻(xiàn):

[1]周志華,李航,朱軍.Deep Learning大家談[J].

[2]盧鶇翔.DNN與微軟同聲傳譯系統(tǒng)背后的故事[J].

第5篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

本文利用人工神經(jīng)網(wǎng)絡(luò)的鋼材表面缺陷快速識(shí)別系統(tǒng)以及BP神經(jīng)網(wǎng)絡(luò)的缺陷檢測和分類的方法,實(shí)現(xiàn)鋼材表面疵病的準(zhǔn)確檢測與分類。選用Matlab作為系統(tǒng)軟件工具,以BP神經(jīng)網(wǎng)絡(luò)作為其缺陷檢測的計(jì)算方法,實(shí)現(xiàn)冷軋帶鋼表面缺陷檢測技術(shù)的軟件方案設(shè)計(jì),完成BP神經(jīng)網(wǎng)絡(luò)在鋼材表面缺陷檢測的應(yīng)用研究,滿足帶鋼生產(chǎn)線的表面缺陷檢測要求。

關(guān)鍵詞:缺陷檢測;人工神經(jīng)網(wǎng)絡(luò);BP神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào):TN711 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):

冷軋帶鋼已成為汽車生產(chǎn)、機(jī)械制造、化工、航空航天、造船等工業(yè)不可缺少的原材料,在國民經(jīng)濟(jì)中占據(jù)重要地位。而鋼材表面缺陷是影響帶鋼質(zhì)量的重要因素,因此,表面缺陷的識(shí)別檢測對(duì)提高帶鋼的質(zhì)量具有十分重要的意義。

本文根據(jù)鋼材表面的缺陷情況,研究需要系統(tǒng)識(shí)別的常見鋼材表面缺陷類型,結(jié)合表面缺陷檢測系統(tǒng)的主要技術(shù)要求,提出基于人工神經(jīng)網(wǎng)絡(luò)的鋼材表面缺陷識(shí)別系統(tǒng)的總體方案。利用計(jì)算機(jī)和圖像采集設(shè)備,使軟件和硬件協(xié)同配合,實(shí)現(xiàn)圖像信息的實(shí)時(shí)采集及處理,為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)建立鋼材表面缺陷數(shù)據(jù)庫,通過訓(xùn)練可以實(shí)時(shí)自動(dòng)識(shí)別鋼材表面存在的缺陷。

1BP神經(jīng)網(wǎng)絡(luò)的基本原理

BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,全稱基于誤差反向傳播算法的人工神經(jīng)網(wǎng)絡(luò)。它是目前研究最多、應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一【1】。BP網(wǎng)絡(luò)是一種多層前向反饋神經(jīng)網(wǎng)絡(luò),把樣本的輸入輸出變成一個(gè)非線性優(yōu)化問題,使用了最優(yōu)化中最普遍的梯度下降算法,用迭代運(yùn)算求解權(quán)值,它可以實(shí)現(xiàn)從輸入到輸出的任意連續(xù)的非線性映射。BP網(wǎng)絡(luò)主要用于函數(shù)逼近、模式識(shí)別、數(shù)據(jù)壓縮等。BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層三部分組成,其結(jié)構(gòu)如圖1所示。

圖1BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

Fig. 1 The BP neural network structure diagram

BP神經(jīng)網(wǎng)絡(luò)在具體工作之前必須通過學(xué)習(xí)獲得一定的“智能”,才可以在實(shí)際的應(yīng)用中取得良好的效果。其學(xué)習(xí)由四個(gè)過程組成:

第一是輸入向量由輸入層經(jīng)隱含層向輸出層的“正向傳播”過程;

第二是網(wǎng)絡(luò)實(shí)際輸出與網(wǎng)絡(luò)的希望輸出之間的誤差信號(hào)由輸出層經(jīng)隱含層向輸入層逐層修正連接權(quán)值的“誤差反向傳播”過程;

第三是由“正向傳播”與“誤差反向傳播”的反復(fù)交替進(jìn)行的網(wǎng)絡(luò)“記憶訓(xùn)練”過程;

第四是網(wǎng)絡(luò)的全局誤差趨向極小值的“學(xué)習(xí)收斂”過程。

2BP算法在鋼材表面缺陷識(shí)別的具體實(shí)現(xiàn)

為了使用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)鋼材表面缺陷檢測方法研究,首先需要對(duì)鋼材圖像進(jìn)行預(yù)處理,去除圖像噪聲,并進(jìn)行圖像增強(qiáng)處理,保留圖像重要信息;然后,從樣本圖像中選擇部分有缺陷的圖像,進(jìn)行樣本圖像分割,分割成適合網(wǎng)絡(luò)訓(xùn)練的特征圖像,并將分割結(jié)果分類為正常圖像和缺陷圖像樣本集合;再使用各種圖像特征提取方法分別提取出正常圖像和缺陷圖像的特征值,構(gòu)成BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練集合;再將訓(xùn)練集合輸入BP網(wǎng)絡(luò)訓(xùn)練器中,按照設(shè)定參數(shù),設(shè)置選定精度,進(jìn)行網(wǎng)絡(luò)權(quán)值訓(xùn)練,得到所需的分類器;最后將測試樣本輸入分類器中,實(shí)現(xiàn)最終的缺陷分類識(shí)別。

系統(tǒng)選用Matlab作為系統(tǒng)軟件工具。Matlab中專門編制了大量有關(guān)BP網(wǎng)絡(luò)的工具函數(shù),為BP網(wǎng)絡(luò)的應(yīng)用研究提供了強(qiáng)有力的便利工具【2】。BP網(wǎng)絡(luò)的設(shè)計(jì)過程如下:

(1)輸入訓(xùn)練樣本

缺陷的出現(xiàn)會(huì)破壞其所在區(qū)域灰度值的排布規(guī)律,基于此先從帶缺陷圖像的缺陷區(qū)域截取圖像,再從無缺陷的圖像中截取相同大小的圖像,然后從這些圖像中提取特征向量【3】。對(duì)特征向量X進(jìn)行歸一化,再進(jìn)行主分量分析進(jìn)行降維處理,最后把處理后的特征向量的每一列作為一個(gè)樣本輸入神經(jīng)網(wǎng)絡(luò)。

(2)初始化網(wǎng)絡(luò)

采用initff函數(shù)初始化網(wǎng)絡(luò)。在建立網(wǎng)絡(luò)對(duì)象的同時(shí),自動(dòng)調(diào)用初始化函數(shù),根據(jù)缺省的參數(shù)對(duì)網(wǎng)絡(luò)的連接權(quán)值和閾值進(jìn)行初始化。initff函數(shù)格式:

[w1,b1,w2,b2]=initff(p,s1,f1,s2,f2)(1)

式中:w1表示隱含層神經(jīng)元與輸入層神經(jīng)元之間的連接權(quán)重系數(shù)矩陣;

w2表示輸出層神經(jīng)元與隱含層神經(jīng)元之間的連接權(quán)重系數(shù)矩陣;

b1、b2表示隱含層和輸出層神經(jīng)元的閾值矩陣;

p表示輸入樣本矩陣;

s1、s2表示隱含層和輸出層神經(jīng)元個(gè)數(shù);

f1、f2表示隱含層和輸出層激活函數(shù)形式。

運(yùn)行initff函數(shù),系統(tǒng)能自動(dòng)根據(jù)給定的p,s1,f1,s2,f2的值對(duì)w1,b1,w2,b2賦予一個(gè)初始值。

(3)訓(xùn)練網(wǎng)絡(luò)

采用trainbp函數(shù)訓(xùn)練網(wǎng)絡(luò)。用基本梯度下降法訓(xùn)練網(wǎng)絡(luò)函數(shù)進(jìn)行BP網(wǎng)絡(luò)訓(xùn)練,獲取最終的權(quán)值與閾值矩陣。trainbp函數(shù)格式:

[w1,b1,w2,b2,te,tr]=trainbp(w1,b1,f1,w2,b2,f2,p,t,tp)(2)

式中:t表示輸出樣本矩陣;

te為網(wǎng)絡(luò)的實(shí)際訓(xùn)練步數(shù);

tr為訓(xùn)練過程中的誤差平方和;

tp為網(wǎng)絡(luò)訓(xùn)練參數(shù)。

選擇訓(xùn)練參數(shù)tp進(jìn)行訓(xùn)練,tp=[df,me,err,lr]

式中:df是指定兩次更新顯示間的訓(xùn)練次數(shù);

me是指定訓(xùn)練的最大次數(shù);

err是誤差平方和指標(biāo);

lr是指定學(xué)習(xí)速率,即權(quán)值和閾值更新的比例。

trainbp函數(shù)以w1,w2,b1,b2的初始值和給定的f1,f2,p,t,tp開始訓(xùn)練,使當(dāng)輸入n時(shí),網(wǎng)絡(luò)的輸出為目標(biāo)矢量t。當(dāng)訓(xùn)練過程中誤差平方和小于等于目標(biāo)誤差平方和或者訓(xùn)練步數(shù)到達(dá)給定的最大步數(shù)時(shí),停止訓(xùn)練。此時(shí)的w1,w2,b1,b2的值就是已訓(xùn)練好的網(wǎng)絡(luò)參數(shù)。

(4)網(wǎng)絡(luò)仿真

采用simuff函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行仿真。在網(wǎng)絡(luò)訓(xùn)練前后分別進(jìn)行輸入輸出的仿真,以做比較,從而對(duì)網(wǎng)絡(luò)進(jìn)行修改評(píng)價(jià)。simuff函數(shù)格式:

a=simuff(p,w1,b1,f1,w2,b2,f2) (3)

式中:a表示訓(xùn)練好的BP網(wǎng)絡(luò)的實(shí)際輸出;

w1、w2、b1、b2 是訓(xùn)練好的網(wǎng)絡(luò)參數(shù);

p、f1、f2 與(1)式相同。

網(wǎng)絡(luò)訓(xùn)練后,形成穩(wěn)定的權(quán)值和閾值,使網(wǎng)絡(luò)輸入和網(wǎng)絡(luò)輸出形成了較好的映射,從而可以對(duì)其他輸入樣本進(jìn)行輸出參數(shù)的預(yù)測。

3實(shí)際應(yīng)用情況

從現(xiàn)場采集冷軋帶鋼樣本,并對(duì)這些樣本中的缺陷進(jìn)行標(biāo)定。將測試樣本圖像輸入神經(jīng)網(wǎng)絡(luò)檢測缺陷區(qū)域,得到每類樣本的缺陷區(qū)域。將所有原始訓(xùn)練樣本、測試樣本圖像,按照前面的預(yù)處理方法進(jìn)行預(yù)處理,然后按照同樣的分割方式進(jìn)行分割,提取出樣本塊的特征信息,構(gòu)成一序列的向量,輸入已經(jīng)訓(xùn)練完成的分類器,進(jìn)行缺陷識(shí)別,檢測出樣本的缺陷區(qū)域。

經(jīng)工業(yè)現(xiàn)場實(shí)踐表明,經(jīng)過訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)分類器對(duì)表面缺陷的識(shí)別分類較好,基本上能夠滿足帶鋼表面缺陷的分類識(shí)別要求。但是,神經(jīng)網(wǎng)絡(luò)技術(shù)也存在訓(xùn)練過程緩慢、需要大量的訓(xùn)練數(shù)據(jù)、對(duì)其決策過程無法得到透徹理解、參數(shù)的設(shè)計(jì)無規(guī)律可循等缺點(diǎn)。

事實(shí)上,基于BP網(wǎng)絡(luò)的分類器只能識(shí)別BP網(wǎng)絡(luò)已知的模式類別。如果出現(xiàn)了新的模式類別,分類器就不能正確地識(shí)別,只能再次對(duì)分類器進(jìn)行訓(xùn)練,也就是說分類器沒有自學(xué)功能。因此,在優(yōu)化BP神經(jīng)網(wǎng)絡(luò)參數(shù)的基礎(chǔ)上,我們可以考慮將現(xiàn)在已經(jīng)構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型的分類器,分解成兩步來實(shí)現(xiàn)表面缺陷的分類,即首先構(gòu)建神經(jīng)網(wǎng)絡(luò)來對(duì)把缺陷和非缺陷識(shí)別分類開來,然后再對(duì)缺陷進(jìn)行分類,以期提高分類識(shí)別的準(zhǔn)確率。我們還需要研究基于其它神經(jīng)網(wǎng)絡(luò)模型的分類器,利用各自的長處,實(shí)現(xiàn)分類器的融合,并使分類器具有自學(xué)的功能,對(duì)新出現(xiàn)的缺陷能夠記憶識(shí)別的功能,更好的滿足工業(yè)現(xiàn)場的要求。

參考文獻(xiàn)

[1]王婷,江文輝,肖南峰.基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別.電子設(shè)計(jì)工程.2011,19(3):108-112.

第6篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

高新技術(shù)制造企業(yè)作為高新技術(shù)制造業(yè)的實(shí)體是知識(shí)密集型、技術(shù)密集型和資金密集型的企業(yè),其發(fā)展決定了現(xiàn)實(shí)生產(chǎn)力的轉(zhuǎn)化,對(duì)于促進(jìn)整體制造業(yè)的快速發(fā)展具有重要意義。高新技術(shù)企業(yè)的高收益特性源于其高科技產(chǎn)品和服務(wù)的高增長和高附加值,而與之對(duì)應(yīng)的便是企業(yè)的高風(fēng)險(xiǎn)性,據(jù)統(tǒng)計(jì)20%~30%的高新技術(shù)制造業(yè)的巨大成功是以70%~80%的企業(yè)失敗為代價(jià)。企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的擴(kuò)散和深化將直接導(dǎo)致企業(yè)陷入財(cái)務(wù)困境,從而影響正常的生產(chǎn)經(jīng)營活動(dòng)。所以,建立和完善高新技術(shù)制造企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警機(jī)制,提高企業(yè)有效預(yù)測和應(yīng)對(duì)風(fēng)險(xiǎn)的能力,對(duì)于高新技術(shù)制造業(yè)的經(jīng)營者和投資者具有一定的借鑒意義。 

財(cái)務(wù)危機(jī)預(yù)警的研究由傳統(tǒng)的統(tǒng)計(jì)研究方法發(fā)展到人工智能算法。最早是由Fitzpatrick(1932)采用單變量分析方法對(duì)公司的財(cái)務(wù)危機(jī)進(jìn)行預(yù)警研究,得出權(quán)益負(fù)債率和權(quán)益凈利率是判定企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的重要指標(biāo)。Altman(1968)利用多元判別分析法建立基于Z-SCORE的財(cái)務(wù)預(yù)警模型。其后,回歸模型克服了線性模型的假設(shè)局限性,常用的有Probit模型和Logistic模型。Ohlson(1980)使用Probit和Logistic回歸方法建立邏輯回歸模型,得出公司規(guī)模、資本結(jié)構(gòu)、業(yè)績和變現(xiàn)能力是影響公司破產(chǎn)的重要因素。上述以統(tǒng)計(jì)類方法為基礎(chǔ)的模型是在樣本滿足合理的統(tǒng)計(jì)假設(shè)條件下才能有效,否則可能沒有意義,由此許多學(xué)者相繼將非統(tǒng)計(jì)的方法引入財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究,其中應(yīng)用最多的是神經(jīng)網(wǎng)絡(luò)分析法。Lapedes和Fyaber(1987)首次運(yùn)用神經(jīng)網(wǎng)絡(luò)模型對(duì)銀行的信用風(fēng)險(xiǎn)進(jìn)行預(yù)測和分析,并取得了較好的預(yù)測效果。Odom和Sharda(1990)通過Z值模型中的5個(gè)財(cái)務(wù)比率構(gòu)建了人工神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)預(yù)警模型成功地對(duì)企業(yè)的財(cái)務(wù)危機(jī)進(jìn)行了預(yù)測,證明了人工神經(jīng)網(wǎng)絡(luò)模型不但準(zhǔn)確率高,而且魯棒性也更好。Feng Yu Lin和Sally McClean(2001)以Logistic回歸法、判別分析法、決策樹方法和神經(jīng)網(wǎng)絡(luò)方法為基礎(chǔ),通過這些方法的組合運(yùn)用,采用了三種混合模型,再分別對(duì)這些方法進(jìn)行檢驗(yàn)分析,分析結(jié)果表明同等條件下,混合模型在準(zhǔn)確率方面優(yōu)于單個(gè)方法模式。國內(nèi)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究起步較晚,陳靜(1999)對(duì)上市公司財(cái)務(wù)數(shù)據(jù)進(jìn)行了單變量分析并建立Fisher線性判別分析模型,得出越臨近企業(yè)被ST的日期,模型的預(yù)測準(zhǔn)確率越高。吳世農(nóng)、盧賢義(2001)驗(yàn)證了Logistic回歸分析方法在預(yù)測財(cái)務(wù)困境的效果上比單變量判別模型更好。柳炳祥、盛昭翰(2002)劃分了財(cái)務(wù)危機(jī)等級(jí)并驗(yàn)證了基于粗神經(jīng)網(wǎng)絡(luò)的財(cái)務(wù)預(yù)警方法的有效性。周敏,王新宇(2002)提出了模糊優(yōu)選和神經(jīng)網(wǎng)絡(luò)模型,范靜(2008)選擇因子分析法—BP神經(jīng)網(wǎng)絡(luò)等評(píng)價(jià)方法。陳偉等(2010)主要分析了不同成長階段高新技術(shù)企業(yè)的融資特點(diǎn),提出了有效防范財(cái)務(wù)風(fēng)險(xiǎn)的具體措施。楊淑娥引入面板數(shù)據(jù),構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型對(duì)上市公司的財(cái)務(wù)狀況進(jìn)行預(yù)測,提高了預(yù)警精度。張曉琦(2010)證明了支持向量機(jī)(SVM)方法在高新技術(shù)企業(yè)財(cái)務(wù)危機(jī)預(yù)警建模方面的有效性。綜上所述,現(xiàn)階段對(duì)于高新技術(shù)企業(yè)的財(cái)務(wù)危機(jī)預(yù)警研究集中與理論分析階段,大多數(shù)都是基于t-1期與t期的數(shù)據(jù)建立靜態(tài)數(shù)據(jù)模型,忽略了企業(yè)財(cái)務(wù)比率的時(shí)間序列特點(diǎn),企業(yè)財(cái)務(wù)危機(jī)的出現(xiàn)是一個(gè)逐漸演變的過程且不同行業(yè)的高新技術(shù)企業(yè)特點(diǎn)也不盡相同,這些因素將對(duì)企業(yè)財(cái)務(wù)狀況的演化產(chǎn)生偏差,從而影響預(yù)警模型的有效性和精準(zhǔn)度。 

本研究綜合了主成分分析方法、Logistic回歸方法與BP神經(jīng)網(wǎng)絡(luò)機(jī)制,引入面板數(shù)據(jù)為研究樣本,建立動(dòng)態(tài)的高新技術(shù)制造企業(yè)財(cái)務(wù)危機(jī)預(yù)警模型。從理論分析而言,面板數(shù)據(jù)提供了多層面的數(shù)據(jù)信息,充分發(fā)掘企業(yè)財(cái)務(wù)信息,同時(shí)結(jié)合高新技術(shù)制造業(yè)的特點(diǎn),從不同的側(cè)面選取指標(biāo)來反映企業(yè)財(cái)務(wù)狀況的各個(gè)方面,所以能夠深入全面地反映財(cái)務(wù)危機(jī)前的狀況和趨勢(shì)并作出及時(shí)合理的判斷,采取相應(yīng)措施。從實(shí)踐結(jié)果而言,解決了一般企業(yè)由于數(shù)據(jù)缺乏帶來的技術(shù)問題,擴(kuò)大預(yù)警模型的適用性,為更多的高新技術(shù)制造企業(yè)服務(wù)。實(shí)證結(jié)果表明,基于Logistic-BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)警能力明顯優(yōu)于傳統(tǒng)Logistic回歸分析方法和BP神經(jīng)網(wǎng)絡(luò)預(yù)警機(jī)制。 

一、研究方法 

(一)Logistic回歸 

二、數(shù)據(jù)和預(yù)警指標(biāo) 

(一)樣本選取和數(shù)據(jù)來源 

本研究考慮到時(shí)間因素和指標(biāo)可比性兩方面,選擇高新技術(shù)制造企業(yè)作為研究對(duì)象,利用多期歷史財(cái)務(wù)數(shù)據(jù)建立財(cái)務(wù)危機(jī)動(dòng)態(tài)預(yù)警模型。本文以我國2008年至2012年深滬A股高新技術(shù)制造上市公司(通過2008《高新技術(shù)企業(yè)認(rèn)定管理辦法》的制造行業(yè)企業(yè))為研究對(duì)象,數(shù)據(jù)源于CCER經(jīng)濟(jì)金融研究數(shù)據(jù)庫以及巨潮資訊數(shù)據(jù)庫,使用Excel、SPSS16.0和Matlab2010數(shù)據(jù)分析軟件對(duì)數(shù)據(jù)進(jìn)行分析。沿用國內(nèi)研究習(xí)慣,以ST作為出現(xiàn)財(cái)務(wù)危機(jī)的標(biāo)志,選取2012年ST和非ST高新技術(shù)制造業(yè)上市公司為待測樣本。為了符合上市公司ST與非ST的實(shí)際比例,確保數(shù)據(jù)的真實(shí)性和可比性,參照Beaver(1966)的方法,采取1:3的配對(duì)方式,選擇規(guī)模(總資產(chǎn))相近的ST、非ST公司120家為訓(xùn)練樣本,所有50家ST和150家非ST公司為分析樣本。

由于上市公司在t年被特別處理是由其t-1年財(cái)務(wù)報(bào)告的公布所決定的。根據(jù)以往分析,t-1年財(cái)務(wù)數(shù)據(jù)的時(shí)效性較強(qiáng),預(yù)測度很高,但是,其與正常樣本相差很大,有失模型構(gòu)建的真實(shí)性和可比性,實(shí)際預(yù)測的應(yīng)用價(jià)值不高。財(cái)務(wù)風(fēng)險(xiǎn)的形成并非一朝一夕,而是一個(gè)連續(xù)的動(dòng)態(tài)過程,越早洞察出財(cái)務(wù)風(fēng)險(xiǎn),越有可能避免再次虧損。據(jù)此,選定t-2和t-3作為財(cái)務(wù)預(yù)警年度。 

(二)預(yù)警指標(biāo)的設(shè)計(jì) 

在參照現(xiàn)有財(cái)務(wù)風(fēng)險(xiǎn)研究文獻(xiàn)的基礎(chǔ)上,同時(shí)結(jié)合高新技術(shù)企業(yè)本身高投入、高風(fēng)險(xiǎn)、高收益的特點(diǎn)以及新型制造業(yè)的運(yùn)營特點(diǎn)進(jìn)行綜合評(píng)估,從公司的償債能力、盈利能力、成長能力、運(yùn)營能力指標(biāo)和現(xiàn)金流量五個(gè)方面初步選定18個(gè)變量作為備選指標(biāo),如表1所示。基于識(shí)別財(cái)務(wù)風(fēng)險(xiǎn)的及時(shí)性和準(zhǔn)確性,挑選的變量必須在ST公司與非ST公司之間顯著不同。通過對(duì)指標(biāo)進(jìn)行顯著水平5%的K-S檢驗(yàn)得出財(cái)務(wù)比率均不服從正態(tài)分布特征,因此采用Mann-Whitney-U檢驗(yàn)來預(yù)警指標(biāo)在ST公司與非ST公司之間是否存在顯著差異,在95%的置信區(qū)間內(nèi)接受原假設(shè),最終選取在2009年和2010年均存在顯著差異的14個(gè)變量作為最佳評(píng)估指標(biāo),剔除4個(gè)不顯著指標(biāo):營業(yè)利潤增長率、應(yīng)收賬款周轉(zhuǎn)率、流動(dòng)資產(chǎn)周轉(zhuǎn)率和存貨周轉(zhuǎn)率。 

三、基于Logistic-BP神經(jīng)網(wǎng)絡(luò)的實(shí)證研究 

(一)建立財(cái)務(wù)危機(jī)預(yù)警模型 

由于財(cái)務(wù)指標(biāo)之間相關(guān)性較強(qiáng),信息重疊不利于后續(xù)預(yù)警模型的構(gòu)建,首先分別對(duì)t-2和t-3年的14個(gè)財(cái)務(wù)指標(biāo)進(jìn)行因子分析,得到t-2和t-3年的KMO值分別為0.681和0.724,Bartlett球度檢驗(yàn)給出的相伴概率均為0,小于顯著性水平0.05,因此拒絕Bartlett球度檢驗(yàn)的零假設(shè),認(rèn)為適合于因子分析。 

本文在累計(jì)貢獻(xiàn)率85%以上的基礎(chǔ)上,采取正交旋轉(zhuǎn)法提取5個(gè)主成分F1—F5。第一主因子F1由流動(dòng)比率、速動(dòng)比率、股東權(quán)益比率、資產(chǎn)負(fù)債率組成;第二主因子F2由凈資產(chǎn)收益率、運(yùn)營資金比率、主營業(yè)務(wù)利潤率組成;第三主因子F3由凈資產(chǎn)增長率、總資產(chǎn)增長率、主營業(yè)務(wù)收入增長率組成;第四主因子F4由資產(chǎn)周轉(zhuǎn)率、固定資產(chǎn)周轉(zhuǎn)率組成;第五主因子F5由現(xiàn)金流動(dòng)負(fù)債比率和每股經(jīng)營性現(xiàn)金流組成。通過上述因子分析所提取的五個(gè)財(cái)務(wù)指標(biāo)包含了公司財(cái)務(wù)危機(jī)的主要信息,能夠比較全面地反映公司的財(cái)務(wù)狀況。 

在靜態(tài)BP神經(jīng)網(wǎng)絡(luò)模型中,同樣選擇訓(xùn)練樣本的五個(gè)因子變量作為網(wǎng)絡(luò)層的輸入,經(jīng)過反復(fù)試驗(yàn),構(gòu)建出5x24x1的基于因子分析的靜態(tài)BP神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)預(yù)警模型,模型收斂情況如圖2所示,通過對(duì)所有上市公司樣本進(jìn)行預(yù)測,得到如表4的預(yù)測結(jié)果。 

綜合Logistic模型的回歸分析結(jié)果pt-2和pt-3,將訓(xùn)練樣本的w1pt-2和w2pt-3作為網(wǎng)絡(luò)輸入變量,建立動(dòng)態(tài)BP神經(jīng)網(wǎng)絡(luò)財(cái)務(wù)危機(jī)預(yù)警模型,其中w1+w2=1,經(jīng)過反復(fù)試驗(yàn)取中間層8,將所有樣本作為驗(yàn)證樣本帶入模型,通過選取不同權(quán)重系數(shù)w1=0.4,w2=0.6時(shí),模型呈現(xiàn)較高的預(yù)警精度,模型收斂情況如圖3所示,預(yù)測結(jié)果如表4所示。 

(二)三種模型的預(yù)測結(jié)果比較分析 

由表4可知,在這三種模型中,t-2期的預(yù)測效果要明顯高于t-3期的,即離目標(biāo)預(yù)警期越近,預(yù)測準(zhǔn)確率越高。但是t-3期的預(yù)測結(jié)果仍與t期財(cái)務(wù)狀況存在緊密聯(lián)系,如果忽視t-3期數(shù)據(jù)將會(huì)降低t期的預(yù)測結(jié)果。對(duì)于單期財(cái)務(wù)數(shù)據(jù)的Logistic回歸模型和基于因子分析的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)警分析結(jié)果,均有較好的預(yù)測能力。其中BP神經(jīng)網(wǎng)絡(luò)模型綜合預(yù)測效果要優(yōu)于Logistic模型,但BP神經(jīng)網(wǎng)絡(luò)模型中ST的誤判率高于Logistic模型中ST的誤判率。而基于動(dòng)態(tài)BP神經(jīng)網(wǎng)絡(luò)模型無論是從ST公司和非ST方面均提高了預(yù)測的準(zhǔn)確率,其總體預(yù)測準(zhǔn)確率為94%,明顯優(yōu)于第一種和第二種模型。由此可見傳統(tǒng)的預(yù)測模型僅僅體現(xiàn)了某一時(shí)期對(duì)目標(biāo)時(shí)期的預(yù)測效果,難以實(shí)現(xiàn)不同時(shí)期的最優(yōu)預(yù)測,通過將二者相結(jié)合,綜合考慮t-2期和t-3期歷史數(shù)據(jù)來建立基于面板數(shù)據(jù)的動(dòng)態(tài)BP神經(jīng)網(wǎng)絡(luò)模型,且其預(yù)測結(jié)果優(yōu)于前兩種方法,第三種模型充分結(jié)合了BP神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)方法的優(yōu)點(diǎn)。 

四、結(jié)論 

本文采用高新技術(shù)制造業(yè)上市公司的多期歷史面板財(cái)務(wù)數(shù)據(jù),利用因子分析對(duì)指標(biāo)進(jìn)行降維,采用多期數(shù)據(jù)建立動(dòng)態(tài)Logistic-BP神經(jīng)網(wǎng)絡(luò)模型,提高了模型的縱向長期預(yù)測能力,實(shí)現(xiàn)多時(shí)段預(yù)警。通過實(shí)證研究得出以下結(jié)論:首先,高新技術(shù)制造企業(yè)財(cái)務(wù)危機(jī)的出現(xiàn)是循序漸進(jìn)的過程,距離被ST時(shí)間越近,模型的預(yù)測準(zhǔn)確率越高。其次,通過采用財(cái)務(wù)面板數(shù)據(jù),從數(shù)據(jù)的截面和空間隨時(shí)間變化兩個(gè)方面研究,深入體現(xiàn)了企業(yè)財(cái)務(wù)狀況發(fā)展機(jī)理的漸變特性,體現(xiàn)企業(yè)財(cái)務(wù)危機(jī)發(fā)生的連續(xù)動(dòng)態(tài)特點(diǎn),提高了樣本中關(guān)鍵財(cái)務(wù)指標(biāo)變化的特征信息,有利于建立更精確的模型,提高預(yù)警精度。最后,綜合模型結(jié)合了Logistic非線性分析方法和BP神經(jīng)網(wǎng)絡(luò)的容錯(cuò)性、自我學(xué)習(xí)性特點(diǎn),具有更強(qiáng)大的財(cái)務(wù)預(yù)警建模和預(yù)測能力,降低了ST公司的誤判率,在實(shí)際應(yīng)用中有助于經(jīng)營者預(yù)防和監(jiān)控財(cái)務(wù)危機(jī),促進(jìn)企業(yè)持續(xù)健康發(fā)展,也有利于投資者債權(quán)人規(guī)避財(cái)務(wù)風(fēng)險(xiǎn),減少經(jīng)濟(jì)損失。 

【參考文獻(xiàn)】 

第7篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

關(guān)鍵詞:城市產(chǎn)業(yè)結(jié)構(gòu);BP神經(jīng)網(wǎng)絡(luò)模型;灰色GM(1,1)等維新息模型;預(yù)測

Abstract: According to the present situation of urban industrial structure and its change tendency, BP NN model and GM(1, 1)constant dimension mew information model are established to forecast the evolutionary tendency of urban industrial structure for the accuracy of forecast. Then the industrial percentage is modified on the basis of the weight in the evolutionary process of urban industrial structure to ensure the amount of industrial percentage as constant 1, which offer exact information to recognize the evolutionary tendency of urban industrial structure correctly and the relationship among them.

Key words: urban industrial structure;BP NN model;GM(1, 1)constant dimension mew information model;forecast

中圖分類號(hào):TU-856 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-4144(2009)04-14(4)

作者簡介:王福林 武漢理工大學(xué)產(chǎn)業(yè)經(jīng)濟(jì)學(xué)在職博士教授級(jí)高工

吳丹 河海大學(xué)博士生

1前言

城市產(chǎn)業(yè)結(jié)構(gòu)是國民經(jīng)濟(jì)中產(chǎn)業(yè)構(gòu)成及所占比例的綜合概念,即在一定空間范圍內(nèi)的三大產(chǎn)業(yè)構(gòu)成及其各產(chǎn)業(yè)內(nèi)部構(gòu)成。正確認(rèn)識(shí)和研究在一定地域空間范圍內(nèi)的產(chǎn)業(yè)結(jié)構(gòu)演變規(guī)律、經(jīng)濟(jì)社會(huì)運(yùn)行機(jī)制,深刻理解地區(qū)經(jīng)濟(jì)發(fā)展的核心問題和資源的有效性、可用性,將有利于國民經(jīng)濟(jì)的協(xié)調(diào)發(fā)展。

目前,許多學(xué)者對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行了系統(tǒng)深入地預(yù)測研究。張無畏①根據(jù)我國云南省及云南省各地建國以來產(chǎn)業(yè)結(jié)構(gòu)的變動(dòng)情況,利用三次產(chǎn)業(yè)分類法對(duì)云南省產(chǎn)業(yè)結(jié)構(gòu)的發(fā)展和現(xiàn)狀進(jìn)行了分析,并對(duì)云南省未來25年產(chǎn)業(yè)結(jié)構(gòu)的發(fā)展作出預(yù)測。王惠文等②基于北京市三次產(chǎn)業(yè)結(jié)構(gòu)的動(dòng)態(tài)規(guī)律,對(duì)于一序列按照時(shí)間順序收集的成分?jǐn)?shù)據(jù),提出建立一種成分?jǐn)?shù)據(jù)的非線性降維方法和預(yù)測模型,用于分析成分?jǐn)?shù)據(jù)中各個(gè)份額隨時(shí)間的變化規(guī)律。周瑜等③針對(duì)江蘇省第三產(chǎn)業(yè)比重及其影響因素進(jìn)行分析,提出運(yùn)用灰色系統(tǒng)理論,建立灰色動(dòng)態(tài)預(yù)測數(shù)學(xué)模型,對(duì)江蘇省第三產(chǎn)業(yè)比重進(jìn)行預(yù)測。基于此,為提高城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測的精度,采用BP神經(jīng)網(wǎng)絡(luò)方法和灰色GM(1,1)等維新息模型對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行組合預(yù)測分析,以提高預(yù)測的精確性,并對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變過程中各產(chǎn)業(yè)比重進(jìn)行權(quán)重修正,為正確認(rèn)識(shí)城市產(chǎn)業(yè)演變趨勢(shì)和內(nèi)部關(guān)系提供準(zhǔn)確的信息。

2基于組合模型的城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測

城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)反映了城市各產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重隨著時(shí)間變化而發(fā)生的變化趨勢(shì),可結(jié)合其現(xiàn)狀及其變化趨勢(shì),對(duì)未來城市產(chǎn)業(yè)結(jié)構(gòu)的演變趨勢(shì)進(jìn)行預(yù)測分析,根據(jù)產(chǎn)業(yè)結(jié)構(gòu)布局的變化,為城市社會(huì)經(jīng)濟(jì)發(fā)展過程中水資源以及各種能源資源的優(yōu)化配置提供決策依據(jù)。為提高城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測精度,采用BP神經(jīng)網(wǎng)絡(luò)方法和灰色GM(1,1)等維新息模型對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行組合預(yù)測。

2.1 基于BP神經(jīng)網(wǎng)絡(luò)模型的城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測

人工神經(jīng)網(wǎng)絡(luò)是一種包含許多簡單的非線性計(jì)算單元或連接點(diǎn)的非線性動(dòng)力系統(tǒng),具有很強(qiáng)的自適應(yīng)、自學(xué)習(xí)及容錯(cuò)能力,是一種強(qiáng)大的非線性信息處理工具,在模式識(shí)別、智能控制、圖形處理、預(yù)測和非線性優(yōu)化等領(lǐng)域取得了成功的應(yīng)用。BP神經(jīng)網(wǎng)絡(luò)算法稱為誤差逆?zhèn)鞑ニ惴?從結(jié)構(gòu)上來講,它是一種分層型網(wǎng)絡(luò),具有輸入層、中間層(隱含層)和輸出層,如圖1。

基于BP神經(jīng)網(wǎng)絡(luò)強(qiáng)大的預(yù)測能力和預(yù)測精度,其在各個(gè)領(lǐng)域都得到廣泛的應(yīng)用。這里,以歷年各產(chǎn)業(yè)在國民經(jīng)濟(jì)中的比例為樣本,采用BP神經(jīng)網(wǎng)絡(luò),對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行預(yù)測,分析未來各產(chǎn)業(yè)在國民經(jīng)濟(jì)中所占比重。設(shè)觀測到的某一產(chǎn)業(yè)在國民經(jīng)濟(jì)中歷年的比重?cái)?shù)據(jù)序列為x(1),x(2),… x(n),根據(jù)其中的n個(gè)觀測值,預(yù)測n+1所對(duì)應(yīng)年份該產(chǎn)業(yè)在國民經(jīng)濟(jì)中的比重。其具體步驟可表述為:

(1)BP網(wǎng)絡(luò)學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò),見表1。

(2)訓(xùn)練完畢后檢驗(yàn)網(wǎng)絡(luò)預(yù)測精度,見表2。

利用BP神經(jīng)網(wǎng)絡(luò)預(yù)測所得數(shù)據(jù)與x(n-1),x(n)所對(duì)應(yīng)年份的實(shí)際數(shù)據(jù)進(jìn)行對(duì)比。精度符合要求,網(wǎng)絡(luò)預(yù)測能力滿足要求,即以此對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行預(yù)測;精度不符合要求,預(yù)測能力不能滿足要求,需要對(duì)網(wǎng)絡(luò)重新訓(xùn)練,返回1。

(3)預(yù)測n+1期所對(duì)應(yīng)年份該產(chǎn)業(yè)在國民經(jīng)濟(jì)中的比重,見表3。

采用BP神經(jīng)網(wǎng)絡(luò)模型,可預(yù)測n+1期的城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì),并在n+1期預(yù)測值的基礎(chǔ)上,進(jìn)一步預(yù)測n+2期所對(duì)應(yīng)年份城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì),其中,n+2期所對(duì)應(yīng)年份城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)是以n+1期城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測值為前提所進(jìn)行的預(yù)測研究。

2.2 基于灰色GM(1,1)等維新息模型的城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測

灰色系統(tǒng)預(yù)測理論對(duì)于信息不完整或不完全的實(shí)際情況具有良好的適用性,其中GM(1,1)模型具有充分利用“少數(shù)據(jù)”進(jìn)行預(yù)測的優(yōu)點(diǎn),因此,可將各產(chǎn)業(yè)在國民經(jīng)濟(jì)產(chǎn)業(yè)結(jié)構(gòu)中所占的比重隨時(shí)間變化的數(shù)列作為原始序列,采用GM(1,1)模型對(duì)各產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中的比重進(jìn)行預(yù)測,以分析城市產(chǎn)業(yè)結(jié)構(gòu)的演變趨勢(shì)。但GM(1,1)模型采用的是現(xiàn)實(shí)時(shí)刻t=n為止的過去的數(shù)據(jù),然而,任何一個(gè)灰系統(tǒng)的發(fā)展過程中,隨著時(shí)間的推移,將會(huì)不斷地有一些隨機(jī)擾動(dòng)或驅(qū)動(dòng)因素進(jìn)入系統(tǒng),使系統(tǒng)的發(fā)展相繼的受其影響。故隨著系統(tǒng)的發(fā)展,舊數(shù)據(jù)的信息意義將逐步降低,而新數(shù)據(jù)的信息意義將逐步提高。因此,GM(1,1)模型在預(yù)測城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)時(shí)本身存在一定的缺陷,針對(duì)其不足之處,為更好地反映系統(tǒng)將來的發(fā)展趨勢(shì),可采用GM(1,1)等維新息模型對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行預(yù)測分析,灰色GM(1,1)等維新息模型通過不斷補(bǔ)充新信息,使建模數(shù)列更能反映系統(tǒng)目前的特征,更好地揭示了系統(tǒng)的發(fā)展趨勢(shì),從而獲得較高的城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測精度。預(yù)測各產(chǎn)業(yè)在城市產(chǎn)業(yè)結(jié)構(gòu)中演變趨勢(shì)的灰色GM(1,1)等維新息模型的建模步驟可表述為:

記城市某產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重按照時(shí)間先后順序排列而成的原始數(shù)列為x(0)

根據(jù)灰色系統(tǒng)理論對(duì)城市某產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的原始數(shù)列進(jìn)行一階累加(1-AGO)生成后,得生成列x(1) ,即

z(1)為x(1)的緊鄰均值生成數(shù)列:

(1)灰微分方程的最小二乘估計(jì)參數(shù)滿足

(2)灰微分方程的白化方程 的時(shí)間響應(yīng)式為

,t=1,2,……,n

(3)還原值

,t=1,2,……,n

① 當(dāng)t≤n時(shí),稱 為城市某產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的現(xiàn)狀模擬值;② 當(dāng)t>n時(shí),稱 為城市某產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的預(yù)測值。

(4)將最新信息x(1)(n+1)加入到城市某產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的現(xiàn)狀原始數(shù)列,利用建立等維新息模型,確定城市某產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的預(yù)測值。

2.3城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)組合預(yù)測

2.3.1基于灰色神經(jīng)網(wǎng)絡(luò)模型的城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)組合預(yù)測

為了進(jìn)一步提高城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)預(yù)測的精度,結(jié)合BP神經(jīng)網(wǎng)絡(luò)和灰色GM(1,1)等維新息模型的預(yù)測結(jié)果,對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)的演變趨勢(shì)進(jìn)行組合預(yù)測,其公式為:

式中:xi(t)――t年i(i=1,2,……,I)產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的組合預(yù)測值;

xi(1)(t)―― t年i產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的神經(jīng)網(wǎng)絡(luò)模型預(yù)測值;

xi(2)(t)―― t年i產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的灰色GM(1,1)等維新息模型預(yù)測值;

――為權(quán)重系數(shù),通過預(yù)測值與實(shí)際值的差別,根據(jù)實(shí)際情況而定, 。

2.3.2 城市產(chǎn)業(yè)結(jié)構(gòu)權(quán)重修正

通過灰色神經(jīng)網(wǎng)絡(luò)模型的組合預(yù)測,可初步得出各產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重,但其比重之和卻不等于常數(shù)1,為保障城市產(chǎn)業(yè)結(jié)構(gòu)比重之和恒定為常數(shù)1,可根據(jù)式(7),對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變過程中各產(chǎn)業(yè)比重進(jìn)行權(quán)重修正,即式中: :t年i(i=1,2,……,I)產(chǎn)業(yè)在產(chǎn)業(yè)結(jié)構(gòu)中所占比重的修正組合預(yù)測值。

3算例分析

根據(jù)某城市社會(huì)經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)的布局變化,對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)的演變趨勢(shì)進(jìn)行預(yù)測分析。假定1990-2007年城市三產(chǎn)在國民經(jīng)濟(jì)產(chǎn)業(yè)結(jié)構(gòu)中所占比重?cái)?shù)據(jù),見表4。

根據(jù)表4中的數(shù)據(jù),采用灰色神經(jīng)網(wǎng)絡(luò)模型預(yù)測城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)。

(1)BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測

利用matlab工具箱④,構(gòu)建三層BP神經(jīng)網(wǎng)絡(luò),輸入層和隱層之間使用 sigmoid函數(shù),隱層和輸出層之間使用pureline函數(shù)。訓(xùn)練函數(shù)選擇trainlm,訓(xùn)練最大步長5000次,均方誤差為10-5精度。經(jīng)過訓(xùn)練對(duì)比,預(yù)測第一產(chǎn)業(yè)隱層設(shè)計(jì)成8個(gè)結(jié)點(diǎn),第二產(chǎn)業(yè)為15個(gè)節(jié)點(diǎn),第三產(chǎn)業(yè)為10個(gè)節(jié)點(diǎn)。并通過檢驗(yàn),最終使用成功網(wǎng)絡(luò)完成預(yù)測。城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)的檢驗(yàn)和預(yù)測結(jié)果,見表5。

(2)灰色G(1,1)等維新息模型預(yù)測

城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)的檢驗(yàn)和預(yù)測結(jié)果,見表6。

(3)灰色神經(jīng)網(wǎng)絡(luò)模型預(yù)測

為提高組合預(yù)測模型的擬合精度,調(diào)整BP神經(jīng)網(wǎng)絡(luò)模型和灰色G(1,1)等維新息模型的權(quán)重系數(shù),確定城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)組合預(yù)測的組合預(yù)測結(jié)果,見表7。

根據(jù)表7結(jié)果可知,采用灰色神經(jīng)網(wǎng)絡(luò)模型對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行組合預(yù)測,繼承了BP神經(jīng)網(wǎng)絡(luò)模型和灰色G(1,1)等維新息模型預(yù)測精準(zhǔn)的優(yōu)勢(shì),并在此基礎(chǔ)上增強(qiáng)了預(yù)測精度。利用式(8),對(duì)2008年―2009年的預(yù)

測結(jié)果進(jìn)行修正,最終得到2008年―2009年三產(chǎn)產(chǎn)業(yè)比重的組合預(yù)測結(jié)果。

4結(jié)論

基于城市產(chǎn)業(yè)結(jié)構(gòu)發(fā)展現(xiàn)狀及其變化趨勢(shì),在建立BP神經(jīng)網(wǎng)絡(luò)模型和灰色GM(1,1)等維新息模型的基礎(chǔ)上,結(jié)合算例分析,對(duì)城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)進(jìn)行組合預(yù)測,根據(jù)組合預(yù)測結(jié)果可知,灰色神經(jīng)網(wǎng)絡(luò)模型在預(yù)測城市產(chǎn)業(yè)結(jié)構(gòu)演變趨勢(shì)過程中,具有較高的精確度。

①張無畏.云南省產(chǎn)業(yè)結(jié)構(gòu)現(xiàn)狀分析及發(fā)展趨勢(shì)預(yù)測[J].楚雄師范學(xué)院學(xué)報(bào),2002,17(5):79-82.

②王惠文,黃薇,劉強(qiáng).北京市三次產(chǎn)業(yè)預(yù)測分析[J].系統(tǒng)工程理論與實(shí)踐,2003,(6):123-126.

第8篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

關(guān)鍵詞:聚類;k-means;算法;實(shí)驗(yàn)

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)32-1176-02

Study on the Initial Centrists of K-means Algorithm

MOU Ying1, QUAN Tai-feng2

(1.College of Physics and Information Technology, Chongqing Normal University, Chongqing 400047,China;2.Chongqing Communication Institute, Chongqing 400035, China)

Abstract: In order to conquer the problem that k-means algorithm depends on initial cluster centrists, so this paper discusses use competition neural network and the mind of density to improve the classic k-means algorithm. The two methods are able to improve the random choice of the initial centrists in the classic k-means algorithm. Experimental results show that the two algorithms are effective.

Key words: clustering; K-means; algorithm; experiment

1 引言

聚類是將數(shù)據(jù)對(duì)象分組成為多個(gè)類或簇,在同一個(gè)簇中對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象之間差別較大[1]。在聚類算法中,K-means算法是其中一種最常用最知名的劃分方法[2],它根據(jù)事先確定的K值,把樣本分為K類,使所有樣本到聚類中心的距離平方和最小?,F(xiàn)在K-means算法已經(jīng)應(yīng)用到各種領(lǐng)域,包括圖像和語音數(shù)據(jù)壓縮,用徑向基函數(shù)網(wǎng)絡(luò)進(jìn)行系統(tǒng)建模的數(shù)據(jù)處理等[3],但經(jīng)典K-means算法在運(yùn)行初期隨機(jī)產(chǎn)生聚類初始點(diǎn);如果初始聚類點(diǎn)離數(shù)據(jù)本身中心較近,則算法運(yùn)行效率較高否則反之。

本文將競爭神經(jīng)網(wǎng)絡(luò)和經(jīng)典K-means算法相結(jié)合,提出一種基于競爭神經(jīng)網(wǎng)絡(luò)的K-means算法。另外還采用基于密度的思想進(jìn)行尋找初始聚類中心,從而改變經(jīng)典K-means算法對(duì)初始聚類中心的隨機(jī)選擇。實(shí)驗(yàn)結(jié)果表明,這兩種方法有效的克服了K-means對(duì)初始聚類中心的依賴性。

2 經(jīng)典K-means算法

經(jīng)典K-means算法的基本思想是:給定一個(gè)包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)庫,以及要生成的簇的數(shù)目k,隨機(jī)選取k個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算剩余各個(gè)樣本到每一個(gè)聚類中心的距離,把該樣本歸到離它最近的那個(gè)聚類中心所在的類,直到調(diào)整結(jié)束且聚類平均誤差準(zhǔn)則函數(shù)E已經(jīng)收斂。

K-means算法的具體描述如下:

1)任選k個(gè)對(duì)象特征矢量作為初始聚類中心:z1(0),z2(0)…zk(0),令t=0

2)將待分類的對(duì)象特征矢量集{xi}中的對(duì)象逐個(gè)按最小距離原則分配給k類中的某一類,即

如果

i=1,2,…N(1)

則判xi∈wi(t+1)。

其中dij(t)表示xi和wj(t)的中心zj(t)的距離,上角標(biāo)表示迭代次數(shù)。于是產(chǎn)生新的聚類wj(t+1)(j=1,2,…,k)。

3)計(jì)算重新分類后的各類心

式中nj(t+1)為wj(t+1)類中所含對(duì)象的個(gè)數(shù)。

因?yàn)檫@一步采取平均的方法計(jì)算調(diào)整后各類的中心,且定為k類,故稱K-均值法。

4)如果Zj(t+1)=Zj(t)(j=1,2,…,k),則結(jié)束;否則,t=t+1,轉(zhuǎn)至(2)

經(jīng)典K-means算法的計(jì)算復(fù)雜度為O(nkt),其中,n為對(duì)象個(gè)數(shù),k為聚類個(gè)數(shù),t為循環(huán)次數(shù)。由于它要求用戶輸入希望產(chǎn)生聚類的數(shù)目,而實(shí)際中的k值也很難被精確的確定,往往表現(xiàn)為一個(gè)模糊的取值區(qū)間[4]。并且在經(jīng)典K-means算法中,首先需要根據(jù)初始聚類中心來確定一個(gè)初始劃分,然后對(duì)初始劃分進(jìn)行優(yōu)化。這個(gè)初始聚類中心的選擇對(duì)聚類結(jié)果有較大的影響,一旦初始值選擇得不好,可能無法得到有效的聚類結(jié)果,所以這個(gè)算法的聚類結(jié)果對(duì)初值的依賴是很強(qiáng)的,這也成為K-means算法的一個(gè)主要問題。然而其方法簡單,結(jié)果尚令人滿意,故應(yīng)用較多。

3 兩種改進(jìn)算法介紹

3.1 基于競爭神經(jīng)網(wǎng)絡(luò)的K-means算法

競爭神經(jīng)網(wǎng)絡(luò)是基于生物神經(jīng)系統(tǒng)中的“側(cè)抑制”現(xiàn)象形成的。競爭神經(jīng)網(wǎng)絡(luò)的顯著特點(diǎn)是它的輸出神經(jīng)元相互競爭以確定勝者,勝者指出哪一種原型模式最能代表輸入模式。競爭神經(jīng)網(wǎng)絡(luò)是一種“自發(fā)”分類器,一種基于感知機(jī)的無監(jiān)督的神經(jīng)網(wǎng)絡(luò)[5]。因此利用競爭神經(jīng)網(wǎng)絡(luò)來對(duì)經(jīng)典K-means算法的初始聚類點(diǎn)進(jìn)行改進(jìn),使改進(jìn)后的K-means算法的初始聚類中心穩(wěn)定的靠近于數(shù)據(jù)本身的類中心,從而減少經(jīng)典K-means的循環(huán)次數(shù)。

考慮到競爭神經(jīng)網(wǎng)絡(luò)的建網(wǎng)速度,在訓(xùn)練競爭神經(jīng)網(wǎng)絡(luò)的時(shí)候,將原始數(shù)據(jù)按照10%進(jìn)行采樣,用采樣后的數(shù)據(jù)建立競爭神經(jīng)網(wǎng)絡(luò)。按照競爭神經(jīng)網(wǎng)絡(luò)的聚類結(jié)果,將簇中數(shù)據(jù)的均值作為初始聚類中心輸入經(jīng)典的K-means算法,從而起到優(yōu)化初始聚類中心的作用。具體的采樣方法是,以α為半徑畫圓,在這個(gè)圓內(nèi)隨機(jī)選取數(shù)據(jù)點(diǎn)的10%作為采樣數(shù)據(jù),α越小,其采樣頻率越高,采樣到的數(shù)據(jù)越多;α越大,其采樣頻率越低,采樣到的數(shù)據(jù)越少。當(dāng)α取一個(gè)較適中的值的時(shí)候,采樣到的數(shù)據(jù)可以反映原始數(shù)據(jù)的分布,也能夠有效的減少數(shù)據(jù)量。

圖1為基于競爭神經(jīng)網(wǎng)絡(luò)的K-means算法的流程圖。

算法描述如下:

1)從文件中讀出數(shù)據(jù)。

2)利用最?。畲笠?guī)范化操作將數(shù)據(jù)的每個(gè)屬性映射到 空間。

3)采用歐式距離,計(jì)算各個(gè)數(shù)據(jù)之間的相異度矩陣。

4)計(jì)算Davg=AVG(Dij),α=Davg/2即α取數(shù)據(jù)平均相異度的一半。以α為半徑,按10%的采樣頻率進(jìn)行數(shù)據(jù)采樣。

5)將采樣后的數(shù)據(jù)輸入競爭神經(jīng)網(wǎng)絡(luò)進(jìn)行初始聚類。

6)將初始聚類產(chǎn)生的各個(gè)簇的對(duì)象的均值作為經(jīng)典K-means算法的初始聚類中心。

7)運(yùn)行經(jīng)典K-means算法。

3.2 一種基于密度的K-means算法

由于經(jīng)典的K-means算法對(duì)聚類個(gè)數(shù)和初始聚類中心存在依賴性的問題,所以其結(jié)果可能是局部最優(yōu)的。如果隨機(jī)選擇的聚類初始點(diǎn)靠近于數(shù)據(jù)本身的中心,則算法運(yùn)行的循環(huán)次數(shù)少,而且數(shù)據(jù)分類也比較合乎實(shí)際;當(dāng)隨機(jī)選擇的初始聚類點(diǎn)不是很好的時(shí)候,算法運(yùn)行的循環(huán)次數(shù)會(huì)增加,而數(shù)據(jù)分類也在一定程度上趨向于局部最優(yōu)。這個(gè)改進(jìn)思路就想利用數(shù)據(jù)的分布,尋找能夠代表不同簇的數(shù)據(jù),并利用他們周圍的數(shù)據(jù)來對(duì)這些數(shù)據(jù)進(jìn)行修正,試圖尋找比較靠近于數(shù)據(jù)本身中心的初始聚類點(diǎn)。具體來說,首先尋找相距最遠(yuǎn)的兩個(gè)點(diǎn)A和B,認(rèn)為他們代表數(shù)據(jù)的兩個(gè)簇。然后選取一個(gè)點(diǎn)C,使AC和BC的距離都大于某一個(gè)值,如此重復(fù),直到找到k個(gè)代表點(diǎn)。接著在每個(gè)代表點(diǎn)附近尋找α?n/k個(gè)點(diǎn),其中α表示采樣頻率,n表示數(shù)據(jù)個(gè)數(shù),k表示簇?cái)?shù)目。這些點(diǎn)和該代表點(diǎn)屬于同一簇,然后對(duì)這些認(rèn)為屬于各簇的數(shù)據(jù)求平均,將得到的k個(gè)初始聚類點(diǎn)輸入經(jīng)典K-means算法。圖2為一種基于密度的K-means算法的流程圖。

算法描述如下:

1)從文件中讀出數(shù)據(jù)。

2)輸入k,表示數(shù)據(jù)需要聚成幾類。

3)利用最?。畲笠?guī)范化操作將數(shù)據(jù)的每個(gè)屬性映射到[0,1]空間。

4)采用歐式距離,計(jì)算各個(gè)數(shù)據(jù)之間的相異度矩陣。

5)尋找兩個(gè)相距最遠(yuǎn)的點(diǎn),設(shè)為A和B,將它們作為簇中心,置h=2。

6)如果k>h,尋找一個(gè)點(diǎn)C,使C到已有簇中心的聚類大于ymax-β,其中ymax=(Davg+MAX(Dij))/2,Davg=AVG(Dij) (0

7)在這k個(gè)點(diǎn)的周圍,尋找與其最近的α?n/k個(gè)點(diǎn),其中α=0.1。

8)將這些認(rèn)為屬于某個(gè)簇的點(diǎn)做平均,將他們的均值作為經(jīng)典K-means算法的初始聚類中心。

9)運(yùn)行經(jīng)典K-means算法。

4 實(shí)驗(yàn)

4.1 測試數(shù)據(jù)

本文的算法均使用matlab進(jìn)行仿真實(shí)驗(yàn),并與經(jīng)典K-means算法進(jìn)行比較。為了便于更加直觀的觀察聚類結(jié)果,采用了主元分析(PCA)進(jìn)行降維處理,將數(shù)據(jù)投影到3維空間上進(jìn)行顯示。實(shí)驗(yàn)測試數(shù)據(jù)采用來自UCI測試庫的專門用于測試分類、聚類算法的Iris數(shù)據(jù)庫,以及一組客觀的個(gè)人信用數(shù)據(jù)。表1列出了各測試數(shù)據(jù)集的記錄數(shù)、屬性數(shù)和類別數(shù)。

4.2 實(shí)驗(yàn)結(jié)果對(duì)比

首先實(shí)驗(yàn)同時(shí)使用兩種改進(jìn)算法和K-means算法對(duì)Iris數(shù)據(jù)進(jìn)行聚類,表2是三種算法的實(shí)驗(yàn)結(jié)果對(duì)比,其中可以看出,兩種改進(jìn)方法的循環(huán)次數(shù)遠(yuǎn)遠(yuǎn)小于經(jīng)典K-means算法。

然后實(shí)驗(yàn)同時(shí)使用兩種改進(jìn)算法和K-means算法對(duì)Credit數(shù)據(jù)進(jìn)行聚類,表3是三種算法的實(shí)驗(yàn)結(jié)果對(duì)比,其中可以看出兩種改進(jìn)方法的循環(huán)次數(shù)小于經(jīng)典K-means算法。

4.3 實(shí)驗(yàn)結(jié)果分析

通過實(shí)驗(yàn)結(jié)果對(duì)比可以看出:經(jīng)典的K-means算法與聚類數(shù)目和初始聚類中心的選擇有很大關(guān)系,多次運(yùn)行算法,從不同的初始聚類中心出發(fā)會(huì)得到不同的聚類結(jié)果和準(zhǔn)確性,具有一定的主觀性和隨機(jī)性,算法穩(wěn)定性不好?;诟偁幧窠?jīng)網(wǎng)絡(luò)的K-means算法在運(yùn)行經(jīng)典的K-means算法之前用競爭神網(wǎng)做了一個(gè)預(yù)處理,而基于密度的K-means算法在運(yùn)行經(jīng)典的K-means算法之前做了一個(gè)預(yù)處理。這兩種算法都改變了初始聚類中心的隨機(jī)選擇,使輸入經(jīng)典K-means算法的初始聚類中心離數(shù)據(jù)本身的類中心較近,改變其對(duì)聚類初始中心的依賴問題;而在競爭神網(wǎng)建立網(wǎng)絡(luò)的時(shí)候,利用采樣數(shù)據(jù)進(jìn)行訓(xùn)練,有效降低了數(shù)據(jù)量,減少了競爭神網(wǎng)的建立速度;并且多次運(yùn)行算法,結(jié)果較穩(wěn)定。從實(shí)驗(yàn)結(jié)果也可以看出,它在兩組測試數(shù)據(jù)上運(yùn)行得較好。

5 結(jié)論

本文針對(duì)經(jīng)典K-means算法的主要不足,采用優(yōu)化聚類中心的方法提出了基于競爭神經(jīng)網(wǎng)絡(luò)的K-means算法和基于密度的K-means算法,從而使K-means算法能夠自適應(yīng)的確定聚類中心,避免初始聚類中心的隨機(jī)性,在一定程度上彌補(bǔ)了經(jīng)典算法的不足。

從實(shí)驗(yàn)的結(jié)果來看,采用隨機(jī)選取初始聚類點(diǎn)的方法,初始聚類中心靠近數(shù)據(jù)本身的類中心時(shí)近時(shí)遠(yuǎn),非常不穩(wěn)定,用于實(shí)際的數(shù)據(jù)聚類,效果不太好。而采用了一系列的改進(jìn)算法后,其初始聚類點(diǎn)離數(shù)據(jù)本身類中心較近,并且較穩(wěn)定,用于實(shí)際的數(shù)據(jù)聚類,效果較好。

參考文獻(xiàn):

[1] HAN Jia-wei, Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001:223-230.

[2] Belouchrani A,Abed-meraim K,Cardoso J F,et al.A Bjind Source Separation Technique Using Second-order Statistics[J].IEEE Trans.Signal Processing,1997,45(2):434-444.

[3] Charalampidis D,Kasparis T.Wavelet-Based Rotational Invariant Roughness Features for Texture Classification and Segmentation[J].IEEE Transactions on Image Processing,2002,11(8):825-837.

第9篇:神經(jīng)網(wǎng)絡(luò)降維方法范文

關(guān)鍵詞 數(shù)據(jù)挖掘 預(yù)處理方法 基因表達(dá)數(shù)據(jù)

中圖分類號(hào):O17文獻(xiàn)標(biāo)識(shí)碼:A

Pretreatment Method of the Gene Expression Data

WANG Xiuzhu

(Computer Science and Technology, Southwest University of Science and Technology, Mianyang, Sichuan 621010)

AbstractThis paper introduces several common gene expression data pretreatment method, and compared those methods, elucidatedapplication advantages of different methods in different environment.

Key wordsdata mining; pretreatment methods; gene expression data

隨著人類基因組計(jì)劃對(duì)24對(duì)染色體全部基因測序工作的完成,人類對(duì)基因的研究將進(jìn)入全新的發(fā)展階段,而它的重點(diǎn)也將落在對(duì)基因表達(dá)數(shù)據(jù)的分析上。面對(duì)數(shù)以千兆計(jì)的基因表達(dá)數(shù)據(jù)記錄,數(shù)據(jù)挖掘成了首當(dāng)其沖的、強(qiáng)有力的分析工具。選擇合適的數(shù)據(jù)挖掘算法,是基因表達(dá)數(shù)據(jù)知識(shí)發(fā)現(xiàn)的關(guān)鍵。一般基因表達(dá)數(shù)據(jù)都會(huì)存在諸如數(shù)據(jù)完整性、數(shù)據(jù)的冗余性、屬性間的相關(guān)性等問題而不能直接滿足挖掘算法的要求。本文首先提出幾種常用的基因表達(dá)數(shù)據(jù)預(yù)處理方法,隨后會(huì)對(duì)這些方法進(jìn)行論述和比較,以闡明在不同環(huán)境下各種預(yù)處理方法的應(yīng)用優(yōu)勢(shì)。

數(shù)據(jù)預(yù)處理是從大量的數(shù)據(jù)屬性中提取出一些對(duì)目標(biāo)輸出有重要影響的屬性,即降低原始數(shù)據(jù)的維數(shù),從而達(dá)到改善實(shí)例數(shù)據(jù)質(zhì)量和提高數(shù)據(jù)挖掘速度的目的。常見的基因表達(dá)數(shù)據(jù)預(yù)處理方法有以下幾類。

1 基于粗糙集理論的約簡方法

20世紀(jì)80年代初,波蘭的Pawlak針對(duì)G.Frege的邊界線區(qū)域思想提出了粗糙集理論,粗糙集理論的主要研究內(nèi)容有知識(shí)約簡、離散化問題和不完全知識(shí)的補(bǔ)齊等,它在一定程度上很好地解決了傳統(tǒng)數(shù)據(jù)挖掘中存在的超大數(shù)據(jù)、不確定性數(shù)據(jù)、噪音數(shù)據(jù)、空值和冗余數(shù)據(jù)等問題。①

粗糙集理論的基本思想是:用數(shù)據(jù)集的等價(jià)關(guān)系,這種關(guān)系可以是某個(gè)屬性,也可以是某幾個(gè)屬性的組合,對(duì)此數(shù)據(jù)集進(jìn)行劃分,從而得到不同的基本類,在這些基本類的基礎(chǔ)上進(jìn)一步求得最小約簡集,以達(dá)到降維的目的。

粗糙集理論的優(yōu)點(diǎn)是:無需提供額外的先驗(yàn)信息就可將問題的論域進(jìn)行劃分,無需相關(guān)領(lǐng)域?qū)<业谋O(jiān)督就可獨(dú)立完成。能有效地去除基因表達(dá)數(shù)據(jù)庫中的冗余數(shù)據(jù)、噪音數(shù)據(jù)和空數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行有效的降維。缺點(diǎn)是:只能處理離散型數(shù)據(jù)。因此,如果基因表達(dá)數(shù)據(jù)庫中的數(shù)據(jù)是連續(xù)型的,則首先要對(duì)其進(jìn)行離散化處理后才能運(yùn)用粗糙集理論來進(jìn)行后續(xù)處理。

2 基于概念樹的數(shù)據(jù)濃縮方法

在基因表達(dá)數(shù)據(jù)庫中,許多屬性都是可以進(jìn)行歸類的,各屬性值依據(jù)抽象程度可以構(gòu)成一個(gè)層次結(jié)構(gòu),這種層次結(jié)構(gòu)通常稱為概念樹。它依據(jù)抽象程度將屬性按照一般到特殊的順序排列,并用這種層次結(jié)構(gòu)體現(xiàn)出來。這種方法其實(shí)是幾組合并的處理過程,用這種方法從基因表達(dá)數(shù)據(jù)庫中發(fā)現(xiàn)規(guī)則知識(shí)的核心是執(zhí)行基本的和面向各屬性的歸納。②

基于概念樹的數(shù)據(jù)濃縮法的基本思想是:(1)用概念樹中的父概念去替代下面同性的、較具體的屬性值。(2)合并知識(shí)基表中出現(xiàn)的相同元組,并計(jì)算由這些相同元組所構(gòu)成的宏元組所覆蓋的元組數(shù),如果元組數(shù)大于設(shè)定的閥值,則用概念樹中更一般的父概念去替代。(3)得到覆蓋面更廣、數(shù)量更少的宏元組以達(dá)到降維的目的。(4)將最終結(jié)果進(jìn)行歸納并轉(zhuǎn)換成邏輯規(guī)則。

基于概念樹的數(shù)據(jù)濃縮法是基于監(jiān)督的方法,它的降維思想主要是根據(jù)經(jīng)驗(yàn)和需要制定出相應(yīng)的剪枝閾值,以對(duì)噪聲數(shù)據(jù)進(jìn)行有效剪除。這種概念泛化處理的手段,能使處理后的基因表達(dá)數(shù)據(jù)庫以不同層次和匯聚密度展現(xiàn)出來,為后續(xù)數(shù)據(jù)挖掘階段能更好地挖掘出不同層次屬性值間的關(guān)系做出了鋪墊。

3 主成分分析法

常見的基于統(tǒng)計(jì)分析的屬性選取方法有主成分分析、逐步回歸分析、公共因素模型分析等。它們都是旨在用盡可能少的特征去描述高維的原始基因表達(dá)數(shù)據(jù)庫,從而達(dá)到降維的目的。其中最有代表性,應(yīng)用得最廣的就屬主成分分析。③

主成分分析的基本思想是:將多個(gè)變量通過線性變換的方式選出較少的重要變量的一種多元統(tǒng)計(jì)分析方法,它是在數(shù)據(jù)信息丟失最少的原則下對(duì)高維空間進(jìn)行降維處理。它設(shè)法將原來給定的一組變量X1,X2,,,Xp,通過線性變換,轉(zhuǎn)換為一組不相關(guān)的變量Y1,Y2,,,Yp,在這種變換中,保持原始變量的方差和不變。通常數(shù)學(xué)上的處理就是將原來p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)的同時(shí),使得Y1具有最大方差,成為第一主成分,如果第一主成分不足以代表原來p個(gè)指標(biāo)的信息,再考慮選取第二個(gè)線性組合Y2作為第二主成分。依此類推,原來的k個(gè)變量就可以轉(zhuǎn)換成q個(gè)主成分。

主成分分析法的特點(diǎn)是用盡可能少的、具有代表性的特征變量來描述原本高維的基因表達(dá)數(shù)據(jù)庫,它能依據(jù)變量間的相關(guān)程度,自動(dòng)生成權(quán)重,在一定程度上避免了人為因素的干擾,確保了評(píng)價(jià)的客觀性。它的局限性在于評(píng)價(jià)結(jié)果并不能重復(fù)使用,每次樣本的增減都會(huì)使原來的評(píng)價(jià)失去意義。

4 遺傳算法

遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機(jī)搜索算法,它模擬了生物界“生存競爭,優(yōu)勝劣汰,適者生存”的機(jī)制,用逐次迭代法去搜索尋優(yōu),求得問題的最優(yōu)解。④⑤遺傳算法的基本思想是:將問題的可能解按某種形式進(jìn)行染色體編碼。在選擇個(gè)體適應(yīng)度評(píng)價(jià)較優(yōu)的染色體中隨機(jī)選取 N 個(gè)進(jìn)行復(fù)制。通過選擇、交叉、變異三個(gè)環(huán)節(jié)產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,從而形成新的種群。

遺傳算法應(yīng)用的關(guān)鍵是適應(yīng)度函數(shù)的建立和染色體的描述,具體體現(xiàn)在對(duì)遺傳算法運(yùn)行參數(shù)的設(shè)定上,其中包括對(duì)種群的大小、進(jìn)化終止的最大代數(shù)、交叉概率、變異概率的確定等。在實(shí)際應(yīng)用中,通常將它和神經(jīng)網(wǎng)絡(luò)方法綜合使用。

5 結(jié)論

綜上所述,在以上的數(shù)據(jù)預(yù)處理方法中,基于粗糙集理論的約簡方法在處理離散型基因表達(dá)數(shù)據(jù)上具有明顯優(yōu)勢(shì);基于概念樹的數(shù)據(jù)濃縮方法在有相關(guān)領(lǐng)域?qū)<冶O(jiān)督的前提下具有優(yōu)勢(shì);基于統(tǒng)計(jì)分析的屬性選取方法由于在對(duì)基因表達(dá)數(shù)據(jù)的預(yù)處理過程中無需通過人為賦值來確定各個(gè)指標(biāo)的權(quán)重,增強(qiáng)了數(shù)據(jù)處理的客觀性。此外,它是在數(shù)據(jù)信息丟失最少的前提下進(jìn)行的。因此,它較其他三種方法在降維的質(zhì)量上有優(yōu)勢(shì),遺傳算法在處理基因表達(dá)數(shù)據(jù)上的降維效果也是比較明顯的,但通常要與神經(jīng)網(wǎng)絡(luò)相結(jié)合來使用,算法的復(fù)雜度相對(duì)較高。

基金項(xiàng)目:西南科技大學(xué)青年基金項(xiàng)目(項(xiàng)目編號(hào):11zx3118,“西南科技大學(xué)科研基金資助成果”)

注釋

①于成.粗糙集在基于神經(jīng)網(wǎng)絡(luò)的入侵檢測系統(tǒng)的探討[J].自動(dòng)化與儀器儀表,2010.5:129-131.

②劉上力,趙勁強(qiáng),聶勤務(wù).Web使用挖掘中的數(shù)據(jù)預(yù)處理方法[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版),2010.25(4):71-74.

③顧明,蘇園園.主成分分析法在工作評(píng)價(jià)中的應(yīng)用[J].科教導(dǎo)刊,2010(6):159-161.

相關(guān)熱門標(biāo)簽