公務員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應用范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應用

摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中歸納、總結(jié)、分析數(shù)據(jù)的內(nèi)在規(guī)律,概率論數(shù)理統(tǒng)計在數(shù)據(jù)挖掘中的應用,提高了數(shù)據(jù)挖掘的精度與效率,通過對概率論、數(shù)理統(tǒng)計與數(shù)據(jù)挖掘的關(guān)系,分析了統(tǒng)計學在數(shù)據(jù)挖掘中的具體應用,并結(jié)合具體的算法探究了統(tǒng)計學在數(shù)據(jù)挖掘中的具體運用。

關(guān)鍵詞:數(shù)據(jù)挖掘;概率論;數(shù)理統(tǒng)計;統(tǒng)計學

0引言

概率論與數(shù)理統(tǒng)計是數(shù)據(jù)統(tǒng)計中采用的技術(shù),但其在數(shù)據(jù)挖掘中也具有十分重要的作用。數(shù)據(jù)挖掘作為一門新興科學,它是從大量、不完全、離散等特征的數(shù)據(jù)中,對其進行整理,提取隱含在這些數(shù)據(jù)中有意義、新穎、具有統(tǒng)一特征、有用的數(shù)據(jù),為人們的決策提供數(shù)據(jù)支持服務,是分析解決各類實際問題的可靠手段。數(shù)據(jù)挖掘主要是采用計算機技術(shù)、高級算法來實現(xiàn)對復雜數(shù)據(jù)、非線性結(jié)構(gòu)的數(shù)據(jù)進行處理,來探究數(shù)據(jù)之間的內(nèi)在聯(lián)系,進而發(fā)現(xiàn)數(shù)據(jù)內(nèi)部存在的規(guī)律,為用戶提供信息決策服務。

1統(tǒng)計學與數(shù)據(jù)挖掘的關(guān)系

統(tǒng)計學主要是研究數(shù)據(jù)統(tǒng)計原理與方法的科學,包括數(shù)理統(tǒng)計與概率論等主要內(nèi)容,主要是研究數(shù)據(jù)的搜集、整理與分析,并結(jié)合數(shù)據(jù)整理的資源,對事物進行整體的推斷,主要利用數(shù)據(jù)統(tǒng)計與概率論的原理對數(shù)據(jù)中的各個屬性進行統(tǒng)計與分析,進而找出數(shù)據(jù)自己的規(guī)律,在統(tǒng)計學的分析方法中主要有方差分析、相關(guān)分析、主成分分析與回歸分析等方法。數(shù)據(jù)挖掘主要是對大量的數(shù)據(jù)進行分析、總結(jié)、深度挖掘,進而找出數(shù)據(jù)之間的規(guī)律,并將這些新規(guī)律運用到現(xiàn)實中,例如對學生的學習成績進行挖掘分析,進而找出學生在學習過程中存在的問題,進而能夠形成學生的學習軌跡。1)統(tǒng)計學與數(shù)據(jù)挖掘的手段與目標相同,都是在龐雜的數(shù)據(jù)中提取數(shù)據(jù)的結(jié)構(gòu)特征,分析數(shù)據(jù)之間存在的內(nèi)在聯(lián)系與特征。2)數(shù)據(jù)挖掘是統(tǒng)計學發(fā)展的一個重要方向,它也為統(tǒng)計學的發(fā)展提供了一個全新的研究方法與數(shù)據(jù)處理的方法,而且數(shù)據(jù)挖掘比統(tǒng)計學傳統(tǒng)的數(shù)據(jù)分析方法更具有代表性。3)數(shù)據(jù)挖掘并不僅是統(tǒng)計學分析的重要內(nèi)容,而在統(tǒng)計學的思想與數(shù)據(jù)處理的方法中也得到了廣泛的應用,例如運用到數(shù)據(jù)庫技術(shù)、智能處理技術(shù)、機器學習等技術(shù)。4)統(tǒng)計學與概率論作為數(shù)據(jù)挖掘的一種成熟的、應用廣泛的技術(shù),將會促進數(shù)據(jù)挖掘向更深層次的范圍發(fā)展,提高數(shù)據(jù)挖掘的效率。

2統(tǒng)計學在數(shù)據(jù)挖掘中的應用

2.1概率分析網(wǎng)(PLN)

人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetwork,ANN)是數(shù)據(jù)挖掘算法中常用的方法之一,它是由一系列稱為數(shù)據(jù)節(jié)點組成的網(wǎng)狀結(jié)構(gòu),形成一個復雜的數(shù)據(jù)組成形式,通過調(diào)整各個網(wǎng)絡節(jié)點,采用輸入、輸出的權(quán)-值的非線性數(shù)據(jù)處理方式,達到對數(shù)據(jù)進行分析的目的。在數(shù)據(jù)挖掘時,往往會出現(xiàn)一些定量數(shù)據(jù)與定性數(shù)據(jù)、質(zhì)的數(shù)據(jù)與量的數(shù)據(jù)等混合在一起,以及一些數(shù)據(jù)缺失的情況,這就需要采用統(tǒng)計學中的相關(guān)數(shù)據(jù)處理技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合在一起,共同探究大量數(shù)據(jù)中存在的規(guī)律。概率分析網(wǎng)(PLN)在數(shù)據(jù)挖掘中的應用,主要體現(xiàn)在解決數(shù)據(jù)的模式識別、非線性回歸的數(shù)據(jù)優(yōu)化處理等數(shù)據(jù)運用與處理等方面,可以對一些復雜的數(shù)據(jù)進行處理,對分析定性數(shù)據(jù)與定量數(shù)據(jù)具有十分重要的作用。PLN網(wǎng)絡主要基于概率邏輯的神經(jīng)網(wǎng)絡基礎(chǔ)上,并采用復雜數(shù)據(jù)計算的方式,同時它也是在傳統(tǒng)權(quán)-閾值神經(jīng)網(wǎng)絡(BP學習算法)的基礎(chǔ)上而提出的算法,在數(shù)據(jù)處理的過程中,它的學習速度比相同問題的BP算法的學習速度快百倍,而且準確率也比較高,充分說明概率分析網(wǎng)絡(PLN)在一些性能上總是比權(quán)-閾值網(wǎng)絡的計算性能要快。在具體應用中,由于神經(jīng)網(wǎng)絡節(jié)點構(gòu)造的特殊性,也具有很強的隨機性,在具體的運用中具有多種可變性,需要采用多種數(shù)據(jù)分析工具進行處理,例如馬爾科夫鏈(Markov)等工具對PLN網(wǎng)絡中的數(shù)據(jù)進行定量分析,對大量的非線性數(shù)據(jù)進行統(tǒng)一分析與綜合,然后通過研究神經(jīng)網(wǎng)絡各個狀態(tài)之間的數(shù)據(jù)轉(zhuǎn)移概率與數(shù)據(jù)收斂的情況來分析數(shù)據(jù)之間的內(nèi)在聯(lián)系,進而確定數(shù)據(jù)變化的規(guī)律,還可以在不確定數(shù)據(jù)網(wǎng)絡轉(zhuǎn)移矩陣變化的狀態(tài)下,采用統(tǒng)計模擬工具對數(shù)據(jù)進行分析,求出數(shù)據(jù)的平均收斂補長的變異結(jié)果,進而分析出數(shù)據(jù)的變化規(guī)律。

2.2貝葉斯網(wǎng)絡在數(shù)據(jù)挖掘中的運用

一個完整的數(shù)據(jù)挖掘過程,需要對數(shù)據(jù)進行清理、轉(zhuǎn)換、可視化處理等一系列的過程,然后通過檢驗分析數(shù)據(jù)挖掘的結(jié)果是否正確,在這個過程中,就需要用到?jīng)Q策樹、人工神經(jīng)網(wǎng)絡、貝葉斯算法等算法,來分析這些數(shù)據(jù)之間存在的內(nèi)在聯(lián)系與邏輯關(guān)系,然后通過數(shù)據(jù)挖掘技術(shù),將其結(jié)果可視化的展示出來。在早期,貝葉斯網(wǎng)絡就成功地應用于專家系統(tǒng)與機器學習中,解決不同結(jié)構(gòu)中數(shù)據(jù)之間的連接問題,成為表示不確定性專家知識與數(shù)據(jù)推理的一種數(shù)據(jù)變化方法,特別是隨著貝葉斯網(wǎng)絡在機器學習中的運用與研究,而概率論、數(shù)理統(tǒng)計與數(shù)據(jù)挖掘之間緊密的聯(lián)系,是貝葉斯網(wǎng)絡成為人們研究機器學習的重要數(shù)據(jù)處理方法,而且貝葉斯網(wǎng)絡是一個帶有概率注釋的有向無環(huán)圖,能夠快速地對大數(shù)據(jù)進行分析,總結(jié)出大量數(shù)據(jù)之間的邏輯關(guān)系,采用貝葉斯網(wǎng)絡的數(shù)據(jù)無序圖,可以將數(shù)據(jù)的概率圖模型與變量之間的關(guān)系結(jié)合在一起,便于運用聯(lián)合概率分布(物理的或貝葉斯的)的方式處理這些復雜數(shù)據(jù)之間的邏輯關(guān)系,并采用多種邏輯算法,進而能夠應用貝葉斯定理的學習與統(tǒng)計判斷功能,達到對無序數(shù)據(jù)的預測、分析與聚類處理等數(shù)據(jù)挖掘任務。當樣本數(shù)據(jù)不安全或者不確定時,或者數(shù)據(jù)中存在著質(zhì)的數(shù)據(jù)與量的數(shù)據(jù)等不確定性數(shù)據(jù),除了少數(shù)特例外,在采用貝葉斯法處理數(shù)據(jù)時,一般要借助于近似方法,探究不同數(shù)據(jù)內(nèi)在的聯(lián)系,來完成數(shù)據(jù)處理的過程。

2.3概率進化算法(PMEA)在數(shù)據(jù)挖掘中的應用

遺傳算法(GeneticAnalysis,GA)是數(shù)據(jù)挖掘算法中常用的一種方法,也是在一些數(shù)據(jù)處理中經(jīng)常用到的一種算法,它對數(shù)據(jù)的處理主要是基于人工選擇和交叉、變異、重組等數(shù)據(jù)處理優(yōu)化的方法,來完成數(shù)據(jù)挖掘的過程,GA通過對大量的非線性的數(shù)據(jù)構(gòu)造塊中的數(shù)據(jù)進行清洗、處理,然后進行選擇和重組操作,形成新的數(shù)據(jù)塊結(jié)構(gòu),然后通過遺傳、再生和混合來形成更好的數(shù)據(jù)塊,直到完成數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,進而得出數(shù)據(jù)的最優(yōu)解,但是在實際操作的過程中,由于數(shù)據(jù)的重組常常導致數(shù)據(jù)塊被破壞,采用傳統(tǒng)的算法就不能有效地對數(shù)據(jù)進行處理,導致遺傳算法達到了局部優(yōu)化或者早熟,不能有效地完成數(shù)據(jù)處理,這種數(shù)據(jù)塊的破壞稱為連鎖(Linkage)問題。為了解決這個問題,就需要從優(yōu)選的數(shù)據(jù)集合中提取有效的信息來代替數(shù)據(jù)重組,并提出數(shù)據(jù)的概率分布來確定新的解法,進而實現(xiàn)了算法的連鎖學習,如果將這種解決方法運用到數(shù)據(jù)挖掘中,就能夠解決一系列復雜的問題,這就是概率進化算法(PMEA)的形成思想與理論依據(jù),還可以采用壓縮遺傳算法運用到概率進化算法中,擴展數(shù)據(jù)的解析模型,以降低算法的復雜性,提高數(shù)據(jù)處理的效率。但是,如何有效地將數(shù)據(jù)處理中存在問題的預先知識引入到PMEA算法中,解決數(shù)據(jù)連鎖學習過程中存在的問題,使得數(shù)據(jù)挖掘的結(jié)果更加快速與精確,是概率進化算法的關(guān)鍵問題。同時,在概率進化算法中如何有效地選擇數(shù)據(jù)群體的參數(shù),如群體的規(guī)模、數(shù)據(jù)的選擇機制與比例等,都是概率進化算法需要處理的熱點問題之一。

3數(shù)據(jù)挖掘為數(shù)理統(tǒng)計與概率論提供了新的研究方向

數(shù)理統(tǒng)計與概率論的發(fā)展往往都是來自于實際數(shù)據(jù)處理的需要,也是結(jié)合人們的需求,來探究大量數(shù)據(jù)之間的規(guī)律。隨著當前社會海量數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘成為處理當前海量數(shù)據(jù)的重要手段,也是復雜數(shù)據(jù)有效處理的方式之一,當待處理的數(shù)據(jù)單位已經(jīng)以GB或TB為單位進行計算時,而且數(shù)據(jù)也會變得更加復雜,如果采用現(xiàn)有的數(shù)據(jù)集統(tǒng)計分析的方法來處理數(shù)據(jù),處理的效率就會比較低下,不僅現(xiàn)有的數(shù)據(jù)統(tǒng)計方法不能滿足數(shù)據(jù)處理的要求,不能提高數(shù)據(jù)處理的效率,在統(tǒng)計理論的研究方面,也不能滿足要求。主要原因數(shù)據(jù)處理過程中的基礎(chǔ)“總體”和“樣本”的選擇在發(fā)生變化,是否能滿足數(shù)據(jù)處理的要求為前提,重要原因是在海量的數(shù)據(jù)面前很難對數(shù)據(jù)的樣本與總體進行準確的定義,而且數(shù)據(jù)的變化也是多樣性的,大樣本的數(shù)據(jù)漸近性質(zhì)是否與提前的預測相同,如果數(shù)據(jù)量選擇太大,傳統(tǒng)的統(tǒng)計方法就很難真實地反映出數(shù)據(jù)的特征,而且統(tǒng)計假設檢驗使用的小概率原理不能適合大數(shù)據(jù)樣本的應用。由于假定的小概率事件在具體的數(shù)據(jù)測試中是夠能夠滿足要求,主要原因是處理數(shù)據(jù)的樣本較小,但是如果數(shù)據(jù)量增加到一定的范圍后,數(shù)據(jù)在處理中出現(xiàn)的多變性就比較多。因此,采用數(shù)據(jù)挖掘技術(shù)就能夠很好地解決這一問題。在統(tǒng)計學中加入數(shù)據(jù)挖掘的研究,將會有效促進統(tǒng)計學的發(fā)展,對數(shù)據(jù)挖掘與統(tǒng)計方法的結(jié)合進行研究,可以有效提高數(shù)據(jù)挖掘的準確型,使統(tǒng)計方法適應數(shù)據(jù)量的變化,也能夠提高數(shù)據(jù)處理的效果。

4結(jié)語

在信息化、數(shù)字化、網(wǎng)絡化、智能化高速發(fā)展的今天,傳統(tǒng)數(shù)理統(tǒng)計分析單獨應用的范圍會變得狹窄,大數(shù)據(jù)、人工智能等技術(shù)需要的是對海量大數(shù)據(jù)的綜合處理和挖掘能力。數(shù)理統(tǒng)計與概率論在數(shù)據(jù)挖掘中的應用,對數(shù)據(jù)挖掘的發(fā)展具有十分重要的作用,它對處理數(shù)據(jù)、分析數(shù)據(jù)的效果也十分明顯。將數(shù)據(jù)統(tǒng)計與概率論的思想融入到數(shù)據(jù)挖掘中,有利于指導實際數(shù)據(jù)挖掘工作,提升數(shù)據(jù)挖掘的精確度,也能夠提高數(shù)據(jù)挖掘質(zhì)量,為未來的數(shù)據(jù)挖掘提供了新的思路。

參考文獻:

[1]林琳.淺議在數(shù)據(jù)挖掘中應用抽樣技術(shù)[1].江蘇統(tǒng)計,2014(6).

[2]牛力.數(shù)據(jù)挖掘中的統(tǒng)計分析技術(shù)應用研究[J].廣西師范大學學報,2015(12).

[3]何清華,肖人彬,師漢民.螞蟻算法在機構(gòu)同構(gòu)判定中的實現(xiàn)[J].模式識別與人工智能,2016(4).

[4]魏瑜,陸靜.數(shù)據(jù)挖掘與統(tǒng)計學的關(guān)系淺析[1].沿海企業(yè)與科技,2015(9).

作者:龐建平 單位:中國人民大學