公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘技術(shù)的算法探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘技術(shù)的算法探析范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘技術(shù)的算法探析

1大數(shù)據(jù)的相關(guān)引入

1.1大數(shù)據(jù)的概念

大數(shù)據(jù)主要指傳統(tǒng)數(shù)據(jù)處理軟件無法處理的數(shù)據(jù)集,大數(shù)據(jù)有海量、多樣、高速和易變四大特點,通過大數(shù)據(jù)的使用,可以催生出新的信息處理形式,實現(xiàn)信息挖掘的有效性。大數(shù)據(jù)技術(shù)存在的意義不僅在于收集海量的信息,更在于專業(yè)化的處理和分析,將信息轉(zhuǎn)化為數(shù)據(jù),從數(shù)據(jù)中提取有價值的知識。大數(shù)據(jù)分析與云計算關(guān)系密切,數(shù)據(jù)分析必須依托于云計算的分布式處理、分布式數(shù)據(jù)庫等。

1.2大數(shù)據(jù)的特點

伴隨著越來越多的學(xué)者投入到對大數(shù)據(jù)的研究當中,其特點也逐漸明晰,都廣泛的提及了這四個特點。(1)海量的數(shù)據(jù)規(guī)模,信息的數(shù)據(jù)體量明顯區(qū)別于以往的GB、TB等計量單位,在大數(shù)據(jù)領(lǐng)域主要指可以突破IZP的數(shù)量級。(2)快速的數(shù)據(jù)流轉(zhuǎn),大數(shù)據(jù)作用的領(lǐng)域時刻處在數(shù)據(jù)更新的環(huán)境下,高效快速的分析數(shù)據(jù)是保證信息處理有效的前提。(3)多樣的數(shù)據(jù)類型,廣泛的數(shù)據(jù)來源催生出更加多樣的數(shù)據(jù)結(jié)構(gòu)。(4)價值低密度,也是大數(shù)據(jù)的核心特征,相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)更加多變、模糊,給數(shù)據(jù)分析帶來困擾,從而難以從中高密度的取得有價值的信息。

1.3大數(shù)據(jù)的結(jié)構(gòu)

大數(shù)據(jù)主要分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種數(shù)據(jù)結(jié)構(gòu)。結(jié)構(gòu)化一般指類似于數(shù)據(jù)庫的數(shù)據(jù)管理模式。半結(jié)構(gòu)化具有一定的結(jié)構(gòu)性,但相比結(jié)構(gòu)化來說更加靈活多變。目前非結(jié)構(gòu)化數(shù)據(jù)占據(jù)所有數(shù)據(jù)的70%-80%,原因在于互聯(lián)網(wǎng)上的信息內(nèi)容多種多樣,暫時無法找到有序的存儲歸類方法。

1.4大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)是指如何從各種類型的數(shù)據(jù)中,獲得有利用價值的信息,其中大數(shù)據(jù)技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)存取、數(shù)據(jù)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測和結(jié)果呈現(xiàn)。在大數(shù)據(jù)的生命周期中,數(shù)據(jù)收集處于第一階段,主要來源有管理信息系統(tǒng)、Web信息系統(tǒng)等。根據(jù)數(shù)據(jù)結(jié)構(gòu)類型不同,大數(shù)據(jù)的存取采用三種不同的形式,這樣有利于其他技術(shù)的應(yīng)用。數(shù)據(jù)架構(gòu)源于谷歌提出的一種基于軟件的可靠文件存儲體系GFS(Google文件系統(tǒng)),相應(yīng)推出的還有MapReduce計算模型,二者共同解決了當時的文件存儲和運算問題。而后隨著需求的不斷增多,有學(xué)者基于谷歌的研究,開發(fā)出可以滿足更多需求的Hadoop。

2數(shù)據(jù)挖掘技術(shù)

2.1數(shù)據(jù)挖掘技術(shù)以及云計算

如今全球每年都有數(shù)十億人使用著計算機等電子設(shè)備,并產(chǎn)生了龐大的數(shù)據(jù),各行各業(yè)都已經(jīng)被數(shù)據(jù)所滲透,在大數(shù)據(jù)時代,數(shù)據(jù)挖掘已成為不可或缺的技術(shù)。數(shù)據(jù)挖掘通過統(tǒng)計、在線分析、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)從海量數(shù)據(jù)中搜索隱藏于其中的信息這一過程。云計算是分布計算的其中一種,通常是指:通過網(wǎng)絡(luò)搜集共享計算資源,并以最低的管理代價和最精準的計算方式獲取結(jié)果的新型IT運算模式。也就是說云計算技術(shù)將龐大的數(shù)據(jù)計算處理程序拆分為一個個小程序,再通過多個服務(wù)器分別計算、處理和分析,最后將結(jié)果匯總并返回給用戶。這項技術(shù)可以在短時間內(nèi)迅速完成海量的數(shù)據(jù)處理,從而為日益更新的互聯(lián)網(wǎng)服務(wù)。

2.2數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀

從最早的數(shù)據(jù)庫技術(shù),到如今逐漸發(fā)展成熟的大數(shù)據(jù)技術(shù),其目的都是實現(xiàn)數(shù)據(jù)的高效管理和有效利用。數(shù)據(jù)在我們身邊無處不在,數(shù)據(jù)的收集已經(jīng)不再是困擾我們的難題,如何將隱藏在數(shù)據(jù)背后的信息高效率的挖掘出來,才是我們需要探索的道路。如今數(shù)據(jù)挖掘技術(shù)已發(fā)展為:數(shù)據(jù)源提供數(shù)據(jù),再將預(yù)處理的數(shù)據(jù)整合成適用的模式,由模式分析出這些數(shù)據(jù)中有用的知識。

2.3數(shù)據(jù)挖掘中的經(jīng)典算法

2.3.1C4.5算法

C4.5算法是在決策樹算法的基礎(chǔ)之上改進的,根據(jù)對目標變量產(chǎn)生的效果的不同而構(gòu)建的分類規(guī)則,其原理是根據(jù)每次選擇一個特征或分裂點作為當前節(jié)點的分類條件。C4.5算法繼承了決策樹算法的優(yōu)點:過程可見、操作簡便、準確率高,可同時也有難以基于組合的形式發(fā)現(xiàn)規(guī)律。

2.3.2K-Means

算法即K均值聚類算法K均值聚類算法顧名思義是一種聚類算法,將n個對象根據(jù)屬性分為k個分割,計算出每個對象與各個種子聚類間的距離,然后將每類對象分配給最近的聚類中心,這樣每個聚類中心再不斷重復(fù)以上操作以達到某個終止條件。這種算法的優(yōu)點是容易實現(xiàn),但在大規(guī)模數(shù)據(jù)的運用上效率較低,一般適用于數(shù)值型數(shù)據(jù)。

3最新數(shù)據(jù)挖掘技術(shù)及其應(yīng)用

在新時代大數(shù)據(jù)的發(fā)展中,信息數(shù)據(jù)在我們的生活中無處不在,衣、食、住、行中都有大數(shù)據(jù)技術(shù)作為支撐,從“暗處”給用戶提供幫助。隨著大數(shù)據(jù)的出現(xiàn)到發(fā)展為現(xiàn)階段互聯(lián)網(wǎng)不可缺少的一部分,我們生活中大多數(shù)傳統(tǒng)的統(tǒng)計、計算、分析方法已無形中被大數(shù)據(jù)取代。

3.1數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用

在信息化發(fā)展如此迅速的時代,金融信息數(shù)據(jù)化已成為必然趨勢,各種互聯(lián)網(wǎng)金融企業(yè)如雨后春筍般出現(xiàn),給傳統(tǒng)金融帶來了不小的沖擊。線上支付、P2P模式的網(wǎng)貸,甚至于股票期貨,都已完成從傳統(tǒng)數(shù)據(jù)模式向大數(shù)據(jù)技術(shù)的更新。大數(shù)據(jù)時代給金融行業(yè)帶來了全新的一面,可以為客戶分類、風(fēng)險評估等提供更高層次的參考價值。利用有效地數(shù)據(jù)分析把控客戶類別和客戶需求,從而提高經(jīng)濟效益和服務(wù)質(zhì)量,為金融行業(yè)的發(fā)展提供更廣闊的平臺。

3.2數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用

教育數(shù)據(jù)挖掘(EducationDataMining)應(yīng)用了多個大數(shù)據(jù)技術(shù),綜合運用了數(shù)理統(tǒng)計、人工智能與機器學(xué)習(xí)和數(shù)據(jù)挖掘等。對教育原始數(shù)據(jù)進行分析、構(gòu)建數(shù)據(jù)模型,從而有效地預(yù)測學(xué)習(xí)者的學(xué)習(xí)趨勢。也為互聯(lián)網(wǎng)教育提供發(fā)展的基礎(chǔ),實現(xiàn)線上教育系統(tǒng)的普及和有效應(yīng)用,增加新型的學(xué)習(xí)方式。同時教育信息數(shù)據(jù)化也可以進行全面的、精準的學(xué)習(xí)分析,提供有理論數(shù)據(jù)支撐的分析結(jié)果,有利于學(xué)生的自主學(xué)習(xí)和問題分析。

4大數(shù)據(jù)的發(fā)展趨勢

大數(shù)據(jù)時代的來臨給我們帶來了全新的發(fā)展模式,同時也催生出許多新興行業(yè),如云計算、人工智能等。大數(shù)據(jù)技術(shù)如今已被應(yīng)用到商業(yè)、工業(yè)等領(lǐng)域,更是諸多新領(lǐng)域的基礎(chǔ),其中機器學(xué)習(xí)是人工智能的一個分支,研究方向是使計算機在沒有明確代碼的條件下自主學(xué)習(xí),它所運用的原理就是大數(shù)據(jù)技術(shù)。在科學(xué)領(lǐng)域,大數(shù)據(jù)也是必不可少的計算方式,它擁有多種不同的算法,可適應(yīng)性的解決一系列科學(xué)研究中的計算難題。在信息技術(shù)發(fā)展如此迅速的今天,大數(shù)據(jù)技術(shù)依然面臨著許多挑戰(zhàn),龐大的數(shù)據(jù)資源,它的儲存和保護是長久以來人們需要克服的難題。近幾年數(shù)據(jù)泄露的消息比比皆是,大小企業(yè)都無法免受影響,而唯一措施就是從源頭阻止信息的泄露。盜取數(shù)據(jù)的方法在日益更新,保護數(shù)據(jù)就更難上加難,所以完善企業(yè)自身的安全防范能力,提前做好屏障保護,是大數(shù)據(jù)應(yīng)用上的重要環(huán)節(jié)。

5結(jié)束語

總而言之,在信息技術(shù)發(fā)展如此迅速的時代,大數(shù)據(jù)的廣泛應(yīng)用已成為大勢所趨,從最早運用大數(shù)據(jù)進行簡單的分析,作為一種論據(jù)為科學(xué)研究提供數(shù)據(jù)支撐,到如今大數(shù)據(jù)成為互聯(lián)網(wǎng)技術(shù)的基石,操縱龐大的數(shù)據(jù)資源。可以說,大數(shù)據(jù)技術(shù)已走在當今科技發(fā)展的前沿。但科學(xué)技術(shù)的發(fā)展依舊伴隨著許多待解決的問題,在技術(shù)創(chuàng)新與實時出現(xiàn)的問題中尋求可持續(xù)發(fā)展的平衡,使得計算機技術(shù)可以更好的服務(wù)人們的生活,是我們需要努力的目標。

參考文獻

[1]張珍.云計算環(huán)境下的數(shù)據(jù)挖掘算法探究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(05):58-59.

[2]夏春梅.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)在銀行中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(10):174.

[3]胡水星.大數(shù)據(jù)及其關(guān)鍵技術(shù)的教育應(yīng)用實證分析[J].遠程教育雜志,2015,33(05):46-53.

作者:赫然 單位:北京工商大學(xué)計算機與信息工程學(xué)院