前言:想要寫出一篇引人入勝的文章?我們特意為您整理了主數(shù)據(jù)驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘探析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:多源數(shù)據(jù)挖掘過程中,由于缺少參數(shù)分析,導(dǎo)致數(shù)據(jù)挖掘不完整且精準(zhǔn)度較低,為了解決這類問題,提出主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法。分析主數(shù)據(jù)管理驅(qū)動挖掘原理,通過適配器驅(qū)動模塊傳遞數(shù)據(jù),借助接口器支配與處理數(shù)據(jù)。使用克里格數(shù)據(jù)挖掘算法調(diào)整參數(shù)并處理“臟數(shù)據(jù)”后,設(shè)計(jì)數(shù)據(jù)挖掘流程。實(shí)驗(yàn)結(jié)果顯示,主數(shù)據(jù)管理驅(qū)動挖掘方法挖掘數(shù)量與實(shí)際值相差最小為40個,數(shù)據(jù)挖掘完整度較高。在檢測數(shù)據(jù)為8000個時,挖掘精準(zhǔn)度達(dá)到95%,能夠?yàn)槎嘣磾?shù)據(jù)歸一化提供技術(shù)支持。
關(guān)鍵詞:主數(shù)據(jù)管理驅(qū)動;多源數(shù)據(jù);數(shù)字化挖掘方法;歸一化技術(shù)
信息技術(shù)革命以來,數(shù)據(jù)迎來了爆炸式的增長,企業(yè)檔案屬于企業(yè)生產(chǎn)經(jīng)營管理活動中的符號,如何順應(yīng)時代潮流,更好地挖掘企業(yè)檔案數(shù)據(jù),對企業(yè)檔案工作人員來說是一個重要挑戰(zhàn)[1]。更好地挖掘企業(yè)檔案數(shù)據(jù),實(shí)現(xiàn)資源共享與流通,為企業(yè)未來制定多源信息資源規(guī)劃提供必要的理論支撐。如今,企業(yè)數(shù)據(jù)等多源數(shù)據(jù)的數(shù)字化挖掘逐漸受到重視,其已經(jīng)為許多領(lǐng)域的科學(xué)生產(chǎn)、管理、經(jīng)營和決策給出了依據(jù)和幫助[2]。利用統(tǒng)計(jì)方法挖掘出有用的統(tǒng)計(jì)規(guī)律等信息和知識,即統(tǒng)計(jì)方法挖掘知識。挖掘網(wǎng)絡(luò)訪問量的計(jì)算知識統(tǒng)計(jì)方法在網(wǎng)絡(luò)訪問中的應(yīng)用性很強(qiáng),魯棒性卻很低,容易出現(xiàn)挖掘數(shù)據(jù)遺漏、不全面、準(zhǔn)確率低等問題,在此基礎(chǔ)上,提出了主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法,通過在傳統(tǒng)數(shù)據(jù)數(shù)字化挖掘的基礎(chǔ)上,結(jié)合主數(shù)據(jù)管理驅(qū)動,使得多源數(shù)據(jù)信息獲取、儲存、分配等過程的準(zhǔn)確率以及運(yùn)行效率都得到顯著提高,具有很大的研究價值與實(shí)際應(yīng)用意義。
1主數(shù)據(jù)管理驅(qū)動挖掘原理
利用主數(shù)據(jù)驅(qū)動實(shí)現(xiàn)了多源數(shù)據(jù)的建模,并通過服務(wù)的方式向外部提供數(shù)據(jù)。作為該驅(qū)動的核心,具有實(shí)現(xiàn)異構(gòu)數(shù)據(jù)轉(zhuǎn)換、業(yè)務(wù)編排、業(yè)務(wù)路由、安全控制、業(yè)務(wù)監(jiān)控等功能[3-5]。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)中的多源數(shù)據(jù)受驅(qū)動方向雙向同步,而基于主數(shù)據(jù)驅(qū)動管理的業(yè)務(wù)系統(tǒng)通過ESB使用或發(fā)布服務(wù),由此適應(yīng)不同協(xié)議、標(biāo)準(zhǔn)化和成品使用。主數(shù)據(jù)管理驅(qū)動結(jié)構(gòu)如圖1所示。主數(shù)據(jù)驅(qū)動服務(wù)接口允許采用SOAP協(xié)議制,以此完成數(shù)據(jù)信息傳遞與分批處理。主數(shù)據(jù)管理驅(qū)動中樞基于業(yè)務(wù)流程管理平臺,可實(shí)現(xiàn)對主數(shù)據(jù)操作、治理、可視化展示[6-7]。
1.1基于適配器驅(qū)動數(shù)據(jù)傳遞
主數(shù)據(jù)管理驅(qū)動中的適配器,能夠改善現(xiàn)有數(shù)據(jù)的保存與管理問題,使數(shù)據(jù)分配處理,達(dá)到所有資源能夠全部被使用的目的[8-10]。主數(shù)據(jù)驅(qū)動中主單片機(jī)是整個適配器的核心,在主單片機(jī)上主要使用嵌入式操作系統(tǒng)的軟件業(yè)務(wù)程序,處理總線上下行數(shù)據(jù)挖掘。適配器驅(qū)動模塊結(jié)構(gòu)如圖2所示。信息處理平臺通過對收集到的原始信息進(jìn)行組織加工、分類整理,然后將原始信息劃分為相應(yīng)多源系統(tǒng)的各種資源列表,然后分別分配給多源數(shù)據(jù)驅(qū)動相應(yīng)數(shù)據(jù)庫[11-13]。信息發(fā)布模塊的任務(wù)主要是發(fā)布和查詢各種信息,在信息發(fā)布過程中,信息傳遞能力主要表現(xiàn)為服務(wù)方式的多樣化、服務(wù)功能的完備性、服務(wù)平臺的易用性和技術(shù)的維護(hù)能力[14]。這是適配器驅(qū)動模塊運(yùn)行的關(guān)鍵環(huán)節(jié),由此為多源數(shù)據(jù)提供數(shù)字化挖掘技術(shù)。
1.2基于接口器支配與處理數(shù)據(jù)
接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎(chǔ)。其能夠保證在多源數(shù)據(jù)數(shù)字化挖掘過程中,主數(shù)據(jù)的管理驅(qū)動對于多源數(shù)據(jù)的支配與處理的有效性,即保證了數(shù)據(jù)數(shù)字化挖掘的來源合理性。其工作原理是終止UN1,支撐A/D轉(zhuǎn)換和信號轉(zhuǎn)換,處理UN1承載路徑,完成UNI的測試和用戶界面的維護(hù)、管理和控制。接口器連接硬件介于使用者和硬件之間,設(shè)計(jì)彼此交互溝通的相關(guān)構(gòu)件,目的是使用戶能方便、高效地進(jìn)行硬件操作以達(dá)到雙向交互,完成相關(guān)工作任務(wù)。
2多源數(shù)據(jù)數(shù)字化挖掘
2.1基于克里格數(shù)據(jù)挖掘參數(shù)優(yōu)化
克里格方法是一種基于變異函數(shù)理論和結(jié)構(gòu)分析的空間局部估計(jì)方法[15-16],是一種在有限區(qū)域內(nèi)對區(qū)域化變量的聚類,對集合無偏最優(yōu)估計(jì)。此方法首先定義線性估計(jì)量:式(1)中,Z(xi)代表樣本數(shù)據(jù);Z#0(x)代表待估計(jì)值;λi代表各個樣點(diǎn)的權(quán)重,也叫做克里格系數(shù);∑i=1n+1λi=1;針對任意一個估計(jì)值,實(shí)際值與估計(jì)值之間均存在一定的誤差,Z#0(x)本質(zhì)上是Z0(x)的一種線性無偏最優(yōu)估計(jì);借助克里格算法進(jìn)行數(shù)據(jù)挖掘時,關(guān)鍵是克里格系數(shù)的確定,具體表示形式如下:式(2)矩陣K中,cij代表原尺度s中樣本i與樣本j間的協(xié)方差。通過克里格數(shù)據(jù)挖掘算法能夠得到數(shù)據(jù)挖掘的基本參數(shù)最優(yōu)化估計(jì)值,使得數(shù)據(jù)挖掘的信息準(zhǔn)確性得到保證,將數(shù)據(jù)最優(yōu)化后,選取、分析數(shù)據(jù)的繁瑣性降低,是多源數(shù)據(jù)數(shù)字化挖掘的基礎(chǔ)。
2.2數(shù)據(jù)挖掘流程設(shè)計(jì)
在保證挖掘參數(shù)優(yōu)化條件下,結(jié)合挖掘?qū)ο髥栴}空間和數(shù)據(jù)的獨(dú)立性,通過數(shù)據(jù)預(yù)處理、數(shù)據(jù)選擇、數(shù)據(jù)分析,判斷數(shù)據(jù)挖掘任務(wù),確定相關(guān)大數(shù)據(jù)估計(jì)研究方向。利用數(shù)據(jù)挖掘技術(shù),可以從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的相關(guān)數(shù)據(jù)集中提取知識信息,從而使大型數(shù)據(jù)庫具有豐富、可靠的知識歸納功能。數(shù)據(jù)挖掘流程如圖3所示。由圖3可知,先要有一個選擇過程,然后從這個挖掘任務(wù)需要挖掘的源數(shù)據(jù)庫中,根據(jù)服務(wù)用戶的需要和要求,提取出一組數(shù)據(jù)來進(jìn)行挖掘操作,這組數(shù)據(jù)是該挖掘任務(wù)中需要進(jìn)行的一系列挖掘操作的對象,如圖表中顯示的目標(biāo)數(shù)據(jù);但在第一個步驟中,選擇出的目標(biāo)數(shù)據(jù)并不一定就非常適合進(jìn)行挖掘操作,可能其中包含了一些噪聲,數(shù)據(jù)應(yīng)用的值有缺失或某些記錄有重復(fù)出現(xiàn)等,這時就需要對這些“臟數(shù)據(jù)”進(jìn)行一系列的預(yù)處理,如圖4所示。由圖4可知,處理“臟數(shù)據(jù)”后,將這些數(shù)據(jù)作為安全數(shù)據(jù)進(jìn)行挖掘操作,最后對前一個步驟中得到的安全數(shù)據(jù)按照挖掘任務(wù)所需格式轉(zhuǎn)換,將數(shù)據(jù)原類型轉(zhuǎn)換為方便操作處理的所需類型,由此完成多源數(shù)據(jù)數(shù)字化挖掘。
3實(shí)驗(yàn)
為每一個測試用戶配置客戶端PC,安裝測試瀏覽器軟件,采用IE內(nèi)核瀏覽器進(jìn)行系統(tǒng)訪問。在測試過程中,兼容性采用其他相關(guān)瀏覽器軟件進(jìn)行測試。將統(tǒng)計(jì)多源數(shù)據(jù)挖掘方法與主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法的挖掘精準(zhǔn)度對比分析。在測試數(shù)據(jù)選擇方面,同時采用真實(shí)業(yè)務(wù)數(shù)據(jù)和模擬數(shù)據(jù)的方式進(jìn)行測試,保證所測試的數(shù)據(jù)能夠滿足各種情況下的業(yè)務(wù)處理要求,從而保證數(shù)據(jù)管理工作的相關(guān)功能能夠適應(yīng)各種業(yè)務(wù)處理。
3.1實(shí)驗(yàn)參數(shù)
利用開放源代碼的性能測試平臺soapUI進(jìn)行測試分析,設(shè)置相關(guān)運(yùn)行參數(shù),通過soapUI對系統(tǒng)HTTP訪問成功率、響應(yīng)時間進(jìn)行分析,并對測試參數(shù)進(jìn)行如下配置:1)設(shè)置200個并發(fā)數(shù);2)測試時間設(shè)為8小時。安裝soapUITools,在服務(wù)器端設(shè)備上運(yùn)行并執(zhí)行測試。
3.2實(shí)驗(yàn)結(jié)果
在測試數(shù)據(jù)選擇方面,同時采用真實(shí)業(yè)務(wù)數(shù)據(jù)和模擬數(shù)據(jù)的方式進(jìn)行測試,保證所測試的數(shù)據(jù)能夠滿足各種情況下業(yè)務(wù)處理的要求。選擇8000個實(shí)際多源數(shù)據(jù),分別用統(tǒng)計(jì)挖掘方法與文中挖掘方法進(jìn)行實(shí)驗(yàn)分析。1)挖掘完整度將文獻(xiàn)[5]方法、文獻(xiàn)[6]方法與文中挖掘方法的數(shù)據(jù)挖掘完整度進(jìn)行對比分析,結(jié)果如表1所示。由表1可知,使用文中方法在檢測數(shù)據(jù)為4000個時,與實(shí)際值相差最大為326個。在檢測數(shù)據(jù)為2000個時,與實(shí)際值相差最小為40個,而其他方法與實(shí)際值差距較大,由此可知,主數(shù)據(jù)管理驅(qū)動挖掘方法數(shù)據(jù)挖掘完整度較高。2)挖掘精準(zhǔn)度將文獻(xiàn)[5]方法、文獻(xiàn)[6]方法與文中挖掘方法的數(shù)據(jù)挖掘精準(zhǔn)度進(jìn)行對比分析,結(jié)果如圖5所示。由圖5可知,在檢測數(shù)據(jù)為8000個時,使用主數(shù)據(jù)管理驅(qū)動挖掘方法達(dá)到最高挖掘精準(zhǔn)度95%,而其他方法的挖掘精度一直低于文中方法,由此可知,主數(shù)據(jù)管理驅(qū)動挖掘方法數(shù)據(jù)挖掘精準(zhǔn)度較高。
4結(jié)束語
針對挖掘全面性不強(qiáng)、數(shù)據(jù)挖掘精準(zhǔn)度低的問題,提出了主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法,利用主數(shù)據(jù)管理驅(qū)動、克里格數(shù)據(jù)挖掘算法實(shí)現(xiàn)多源數(shù)據(jù)數(shù)字化挖掘。利用主數(shù)據(jù)驅(qū)動管理,使企業(yè)檔案信息的獲取、存儲、分配等過程中的連接程度、準(zhǔn)確性和操作效率顯著提高,具有很大的研究價值和實(shí)際應(yīng)用價值。資源信息化建設(shè)一直是科學(xué)研究發(fā)展關(guān)注的重點(diǎn),但單獨(dú)針對多源數(shù)據(jù)數(shù)字化挖掘問題的研究卻是在當(dāng)今大數(shù)據(jù)背景下一次全新的挑戰(zhàn)。在資源獲取、信息集成整合以及數(shù)據(jù)應(yīng)用創(chuàng)新方面制定的可行性措施也并不一定適用于所有的數(shù)據(jù)處理模式,因此,在今后研究進(jìn)程中,多源數(shù)據(jù)的數(shù)字化挖掘研究過程需更加注重實(shí)用性、通用性的研究發(fā)展,以便適應(yīng)當(dāng)今社會的需求與發(fā)展。
作者:廖嘉煒 嚴(yán)俊斌 宋強(qiáng) 趙小凡 徐炫東 單位:廣東電網(wǎng)有限責(zé)任公司廣州供電局