网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務員期刊網(wǎng) 論文中心 正文

主數(shù)據(jù)驅動下多源數(shù)據(jù)數(shù)字化挖掘探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了主數(shù)據(jù)驅動下多源數(shù)據(jù)數(shù)字化挖掘探析范文,希望能給你帶來靈感和參考,敬請閱讀。

主數(shù)據(jù)驅動下多源數(shù)據(jù)數(shù)字化挖掘探析

摘要:多源數(shù)據(jù)挖掘過程中,由于缺少參數(shù)分析,導致數(shù)據(jù)挖掘不完整且精準度較低,為了解決這類問題,提出主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法。分析主數(shù)據(jù)管理驅動挖掘原理,通過適配器驅動模塊傳遞數(shù)據(jù),借助接口器支配與處理數(shù)據(jù)。使用克里格數(shù)據(jù)挖掘算法調整參數(shù)并處理“臟數(shù)據(jù)”后,設計數(shù)據(jù)挖掘流程。實驗結果顯示,主數(shù)據(jù)管理驅動挖掘方法挖掘數(shù)量與實際值相差最小為40個,數(shù)據(jù)挖掘完整度較高。在檢測數(shù)據(jù)為8000個時,挖掘精準度達到95%,能夠為多源數(shù)據(jù)歸一化提供技術支持。

關鍵詞:主數(shù)據(jù)管理驅動;多源數(shù)據(jù);數(shù)字化挖掘方法;歸一化技術

信息技術革命以來,數(shù)據(jù)迎來了爆炸式的增長,企業(yè)檔案屬于企業(yè)生產(chǎn)經(jīng)營管理活動中的符號,如何順應時代潮流,更好地挖掘企業(yè)檔案數(shù)據(jù),對企業(yè)檔案工作人員來說是一個重要挑戰(zhàn)[1]。更好地挖掘企業(yè)檔案數(shù)據(jù),實現(xiàn)資源共享與流通,為企業(yè)未來制定多源信息資源規(guī)劃提供必要的理論支撐。如今,企業(yè)數(shù)據(jù)等多源數(shù)據(jù)的數(shù)字化挖掘逐漸受到重視,其已經(jīng)為許多領域的科學生產(chǎn)、管理、經(jīng)營和決策給出了依據(jù)和幫助[2]。利用統(tǒng)計方法挖掘出有用的統(tǒng)計規(guī)律等信息和知識,即統(tǒng)計方法挖掘知識。挖掘網(wǎng)絡訪問量的計算知識統(tǒng)計方法在網(wǎng)絡訪問中的應用性很強,魯棒性卻很低,容易出現(xiàn)挖掘數(shù)據(jù)遺漏、不全面、準確率低等問題,在此基礎上,提出了主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法,通過在傳統(tǒng)數(shù)據(jù)數(shù)字化挖掘的基礎上,結合主數(shù)據(jù)管理驅動,使得多源數(shù)據(jù)信息獲取、儲存、分配等過程的準確率以及運行效率都得到顯著提高,具有很大的研究價值與實際應用意義。

1主數(shù)據(jù)管理驅動挖掘原理

利用主數(shù)據(jù)驅動實現(xiàn)了多源數(shù)據(jù)的建模,并通過服務的方式向外部提供數(shù)據(jù)。作為該驅動的核心,具有實現(xiàn)異構數(shù)據(jù)轉換、業(yè)務編排、業(yè)務路由、安全控制、業(yè)務監(jiān)控等功能[3-5]。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)中的多源數(shù)據(jù)受驅動方向雙向同步,而基于主數(shù)據(jù)驅動管理的業(yè)務系統(tǒng)通過ESB使用或發(fā)布服務,由此適應不同協(xié)議、標準化和成品使用。主數(shù)據(jù)管理驅動結構如圖1所示。主數(shù)據(jù)驅動服務接口允許采用SOAP協(xié)議制,以此完成數(shù)據(jù)信息傳遞與分批處理。主數(shù)據(jù)管理驅動中樞基于業(yè)務流程管理平臺,可實現(xiàn)對主數(shù)據(jù)操作、治理、可視化展示[6-7]。

1.1基于適配器驅動數(shù)據(jù)傳遞

主數(shù)據(jù)管理驅動中的適配器,能夠改善現(xiàn)有數(shù)據(jù)的保存與管理問題,使數(shù)據(jù)分配處理,達到所有資源能夠全部被使用的目的[8-10]。主數(shù)據(jù)驅動中主單片機是整個適配器的核心,在主單片機上主要使用嵌入式操作系統(tǒng)的軟件業(yè)務程序,處理總線上下行數(shù)據(jù)挖掘。適配器驅動模塊結構如圖2所示。信息處理平臺通過對收集到的原始信息進行組織加工、分類整理,然后將原始信息劃分為相應多源系統(tǒng)的各種資源列表,然后分別分配給多源數(shù)據(jù)驅動相應數(shù)據(jù)庫[11-13]。信息發(fā)布模塊的任務主要是發(fā)布和查詢各種信息,在信息發(fā)布過程中,信息傳遞能力主要表現(xiàn)為服務方式的多樣化、服務功能的完備性、服務平臺的易用性和技術的維護能力[14]。這是適配器驅動模塊運行的關鍵環(huán)節(jié),由此為多源數(shù)據(jù)提供數(shù)字化挖掘技術。

1.2基于接口器支配與處理數(shù)據(jù)

接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎。其能夠保證在多源數(shù)據(jù)數(shù)字化挖掘過程中,主數(shù)據(jù)的管理驅動對于多源數(shù)據(jù)的支配與處理的有效性,即保證了數(shù)據(jù)數(shù)字化挖掘的來源合理性。其工作原理是終止UN1,支撐A/D轉換和信號轉換,處理UN1承載路徑,完成UNI的測試和用戶界面的維護、管理和控制。接口器連接硬件介于使用者和硬件之間,設計彼此交互溝通的相關構件,目的是使用戶能方便、高效地進行硬件操作以達到雙向交互,完成相關工作任務。

2多源數(shù)據(jù)數(shù)字化挖掘

2.1基于克里格數(shù)據(jù)挖掘參數(shù)優(yōu)化

克里格方法是一種基于變異函數(shù)理論和結構分析的空間局部估計方法[15-16],是一種在有限區(qū)域內對區(qū)域化變量的聚類,對集合無偏最優(yōu)估計。此方法首先定義線性估計量:式(1)中,Z(xi)代表樣本數(shù)據(jù);Z#0(x)代表待估計值;λi代表各個樣點的權重,也叫做克里格系數(shù);∑i=1n+1λi=1;針對任意一個估計值,實際值與估計值之間均存在一定的誤差,Z#0(x)本質上是Z0(x)的一種線性無偏最優(yōu)估計;借助克里格算法進行數(shù)據(jù)挖掘時,關鍵是克里格系數(shù)的確定,具體表示形式如下:式(2)矩陣K中,cij代表原尺度s中樣本i與樣本j間的協(xié)方差。通過克里格數(shù)據(jù)挖掘算法能夠得到數(shù)據(jù)挖掘的基本參數(shù)最優(yōu)化估計值,使得數(shù)據(jù)挖掘的信息準確性得到保證,將數(shù)據(jù)最優(yōu)化后,選取、分析數(shù)據(jù)的繁瑣性降低,是多源數(shù)據(jù)數(shù)字化挖掘的基礎。

2.2數(shù)據(jù)挖掘流程設計

在保證挖掘參數(shù)優(yōu)化條件下,結合挖掘對象問題空間和數(shù)據(jù)的獨立性,通過數(shù)據(jù)預處理、數(shù)據(jù)選擇、數(shù)據(jù)分析,判斷數(shù)據(jù)挖掘任務,確定相關大數(shù)據(jù)估計研究方向。利用數(shù)據(jù)挖掘技術,可以從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的相關數(shù)據(jù)集中提取知識信息,從而使大型數(shù)據(jù)庫具有豐富、可靠的知識歸納功能。數(shù)據(jù)挖掘流程如圖3所示。由圖3可知,先要有一個選擇過程,然后從這個挖掘任務需要挖掘的源數(shù)據(jù)庫中,根據(jù)服務用戶的需要和要求,提取出一組數(shù)據(jù)來進行挖掘操作,這組數(shù)據(jù)是該挖掘任務中需要進行的一系列挖掘操作的對象,如圖表中顯示的目標數(shù)據(jù);但在第一個步驟中,選擇出的目標數(shù)據(jù)并不一定就非常適合進行挖掘操作,可能其中包含了一些噪聲,數(shù)據(jù)應用的值有缺失或某些記錄有重復出現(xiàn)等,這時就需要對這些“臟數(shù)據(jù)”進行一系列的預處理,如圖4所示。由圖4可知,處理“臟數(shù)據(jù)”后,將這些數(shù)據(jù)作為安全數(shù)據(jù)進行挖掘操作,最后對前一個步驟中得到的安全數(shù)據(jù)按照挖掘任務所需格式轉換,將數(shù)據(jù)原類型轉換為方便操作處理的所需類型,由此完成多源數(shù)據(jù)數(shù)字化挖掘。

3實驗

為每一個測試用戶配置客戶端PC,安裝測試瀏覽器軟件,采用IE內核瀏覽器進行系統(tǒng)訪問。在測試過程中,兼容性采用其他相關瀏覽器軟件進行測試。將統(tǒng)計多源數(shù)據(jù)挖掘方法與主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法的挖掘精準度對比分析。在測試數(shù)據(jù)選擇方面,同時采用真實業(yè)務數(shù)據(jù)和模擬數(shù)據(jù)的方式進行測試,保證所測試的數(shù)據(jù)能夠滿足各種情況下的業(yè)務處理要求,從而保證數(shù)據(jù)管理工作的相關功能能夠適應各種業(yè)務處理。

3.1實驗參數(shù)

利用開放源代碼的性能測試平臺soapUI進行測試分析,設置相關運行參數(shù),通過soapUI對系統(tǒng)HTTP訪問成功率、響應時間進行分析,并對測試參數(shù)進行如下配置:1)設置200個并發(fā)數(shù);2)測試時間設為8小時。安裝soapUITools,在服務器端設備上運行并執(zhí)行測試。

3.2實驗結果

在測試數(shù)據(jù)選擇方面,同時采用真實業(yè)務數(shù)據(jù)和模擬數(shù)據(jù)的方式進行測試,保證所測試的數(shù)據(jù)能夠滿足各種情況下業(yè)務處理的要求。選擇8000個實際多源數(shù)據(jù),分別用統(tǒng)計挖掘方法與文中挖掘方法進行實驗分析。1)挖掘完整度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數(shù)據(jù)挖掘完整度進行對比分析,結果如表1所示。由表1可知,使用文中方法在檢測數(shù)據(jù)為4000個時,與實際值相差最大為326個。在檢測數(shù)據(jù)為2000個時,與實際值相差最小為40個,而其他方法與實際值差距較大,由此可知,主數(shù)據(jù)管理驅動挖掘方法數(shù)據(jù)挖掘完整度較高。2)挖掘精準度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數(shù)據(jù)挖掘精準度進行對比分析,結果如圖5所示。由圖5可知,在檢測數(shù)據(jù)為8000個時,使用主數(shù)據(jù)管理驅動挖掘方法達到最高挖掘精準度95%,而其他方法的挖掘精度一直低于文中方法,由此可知,主數(shù)據(jù)管理驅動挖掘方法數(shù)據(jù)挖掘精準度較高。

4結束語

針對挖掘全面性不強、數(shù)據(jù)挖掘精準度低的問題,提出了主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法,利用主數(shù)據(jù)管理驅動、克里格數(shù)據(jù)挖掘算法實現(xiàn)多源數(shù)據(jù)數(shù)字化挖掘。利用主數(shù)據(jù)驅動管理,使企業(yè)檔案信息的獲取、存儲、分配等過程中的連接程度、準確性和操作效率顯著提高,具有很大的研究價值和實際應用價值。資源信息化建設一直是科學研究發(fā)展關注的重點,但單獨針對多源數(shù)據(jù)數(shù)字化挖掘問題的研究卻是在當今大數(shù)據(jù)背景下一次全新的挑戰(zhàn)。在資源獲取、信息集成整合以及數(shù)據(jù)應用創(chuàng)新方面制定的可行性措施也并不一定適用于所有的數(shù)據(jù)處理模式,因此,在今后研究進程中,多源數(shù)據(jù)的數(shù)字化挖掘研究過程需更加注重實用性、通用性的研究發(fā)展,以便適應當今社會的需求與發(fā)展。

作者:廖嘉煒 嚴俊斌 宋強 趙小凡 徐炫東 單位:廣東電網(wǎng)有限責任公司廣州供電局

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
精選范文推薦
文秘服务 AI帮写作 润色服务 论文发表