伊人av无码a中文av狼人,伊人国产精品,为您缓解疲劳

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了主數(shù)據(jù)驅動下多源數(shù)據(jù)數(shù)字化挖掘探析范文，希望能給你帶來靈感和參考，敬請閱讀。

主數(shù)據(jù)驅動下多源數(shù)據(jù)數(shù)字化挖掘探析

摘要：多源數(shù)據(jù)挖掘過程中，由于缺少參數(shù)分析，導致數(shù)據(jù)挖掘不完整且精準度較低，為了解決這類問題，提出主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法。分析主數(shù)據(jù)管理驅動挖掘原理，通過適配器驅動模塊傳遞數(shù)據(jù)，借助接口器支配與處理數(shù)據(jù)。使用克里格數(shù)據(jù)挖掘算法調整參數(shù)并處理“臟數(shù)據(jù)”后，設計數(shù)據(jù)挖掘流程。實驗結果顯示，主數(shù)據(jù)管理驅動挖掘方法挖掘數(shù)量與實際值相差最小為40個，數(shù)據(jù)挖掘完整度較高。在檢測數(shù)據(jù)為8000個時，挖掘精準度達到95%，能夠為多源數(shù)據(jù)歸一化提供技術支持。

關鍵詞：主數(shù)據(jù)管理驅動；多源數(shù)據(jù)；數(shù)字化挖掘方法；歸一化技術

信息技術革命以來，數(shù)據(jù)迎來了爆炸式的增長，企業(yè)檔案屬于企業(yè)生產(chǎn)經(jīng)營管理活動中的符號，如何順應時代潮流，更好地挖掘企業(yè)檔案數(shù)據(jù)，對企業(yè)檔案工作人員來說是一個重要挑戰(zhàn)[1]。更好地挖掘企業(yè)檔案數(shù)據(jù)，實現(xiàn)資源共享與流通，為企業(yè)未來制定多源信息資源規(guī)劃提供必要的理論支撐。如今，企業(yè)數(shù)據(jù)等多源數(shù)據(jù)的數(shù)字化挖掘逐漸受到重視，其已經(jīng)為許多領域的科學生產(chǎn)、管理、經(jīng)營和決策給出了依據(jù)和幫助[2]。利用統(tǒng)計方法挖掘出有用的統(tǒng)計規(guī)律等信息和知識，即統(tǒng)計方法挖掘知識。挖掘網(wǎng)絡訪問量的計算知識統(tǒng)計方法在網(wǎng)絡訪問中的應用性很強，魯棒性卻很低，容易出現(xiàn)挖掘數(shù)據(jù)遺漏、不全面、準確率低等問題，在此基礎上，提出了主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法，通過在傳統(tǒng)數(shù)據(jù)數(shù)字化挖掘的基礎上，結合主數(shù)據(jù)管理驅動，使得多源數(shù)據(jù)信息獲取、儲存、分配等過程的準確率以及運行效率都得到顯著提高，具有很大的研究價值與實際應用意義。

1主數(shù)據(jù)管理驅動挖掘原理

利用主數(shù)據(jù)驅動實現(xiàn)了多源數(shù)據(jù)的建模，并通過服務的方式向外部提供數(shù)據(jù)。作為該驅動的核心，具有實現(xiàn)異構數(shù)據(jù)轉換、業(yè)務編排、業(yè)務路由、安全控制、業(yè)務監(jiān)控等功能[3-5]。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)中的多源數(shù)據(jù)受驅動方向雙向同步，而基于主數(shù)據(jù)驅動管理的業(yè)務系統(tǒng)通過ESB使用或發(fā)布服務，由此適應不同協(xié)議、標準化和成品使用。主數(shù)據(jù)管理驅動結構如圖1所示。主數(shù)據(jù)驅動服務接口允許采用SOAP協(xié)議制，以此完成數(shù)據(jù)信息傳遞與分批處理。主數(shù)據(jù)管理驅動中樞基于業(yè)務流程管理平臺，可實現(xiàn)對主數(shù)據(jù)操作、治理、可視化展示[6-7]。

1.1基于適配器驅動數(shù)據(jù)傳遞

主數(shù)據(jù)管理驅動中的適配器，能夠改善現(xiàn)有數(shù)據(jù)的保存與管理問題，使數(shù)據(jù)分配處理，達到所有資源能夠全部被使用的目的[8-10]。主數(shù)據(jù)驅動中主單片機是整個適配器的核心，在主單片機上主要使用嵌入式操作系統(tǒng)的軟件業(yè)務程序,處理總線上下行數(shù)據(jù)挖掘。適配器驅動模塊結構如圖2所示。信息處理平臺通過對收集到的原始信息進行組織加工、分類整理，然后將原始信息劃分為相應多源系統(tǒng)的各種資源列表，然后分別分配給多源數(shù)據(jù)驅動相應數(shù)據(jù)庫[11-13]。信息發(fā)布模塊的任務主要是發(fā)布和查詢各種信息，在信息發(fā)布過程中，信息傳遞能力主要表現(xiàn)為服務方式的多樣化、服務功能的完備性、服務平臺的易用性和技術的維護能力[14]。這是適配器驅動模塊運行的關鍵環(huán)節(jié)，由此為多源數(shù)據(jù)提供數(shù)字化挖掘技術。

1.2基于接口器支配與處理數(shù)據(jù)

接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎。其能夠保證在多源數(shù)據(jù)數(shù)字化挖掘過程中，主數(shù)據(jù)的管理驅動對于多源數(shù)據(jù)的支配與處理的有效性，即保證了數(shù)據(jù)數(shù)字化挖掘的來源合理性。其工作原理是終止UN1，支撐A/D轉換和信號轉換，處理UN1承載路徑，完成UNI的測試和用戶界面的維護、管理和控制。接口器連接硬件介于使用者和硬件之間，設計彼此交互溝通的相關構件，目的是使用戶能方便、高效地進行硬件操作以達到雙向交互，完成相關工作任務。

2多源數(shù)據(jù)數(shù)字化挖掘

2.1基于克里格數(shù)據(jù)挖掘參數(shù)優(yōu)化

克里格方法是一種基于變異函數(shù)理論和結構分析的空間局部估計方法[15-16]，是一種在有限區(qū)域內對區(qū)域化變量的聚類，對集合無偏最優(yōu)估計。此方法首先定義線性估計量：式（1）中，Z(xi)代表樣本數(shù)據(jù)；Z#0(x)代表待估計值；λi代表各個樣點的權重，也叫做克里格系數(shù)；∑i=1n+1λi=1；針對任意一個估計值，實際值與估計值之間均存在一定的誤差，Z#0(x)本質上是Z0(x)的一種線性無偏最優(yōu)估計；借助克里格算法進行數(shù)據(jù)挖掘時，關鍵是克里格系數(shù)的確定，具體表示形式如下：式（2）矩陣K中，cij代表原尺度s中樣本i與樣本j間的協(xié)方差。通過克里格數(shù)據(jù)挖掘算法能夠得到數(shù)據(jù)挖掘的基本參數(shù)最優(yōu)化估計值，使得數(shù)據(jù)挖掘的信息準確性得到保證，將數(shù)據(jù)最優(yōu)化后，選取、分析數(shù)據(jù)的繁瑣性降低，是多源數(shù)據(jù)數(shù)字化挖掘的基礎。

2.2數(shù)據(jù)挖掘流程設計

在保證挖掘參數(shù)優(yōu)化條件下，結合挖掘對象問題空間和數(shù)據(jù)的獨立性，通過數(shù)據(jù)預處理、數(shù)據(jù)選擇、數(shù)據(jù)分析，判斷數(shù)據(jù)挖掘任務，確定相關大數(shù)據(jù)估計研究方向。利用數(shù)據(jù)挖掘技術，可以從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的相關數(shù)據(jù)集中提取知識信息，從而使大型數(shù)據(jù)庫具有豐富、可靠的知識歸納功能。數(shù)據(jù)挖掘流程如圖3所示。由圖3可知，先要有一個選擇過程，然后從這個挖掘任務需要挖掘的源數(shù)據(jù)庫中，根據(jù)服務用戶的需要和要求，提取出一組數(shù)據(jù)來進行挖掘操作，這組數(shù)據(jù)是該挖掘任務中需要進行的一系列挖掘操作的對象，如圖表中顯示的目標數(shù)據(jù)；但在第一個步驟中，選擇出的目標數(shù)據(jù)并不一定就非常適合進行挖掘操作，可能其中包含了一些噪聲，數(shù)據(jù)應用的值有缺失或某些記錄有重復出現(xiàn)等，這時就需要對這些“臟數(shù)據(jù)”進行一系列的預處理，如圖4所示。由圖4可知，處理“臟數(shù)據(jù)”后，將這些數(shù)據(jù)作為安全數(shù)據(jù)進行挖掘操作，最后對前一個步驟中得到的安全數(shù)據(jù)按照挖掘任務所需格式轉換，將數(shù)據(jù)原類型轉換為方便操作處理的所需類型，由此完成多源數(shù)據(jù)數(shù)字化挖掘。

3實驗

為每一個測試用戶配置客戶端PC，安裝測試瀏覽器軟件，采用IE內核瀏覽器進行系統(tǒng)訪問。在測試過程中，兼容性采用其他相關瀏覽器軟件進行測試。將統(tǒng)計多源數(shù)據(jù)挖掘方法與主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法的挖掘精準度對比分析。在測試數(shù)據(jù)選擇方面，同時采用真實業(yè)務數(shù)據(jù)和模擬數(shù)據(jù)的方式進行測試，保證所測試的數(shù)據(jù)能夠滿足各種情況下的業(yè)務處理要求，從而保證數(shù)據(jù)管理工作的相關功能能夠適應各種業(yè)務處理。

3.1實驗參數(shù)

利用開放源代碼的性能測試平臺soapUI進行測試分析，設置相關運行參數(shù)，通過soapUI對系統(tǒng)HTTP訪問成功率、響應時間進行分析，并對測試參數(shù)進行如下配置：1）設置200個并發(fā)數(shù)；2）測試時間設為8小時。安裝soapUITools，在服務器端設備上運行并執(zhí)行測試。

3.2實驗結果

在測試數(shù)據(jù)選擇方面，同時采用真實業(yè)務數(shù)據(jù)和模擬數(shù)據(jù)的方式進行測試，保證所測試的數(shù)據(jù)能夠滿足各種情況下業(yè)務處理的要求。選擇8000個實際多源數(shù)據(jù)，分別用統(tǒng)計挖掘方法與文中挖掘方法進行實驗分析。1）挖掘完整度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數(shù)據(jù)挖掘完整度進行對比分析，結果如表1所示。由表1可知，使用文中方法在檢測數(shù)據(jù)為4000個時，與實際值相差最大為326個。在檢測數(shù)據(jù)為2000個時，與實際值相差最小為40個，而其他方法與實際值差距較大，由此可知，主數(shù)據(jù)管理驅動挖掘方法數(shù)據(jù)挖掘完整度較高。2）挖掘精準度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數(shù)據(jù)挖掘精準度進行對比分析，結果如圖5所示。由圖5可知，在檢測數(shù)據(jù)為8000個時，使用主數(shù)據(jù)管理驅動挖掘方法達到最高挖掘精準度95%，而其他方法的挖掘精度一直低于文中方法，由此可知，主數(shù)據(jù)管理驅動挖掘方法數(shù)據(jù)挖掘精準度較高。

4結束語

針對挖掘全面性不強、數(shù)據(jù)挖掘精準度低的問題，提出了主數(shù)據(jù)管理驅動下多源數(shù)據(jù)數(shù)字化挖掘方法，利用主數(shù)據(jù)管理驅動、克里格數(shù)據(jù)挖掘算法實現(xiàn)多源數(shù)據(jù)數(shù)字化挖掘。利用主數(shù)據(jù)驅動管理，使企業(yè)檔案信息的獲取、存儲、分配等過程中的連接程度、準確性和操作效率顯著提高，具有很大的研究價值和實際應用價值。資源信息化建設一直是科學研究發(fā)展關注的重點，但單獨針對多源數(shù)據(jù)數(shù)字化挖掘問題的研究卻是在當今大數(shù)據(jù)背景下一次全新的挑戰(zhàn)。在資源獲取、信息集成整合以及數(shù)據(jù)應用創(chuàng)新方面制定的可行性措施也并不一定適用于所有的數(shù)據(jù)處理模式，因此，在今后研究進程中，多源數(shù)據(jù)的數(shù)字化挖掘研究過程需更加注重實用性、通用性的研究發(fā)展，以便適應當今社會的需求與發(fā)展。

作者:廖嘉煒嚴俊斌宋強趙小凡徐炫東單位:廣東電網(wǎng)有限責任公司廣州供電局

主數(shù)據(jù)驅動下多源數(shù)據(jù)數(shù)字化挖掘探析

免责声明

AI写作，高效原创

相關文章閱讀

相關期刊推薦

數(shù)據(jù)

大數(shù)據(jù)

中國科學數(shù)據(jù)

大數(shù)據(jù)時代

數(shù)據(jù)法學

精選范文推薦