公務員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)下計算機信息數(shù)據(jù)處理技術淺析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下計算機信息數(shù)據(jù)處理技術淺析范文,希望能給你帶來靈感和參考,敬請閱讀。

大數(shù)據(jù)下計算機信息數(shù)據(jù)處理技術淺析

摘要:通過圍繞計算機數(shù)據(jù)信息處理的任務,借助于后臺服務器、數(shù)據(jù)庫、存儲單元等硬件設施,以及Hadoop文件系統(tǒng)架構、SOA服務體系、HDFS分布式存儲等大數(shù)據(jù)技術,進行計算機數(shù)據(jù)信息處理系統(tǒng)的建構,提供虛擬機資源調(diào)度、分布式數(shù)據(jù)計算、任務處理等服務,來完成海量化數(shù)據(jù)資源的搜集、處理與存儲。

關鍵詞:大數(shù)據(jù);信息數(shù)據(jù)處理;網(wǎng)絡架構

1大數(shù)據(jù)技術的主要內(nèi)容概述

當前常用的大數(shù)據(jù)技術,包括Hadoop文件系統(tǒng)架構、SOA服務體系、HDFS分布式存儲等。其中Hadoop分布式數(shù)據(jù)處理架構,屬于大數(shù)據(jù)云計算系統(tǒng)的平臺即服務層,包括Collect(匯總)、Map(映射)、Reduce(歸約)等組成部分,主要秉持著先進先出的動態(tài)化任務調(diào)度理念。針對已搜集的海量化數(shù)據(jù)信息,利用Map映射函數(shù)建立兩組數(shù)據(jù)的映射規(guī)則,并向多個主節(jié)點、從節(jié)點的任務處理需求,動態(tài)分配虛擬主機,實現(xiàn)某一數(shù)據(jù)類型的映射、歸約操作。之后SOA服務體系為面向服務的組件模型,通常包含服務工作流、服務接口、服務注冊、服務訪問和服務查找等組件。該服務架構通過TCP/IP網(wǎng)絡通信協(xié)議、定義的I/O接口,將某一應用程序的多個功能服務單元進行連接,并將多個分布式的服務組件進行封裝,為用戶提供需要的Web數(shù)據(jù)發(fā)送與接收、業(yè)務處理等的服務[1]。最后,HDFS分布式存儲是以分布式形式,對互聯(lián)網(wǎng)中海量化的數(shù)據(jù)信息作出存儲,主要包括數(shù)據(jù)資源管理、存儲等節(jié)點。HDFS的存儲單元為每個數(shù)據(jù)塊(block),而數(shù)據(jù)節(jié)點(DataNode)、元數(shù)據(jù)節(jié)點(Namenode)負責數(shù)據(jù)信息的寫入和讀出,其中數(shù)據(jù)塊的單個最小存儲單位是64Mbits。在HDFS文件系統(tǒng)HDFS框架的中心服務器,收到外部客戶端的數(shù)據(jù)訪問請求后,可以通過數(shù)據(jù)節(jié)點、元數(shù)據(jù)節(jié)點對數(shù)據(jù)訪問、目錄創(chuàng)建和數(shù)據(jù)存儲等作出控制,實現(xiàn)對不同數(shù)據(jù)資源的處理與存儲。

2大數(shù)據(jù)計算機信息處理的多層網(wǎng)絡架構

基于大數(shù)據(jù)及云計算技術的計算機信息處理系統(tǒng),通常為包含基礎硬件設備、資源虛擬化硬件、用戶與映像管理、SOA服務體系的多層網(wǎng)絡架構,不同層級分別負責不同的硬件支持、任務響應、數(shù)據(jù)處理與存儲工作[2]。1)硬件設施資源層。物理資源層為多層網(wǎng)絡架構的最底層,包括計算機、后臺服務器、數(shù)據(jù)庫、存儲器和網(wǎng)絡交換機等硬件設備,不同設備之間經(jīng)由定義的I/O接口進行連接,來為網(wǎng)絡資源虛擬化池、虛擬化計算機的建構提供支持。2)資源虛擬化層。資源虛擬化層是依托于后臺服務器,對多臺計算機主機、數(shù)據(jù)信息服務硬件等進行虛擬化,該層級存在網(wǎng)絡資源池、數(shù)據(jù)資源池、存儲與計算資源池等組成部分。在任務管理中間層收到前端用戶,發(fā)送的web網(wǎng)絡訪問、數(shù)據(jù)處理與存儲請求后,會充分借助資源虛擬化層的分布式虛擬硬件,為不同用戶任務執(zhí)行匹配合適的虛擬化硬件資源。3)映像與用戶管理層。映像與用戶管理層是負責不同數(shù)據(jù)之間映像、映射規(guī)則建立,以及用戶權限、任務請求管理的層級。其中用戶管理包括用戶身份、用戶許可、用戶請求等的管理模塊;映像管理包括映像創(chuàng)建、映像部署、映像庫管理和映像周期管理等組成模塊,負責對后臺服務器端搜集的數(shù)據(jù)信息,建立起兩組數(shù)據(jù)的映射規(guī)則,并作出映像周期的合理控制[3]。4)SOA服務體系層。SOA體系是是一種精確定義接口、松耦合的服務架構,包含服務工作流、服務接口、服務注冊、服務訪問和服務查找等組件結(jié)構。多種服務組件為即插即用的排布方式,也即可以先進行用戶安全檢查、再作服務處理與管理,也可以按相反順序執(zhí)行服務,多種服務執(zhí)行有明確的接口定義、業(yè)務代碼。

3計算機數(shù)據(jù)信息處理涉及到的大數(shù)據(jù)關鍵技術

3.1數(shù)據(jù)挖掘技術

大數(shù)據(jù)挖掘技術是對網(wǎng)絡海量數(shù)據(jù)資源,進行快速收集、篩選、處理與存取的技術,通常利用關聯(lián)分析、聚類分析等的數(shù)據(jù)挖掘算法,對存在關聯(lián)性的、有價值的數(shù)據(jù)內(nèi)容作出挖掘。當前網(wǎng)絡數(shù)據(jù)信息處理中用到的大數(shù)據(jù)挖掘技術,包含數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)評估等內(nèi)容,各功能模塊分別負責多個數(shù)據(jù)挖掘步驟的執(zhí)行。

3.2分布式計算技術

分布式計算為多種Agent技術、Webservice技術等融合的計算技術,其可以通過中間件為不同數(shù)據(jù)傳輸與處理、軟件應用執(zhí)行提供支持。在利用分布式計算技術對海量數(shù)據(jù)信息進行處理過程中,會將復雜的數(shù)據(jù)處理步驟,分解為若干個小的軟件處理任務,再依托于虛擬化計算機硬件資源,多多種數(shù)據(jù)處理任務分配相應的元數(shù)據(jù)節(jié)點,不同節(jié)點負責特定的資源調(diào)度、分布式任務執(zhí)行,因而使用虛擬機進行數(shù)據(jù)批量處理的效率更高、成本更低。

4大數(shù)據(jù)技術在計算機數(shù)據(jù)處理中的應用流程研究

4.1數(shù)據(jù)采集

大數(shù)據(jù)技術支持下的數(shù)據(jù)信息處理系統(tǒng),包括數(shù)據(jù)采集、數(shù)據(jù)讀取、數(shù)據(jù)預處理、虛擬化資源調(diào)動、數(shù)據(jù)分析等的執(zhí)行流程,其分布式數(shù)據(jù)處理的組成架構如圖1所示。當前局域網(wǎng)絡中的計算機數(shù)據(jù)信息采集,通常涉及經(jīng)營資本、財務流轉(zhuǎn)、業(yè)務執(zhí)行和人力資源管理等的數(shù)據(jù),特別在大量臨時文件、數(shù)字文檔或日志信息采集的過程中,需要先驗證信息來源的安全性準確性?;贖adoop分布式文件系統(tǒng)的數(shù)據(jù)信息采集模塊,主要利用Sqoop、Flume等數(shù)據(jù)采集工具,進行網(wǎng)絡海量化數(shù)據(jù)資源的采集,再使用SQL語句將現(xiàn)有數(shù)據(jù)信息,傳輸至后臺服務器、數(shù)據(jù)庫的硬件端口。

4.2數(shù)據(jù)處理

數(shù)據(jù)預處理模塊通常采取均值法、平滑法等處理方式,對廣域網(wǎng)或局域網(wǎng)的網(wǎng)絡空間中,存在的錯誤、冗余度高數(shù)據(jù)信息作出處理,主動過濾掉帶有噪聲的、重復性的、空值的數(shù)據(jù),對網(wǎng)絡數(shù)據(jù)預處理的計算公式為R=Qq+Ww+Ee。在完成企事業(yè)單位的數(shù)據(jù)信息采集后,可以依托大數(shù)據(jù)云服務平臺的虛擬化資源池,設置設置時間系數(shù)Q、負荷系數(shù)W、緩存系數(shù)E,并設定時間系數(shù)Q的A1、A2和A3預設值,以及負荷系數(shù)W的B1、B2和B3預設值,緩存系數(shù)E的C1、C2和C3預設值。然后根據(jù)虛擬化資源池中不同數(shù)據(jù)處理任務的不同權重,分配預設值q、w和e(q<w﹤e)。將多種數(shù)據(jù)信息的處理任務代入以上公式,得出海量大數(shù)據(jù)的與處理結(jié)果,并將數(shù)據(jù)處理的R值與原始預設值r作比較,若R≤r則生成并輸出正常的數(shù)據(jù)處理信號。

4.3虛擬化資源任務調(diào)度

整個大數(shù)據(jù)信息處理過程中的虛擬化資源調(diào)度,主要針對不同數(shù)據(jù)信息的業(yè)務處理需求,選擇合適的分布式算法、網(wǎng)格算法等模型,在邏輯或物理操作層,向不同任務分配特定的虛擬化節(jié)點,進行用戶訪問管理、數(shù)據(jù)映射及處理的功能執(zhí)行。虛擬資源管理、任務分配,主要對虛擬機負載、故障情況進行監(jiān)測與統(tǒng)計,來保障虛擬資源運行的負載均衡與安全。該任務調(diào)度的執(zhí)行流程為:將m個任務(Task),調(diào)度到n個元數(shù)據(jù)節(jié)點進行執(zhí)行,假定設置單個任務執(zhí)行時間為TET(TaskExecutionTime),則第i個任務在第j個資源中的執(zhí)行時間為:CET(i,j)=starttime(j)+TET(i,j)在資源虛擬化硬件中,所有數(shù)據(jù)信息處理任務執(zhí)行完成的總時間為:T=min{T1,T2,T3,…,Ti}4.4數(shù)據(jù)分析數(shù)據(jù)分析是對挖掘到的數(shù)據(jù)處理、任務執(zhí)行結(jié)果,進行全方位的價值評估。在映像與用戶管理層完成用戶身份、權限與網(wǎng)絡安全的審查后,由SOA服務體系層發(fā)送傳輸?shù)臄?shù)據(jù)信息處理信號,保證整個數(shù)據(jù)分析流程的安全穩(wěn)定性。當后臺服務器的虛擬化網(wǎng)絡系統(tǒng),接收到傳送的數(shù)據(jù)信息處理信號后,從虛擬控制器模塊讀取、提取出某一時間段內(nèi)的數(shù)據(jù)信息,存儲于后臺數(shù)據(jù)庫、模塊化存儲單元等設備中,以便于不同管理主體對數(shù)據(jù)的訪問、調(diào)用和共享。

5結(jié)語

大數(shù)據(jù)資源整合、云服務信息處理時代的到來,使得不同企事業(yè)單位都開始利用大數(shù)據(jù)技術、云計算服務平臺,進行內(nèi)部數(shù)據(jù)收集與傳輸、業(yè)務處理活動的開展。因此,依托后臺服務器、網(wǎng)絡云平臺的分布式計算技術,大數(shù)據(jù)云服務系統(tǒng)可針對多種數(shù)據(jù)信息處理、虛擬計算機運行負載等的任務,進行用戶身份驗證、數(shù)據(jù)處理與傳輸審計的安全管理,以及實時任務執(zhí)行監(jiān)測、故障統(tǒng)計,完成多種分布式計算、數(shù)據(jù)分類存儲與管理的工作,以保證系統(tǒng)運行的安全性。

參考文獻

[1]羅田琪.大數(shù)據(jù)時代背景下計算機信息處理技術的分析[J].電子元器件與信息技術,2021(1):64-65.

[2]熊殿華.基于計算機數(shù)據(jù)處理接口程序的應用研究[J].西安文理學院學報(自然科學版),2016(4):31-33.

[3]邱火旺,陳文富.大數(shù)據(jù)技術的應用難點與問題分析[J].電腦編程技巧與維護,2019(5):83-84;113.

作者:孫宇軒 單位:韶關學院信息工程學院