前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘總結(jié)主題范文,僅供參考,歡迎閱讀并收藏。
數(shù)據(jù)挖掘技術在商品銷售領域得到了越來越廣泛的應用。商品銷售者不僅明白搜集顧客數(shù)據(jù)的重要性,而且意識到真正的目的在于能夠針對顧客提出科學的、前瞻性的商品銷售方案。數(shù)據(jù)挖掘技術能有效地幫助商品銷售工作者透過表面上無關聯(lián)的顧客層數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)之間的內(nèi)在有意義的聯(lián)系,從而不僅能對顧客需求做出及時反應,還能對顧客需求進行有效的預測。
一、數(shù)據(jù)挖掘的基本原理
數(shù)據(jù)挖掘就是利用數(shù)學模型、統(tǒng)計和人工智能技術等方法,把一些高深、復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,因而可專注于自己所要解決的問題。數(shù)據(jù)挖掘按其功能可分為:描述性數(shù)據(jù)挖掘方法和預測性數(shù)據(jù)挖掘方法。
1描述性數(shù)據(jù)挖掘
在取得大量的數(shù)據(jù)之后,首先要對數(shù)據(jù)進行總結(jié),也即數(shù)據(jù)的泛化;在泛化的基礎上再對數(shù)據(jù)進行高層次的處理,包括數(shù)據(jù)的聚集、關聯(lián)分析等。
(1)數(shù)據(jù)總結(jié):數(shù)據(jù)總結(jié)的目的是對數(shù)據(jù)進行濃縮,給出它們的緊湊描述。數(shù)據(jù)泛化是一種將數(shù)據(jù)庫中的有關數(shù)據(jù)從低層次抽象到高層次的過程。
(2)聚集:聚集的目的是要盡量縮小屬于同一類別的個體之間的距離,而盡可能擴大不同類別個體間的距離。層次法、密度法、網(wǎng)格法、神經(jīng)元網(wǎng)絡和K-均值是比較常用的聚集算法。
(3)關聯(lián)分析:關聯(lián)分析是尋找數(shù)據(jù)的相關性。關聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關性,其核心是使用Apriori算法,找出事物的相應支持度和置信度,最后找到相應的關聯(lián)規(guī)則。
2預測型數(shù)據(jù)挖掘
在預言模型中,把我們要預測的值或所屬類別稱為響應變量、依賴變量或目標變量;用于預測的輸入變量是預測變量或獨立變量。主要通過分類、回歸分析、時間序列來建立預測模型。
二、商品銷售領域數(shù)據(jù)挖掘的依據(jù)
在商品銷售領域采用數(shù)據(jù)挖掘是商品銷售發(fā)展到一定階段的必然要求,它有助于提高商品銷售效率,降低商品銷售成本。其理論依據(jù)有消費者消費行為、細分市場理論、顧客關系、顧客數(shù)據(jù)庫和直接商品銷售。
在制定商品銷售計劃之前,商品銷售者需要研究消費者市場和消費者行為。在分析消費者市場時,公司需要了解市場情況,購買對象,購買目的等因素。通過搜集顧客消費數(shù)據(jù),采用數(shù)據(jù)挖掘技術,可以簡潔、明了地得到這些信息。
三、商品銷售中的數(shù)據(jù)挖掘過程
1商品銷售目標理解
在進行數(shù)據(jù)挖掘之前,必須從商品銷售角度去分析要達到的目標和需求,也即要分析什么商品銷售問題,達到什么商品銷售目標。首先對商品銷售現(xiàn)狀進行分析,找出存在的問題,并確定需要實現(xiàn)的營銷目標,再將商品銷售目標轉(zhuǎn)換成數(shù)據(jù)挖掘目標,然后將這種知識轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問題定義,并設計一個達到目標的初步計劃。
2數(shù)據(jù)理解
先搜集初步的數(shù)據(jù),然后進行熟悉數(shù)據(jù)的各種活動,包括識別數(shù)據(jù)的質(zhì)量問題,找到對數(shù)據(jù)的基本觀察,或假設隱含的信息來檢測感興趣的數(shù)據(jù)子集。
3數(shù)據(jù)準備
首先進行數(shù)據(jù)抽樣,從大量數(shù)據(jù)中篩選出一些相關的樣板數(shù)據(jù)子集。通過對數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,使數(shù)據(jù)更加具有規(guī)律性。然后,進行數(shù)據(jù)探索,通常是所進行的對數(shù)據(jù)深入調(diào)查的過程,從樣本數(shù)據(jù)集中找出規(guī)律和趨勢,用聚類分析法區(qū)分類別,最終要達到的目的就是搞清多因素相互影響的復雜關系,發(fā)現(xiàn)因素之間的相關性。最后,需要對數(shù)據(jù)進行調(diào)整,通過上述兩個步驟的操作,對數(shù)據(jù)的狀態(tài)和趨勢有了進一步的了解,這時要盡可能對解決問題的要求進行明確化和進一步的量化。
4建模
這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。在建模階段,可以選擇和應用各種建模技術,并將其參數(shù)校正到優(yōu)化值。通常,對同一個數(shù)據(jù)挖掘問題類型有幾種可選用的技術。
本課的教學對象為七年級學生,這個年齡段的學生自主和獨立意識較強,具備一定的信息搜集、處理、表達能力,喜歡在學習的過程中體驗和理解事物,但分析思考問題缺乏深度。在日常學習、生活中,學生經(jīng)常要對數(shù)據(jù)做搜集、整理、運算、統(tǒng)計和分析工作,但他們的認知大多只停留在表層,僅學會了數(shù)據(jù)加工的一些基本操作,缺乏從數(shù)據(jù)挖掘角度分析數(shù)據(jù)的意識,更不會運用統(tǒng)計學方法尋找蘊藏在數(shù)據(jù)之中的規(guī)律,借助它解決學習和生活中的實際問題。
學習內(nèi)容分析
本課是蘇科版七年級初中信息技術第三章第3節(jié)的內(nèi)容,主要包括“數(shù)據(jù)挖掘的作用”和“數(shù)據(jù)挖掘的過程”兩個部分,可深入細分為“什么是數(shù)據(jù)挖掘”“數(shù)據(jù)準備”“數(shù)據(jù)挖掘”“規(guī)律表示”四個內(nèi)容。教學中,為了讓學生深刻體會數(shù)據(jù)挖掘的意義和價值,教師應鼓勵他們對數(shù)據(jù)進行多角度加工與分析,找到規(guī)律或有用的信息,用恰當?shù)姆绞街庇^地表達出來,學會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,讓數(shù)據(jù)挖掘更好地服務于生活與學習。
教學目標
知識與技能目標:理解數(shù)據(jù)挖掘的概念,體會數(shù)據(jù)挖掘的作用。
過程與方法目標:嘗試進行數(shù)據(jù)挖掘,經(jīng)歷數(shù)據(jù)挖掘的一般過程。
情感態(tài)度與價值觀目標:樹立用數(shù)據(jù)說話、用數(shù)據(jù)指導生活的思想意識。
教學重難點
重點:數(shù)據(jù)挖掘的概念及數(shù)據(jù)挖掘的一般過程。
難點:數(shù)據(jù)準備及挖掘的過程。
教學策略
數(shù)據(jù)挖掘是一種強大的分析數(shù)據(jù)的方法,因涉及到專業(yè)軟件和統(tǒng)計學術語、數(shù)學模型等,會讓學生難以理解。而日常使用的WPS表格,作為數(shù)據(jù)挖掘的有效工具,可以讓學生在分析具體數(shù)據(jù)的過程中,掌握數(shù)據(jù)挖掘的方法。因此,本節(jié)課教學應讓學生從已有經(jīng)驗出發(fā),運用WPS表格中的簡單工具,學習數(shù)據(jù)挖掘的一般方法。
“數(shù)據(jù)挖掘”對學生而言,是一個全新的概念,概念的建構(gòu)需要一步步地不斷累積,從表層到內(nèi)涵,逐步深化。學生只有在了解了“數(shù)據(jù)挖掘”的基本含義,并嘗試挖掘的基礎上,才能體會其作用和意義。所以,筆者設計了層層遞進的學習活動(情境再現(xiàn),感受數(shù)據(jù)挖掘―案例研習,認識數(shù)據(jù)挖掘―比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘―同比空氣質(zhì)量,再探數(shù)據(jù)挖掘―暢想未來,展望數(shù)據(jù)挖掘),并且在活動中適時搭建學習所需的“支架”,來幫助學生完成知識的建構(gòu)。筆者通過一系列的活動,讓學生在做中學,在學中思,在思中用,在情境化的技術活動中,歸納出數(shù)據(jù)挖掘的方法,從而樹立用數(shù)據(jù)說話、用數(shù)據(jù)指導生活的思想意識。
教學過程
1.情境再現(xiàn),感受數(shù)據(jù)挖掘
活動1:情境再現(xiàn),感受數(shù)據(jù)挖掘。
①猜一猜:不同的人群瀏覽同一個網(wǎng)頁時,所看到的內(nèi)容是否一致。
②觀察鳳凰網(wǎng)的廣告區(qū)域截圖,在組內(nèi)交流(如下頁圖1,不同人群瀏覽的同一網(wǎng)頁,推送的廣告不同)。
③京東為什么能夠根據(jù)個人喜好推送商品?
小結(jié):京東在挖掘和分析用戶瀏覽行為的基礎上,進行定向產(chǎn)品推廣。
設計意圖:思維總是由問題開始的,激發(fā)問題,能讓學生積極主動地參與到學習活動中。以京東廣告推送功能來設置情境,把兩種不同的瀏覽行為對照比較,設置懸念,第一時間抓住學生,激發(fā)學生學習新知識、新技術的渴望。
2.案例研習,認識數(shù)據(jù)挖掘
活動2:學生觀看視頻,并思考、總結(jié)。
①安保為什么使用熱力圖(如圖2)?(對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進行挖掘,把握人群密集點動態(tài)趨勢,幫助警方提前疏導、化解安全風險)
②百度大數(shù)據(jù)對旅游有什么作用(如圖3)?(對用戶搜索數(shù)據(jù)深入挖掘,預測熱門旅游景點)
③導航是如何規(guī)劃路徑的(如圖4)?(對道路環(huán)境、天氣情況、特征日等數(shù)據(jù)進行挖掘和分析,得出每條道路在不同環(huán)境或不同時間的路況規(guī)律,確定最優(yōu)的交通路線)
師生對數(shù)據(jù)進行分析、總結(jié)(如表1)。
小結(jié):數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找其規(guī)律的技術。數(shù)據(jù)挖掘的目的主要有三個:把握趨勢、預測和求最優(yōu)解。
設計意圖:選取日常生活中運用數(shù)據(jù)挖掘的三個典型事例視頻――熱力圖、旅游預測、導航,借助半成品表格作為輸出支架,歸納出數(shù)據(jù)挖掘的概念和數(shù)據(jù)挖掘的三個目的。體會挖掘數(shù)據(jù)價值性的同時,認識數(shù)據(jù)加工的重要性,為數(shù)據(jù)挖掘的學習做好鋪墊。
3.比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘
師:圖5中空氣質(zhì)量預報實現(xiàn)了數(shù)據(jù)挖掘的哪一種目標?(把握趨勢)鹽城市空氣質(zhì)量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質(zhì)量狀況。
活動3:比較鹽城、秦州、淮安等周邊城市空氣質(zhì)量狀況。
①登錄中國空氣質(zhì)量在線監(jiān)測分析平臺(http:///historydata/),建立鹽城周邊三市空氣質(zhì)量狀況工作表(如圖6)。
影響空氣質(zhì)量的因素很多,AQI指數(shù)是衡量空氣質(zhì)量的重要指標。
教師演示:瀏覽數(shù)據(jù),提取數(shù)據(jù),組成工作表(如圖7)。
②計算各市4月份空氣質(zhì)量指數(shù)AQI的平均數(shù)。(提示:AVERAGE公式使用方法以及自動填充柄的使用)
③比較4月份空氣質(zhì)量狀況。(結(jié)論:質(zhì)量指數(shù)平均值大小依次是鹽城、秦州、淮安)
師:根據(jù)質(zhì)量指數(shù),利用函數(shù)工具計算平均數(shù),得出空氣質(zhì)量狀況,其實就是數(shù)據(jù)的挖掘。數(shù)據(jù)挖掘的一般過程如圖8所示。
設計意圖:從全國空氣質(zhì)量在線監(jiān)測分析平臺搜集數(shù)據(jù),選擇WPS函數(shù)工具挖掘數(shù)據(jù),并對挖掘結(jié)果加以解釋,來建構(gòu)數(shù)據(jù)挖掘的一般過程。在嘗試數(shù)據(jù)挖掘的過程中,學會運用計算思維解決問題,借助流程圖總結(jié)挖掘過程,有助于學生從整體上把握知識,進一步促進認知體系的構(gòu)建。
4.同比空氣質(zhì)量,再探數(shù)據(jù)挖掘
師:通過挖掘比較,我們得出鹽城市4月份空氣質(zhì)量在周邊城市當中最好,各市以前的空氣質(zhì)量狀況如何?
活動4:比較各市2014年、2015年空氣質(zhì)量數(shù)據(jù),說明哪一年空氣質(zhì)量更好(如圖9)。
①在選定城市后,思考如何同比質(zhì)量。
②選取函數(shù)或圖表工具,完成挖掘。
③規(guī)律表示。
④從“我的數(shù)據(jù)分析報告”中的各組中任選城市,從“2014年數(shù)據(jù)、2015年數(shù)據(jù)”工作表中,選取數(shù)據(jù)到“同比空氣質(zhì)量”進行分析(如下頁表2)。
小組匯報挖掘過程和得出的結(jié)論,形成對數(shù)據(jù)挖掘的新認識。
小結(jié):用平均數(shù)比較,各市兩年的數(shù)據(jù)基本相同,但是合格月份數(shù)不一定相同,同比AQI低的月份數(shù)也不相同。學生同比之后發(fā)現(xiàn),2015年空氣質(zhì)量好于2014年。
設計意圖:學生借助分析報告,以分組合作的形式,再次經(jīng)歷挖掘數(shù)據(jù)的過程,找到規(guī)律或有用的信息,加深對挖掘過程的理解。鼓勵學生對數(shù)據(jù)進行多角度的加工與分析,選擇合適的工具進行挖掘,體現(xiàn)了多元化的思想。
5.暢想未來,展望數(shù)據(jù)挖掘
觀看視頻(如上頁圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測序的視頻截圖),想象:數(shù)據(jù)挖掘技術的廣泛應用,對生活會產(chǎn)生怎樣的影響?
如今,數(shù)據(jù)挖掘改變了傳統(tǒng)的生活模式,未來將會產(chǎn)生更加深遠的影響。因此,我們應學會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,挖掘數(shù)據(jù)創(chuàng)造出更智慧的生活方式。
設計意圖:通過視頻播放,讓學生深度感受“數(shù)據(jù)挖掘”與生活息息相關,挖掘數(shù)據(jù)將給人們生活帶來的改變,培養(yǎng)學生搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話的意識。
點 評
如今,數(shù)據(jù)挖掘已被廣泛應用在各個領域。什么是數(shù)據(jù)挖掘?顧名思義就是從龐大的數(shù)據(jù)中挖掘?qū)毑兀ㄐ畔ⅰ⒅R、見解等)的方法和過程。顯然,對于初學者而言,這是一個全新的概念,僅靠上述說明難以理解它的含義。在傳統(tǒng)教學中,教師往往讓學生背誦記憶這些內(nèi)容,學生并沒有形成概念的深層理解。為此,董老師從理解數(shù)據(jù)挖掘出發(fā),選取數(shù)據(jù)挖掘的三個典型事例――熱力圖、旅游預測、導航,精心組織學習活動,在半成品表格的引導下,歸納出數(shù)據(jù)挖掘的三個目的――把握趨勢、預測和求最優(yōu)解,體會挖掘數(shù)據(jù)的價值,進而概括出數(shù)據(jù)挖掘的概念。
關鍵詞:云計算概述;數(shù)據(jù)挖掘;平臺架構(gòu)
中圖分類號:TP311.13
隨著經(jīng)濟的發(fā)展和科技的進步,手機、電腦在中國隨處可見,互聯(lián)網(wǎng)甚至是移動互聯(lián)網(wǎng)融入了人們的日常生活,互聯(lián)網(wǎng)中無法估量的大量數(shù)據(jù)不斷增長,愈演愈烈,面對著海一般的數(shù)據(jù)信息,人們不能準確的找到自己想要的數(shù)據(jù),像手機APP,手游等移動互聯(lián)網(wǎng)產(chǎn)品,每天都承載著非常多的數(shù)據(jù),對運營商而言,如何進行數(shù)據(jù)分析以及數(shù)據(jù)挖掘成為一個亟待解決的難題。
較于傳統(tǒng)數(shù)據(jù)處理系統(tǒng),云計算系統(tǒng)的出現(xiàn)讓人眼前一亮,基于云的數(shù)據(jù)挖掘平臺的建構(gòu)為數(shù)據(jù)挖掘開辟了一條新路,云計算提供一個虛擬的平臺,用戶可以在任何地區(qū)運用任何終端選擇自己想要的數(shù)據(jù),而大規(guī)模的數(shù)據(jù)本身就存在一些問題,數(shù)據(jù)挖掘存在難度,本文就云計算的數(shù)據(jù)挖掘進行具體的分析如下:
1 云計算概述
一直以來云計算都沒有一個統(tǒng)一明確的定義,根據(jù)多數(shù)人對云計算的定義,總結(jié)出以下兩方面:(1)云計算通俗一點說就是一個資源盤,其擁有數(shù)以萬計的可用虛擬資源,有些虛擬資源擁有不同的負載量,云計算的優(yōu)勢就是可用將這些負載量不同的資源進行新的合理分配;(2)就用戶而言云計算的服務是方便簡單的,且透明化,用戶的最終目的是在云計算中獲取想要的數(shù)據(jù)和服務,用戶不用在意云計算本身的運行機制,然而云計算的系統(tǒng)也是存在隱患的,如果一個規(guī)模龐大的計算機群在運作的過程中仍然不間斷的增加計算機的數(shù)量,那么云計算系統(tǒng)可能會出錯甚至系統(tǒng)崩潰,可見單純依靠硬件設施是不可取的,此時需要可靠的軟件發(fā)揮作用,需使用冗余和分布式存儲的方式,云計算系統(tǒng)另一個優(yōu)勢就是擁有自我檢測系統(tǒng)模式,該模式在不影響正常運行的情況下,可以檢測出無效節(jié)點并進行刪除,總之,云計算系統(tǒng)數(shù)據(jù)多、存儲能力強、計算能力快且準確率高,給用戶帶來高效、優(yōu)質(zhì)的服務。
經(jīng)過一直以來對云計算的研究總結(jié)其特點有五個方面,分別是虛擬化、通用性、擴展性強且規(guī)模大、可靠性高、經(jīng)濟性好等特點,具體來說就是云計算不是個實物,是個虛擬的擁有海量數(shù)據(jù)的平臺,用戶可以在世界的任何位置通過任何終端獲取想要的數(shù)據(jù)信息和服務;云計算沒有局限性,在云計算下可以構(gòu)建出不同的應用,而且這些應用可同時運行;在不影響用戶正常使用的情況下,云計算是可以擴展的,而且是動態(tài)擴展,現(xiàn)今最多可擴展幾十萬臺電腦,整個擴展過程用戶是可以看到的,是對外的;為了保證服務的質(zhì)量和可靠性,云計算運用了多種方法如多副本容錯和多計算節(jié)點同構(gòu)可互換等;云計算由于自身的優(yōu)勢運用大量廉價節(jié)點構(gòu)成云,采用自動化集中式管理機制,解決企業(yè)高昂的數(shù)據(jù)中心成本,較于傳統(tǒng)系統(tǒng)云計算系統(tǒng)成本較低。
2 數(shù)據(jù)挖掘的方式
數(shù)據(jù)挖掘是一個循環(huán)反復、不斷調(diào)整和修改的過程,這個過程漫長且復雜。從數(shù)據(jù)預處理到數(shù)據(jù)挖掘再到評估和表示這是數(shù)據(jù)挖掘的整個過程,數(shù)據(jù)挖掘的過程中方法很多,歸納如下:(1)廣義知識挖掘,廣義知識被挖掘出來后,與可視化技術相結(jié)合,用戶可以直觀的通過圖表形式來了解;(2)關聯(lián)知識挖掘;(3)類知識挖掘,分分類和聚類兩種。決策樹、神經(jīng)網(wǎng)絡、貝葉斯分類、支持向量機、遺傳算法與進化理論、粗糙集、關聯(lián)分類、類比學習、模糊集等為分類法。聚類法包括五種,分別是基于劃分、密度、層次、模型及網(wǎng)格的不同方法;(4)預測型知識挖掘,包括一些方法和技術,方法有經(jīng)典的統(tǒng)計方法,技術包括神經(jīng)網(wǎng)絡和機器學習技術;(5)特異型知識挖掘,所謂特異型指特殊的背離常規(guī)的異常規(guī)律。包括三個類別,分別是孤立點分析、序列異常分析和特異規(guī)則發(fā)現(xiàn);(6)自定義數(shù)據(jù)挖掘算法。
數(shù)據(jù)挖掘的過程以及方法可以通過圖1直觀的了解。
3 基于云的數(shù)據(jù)挖掘平臺架構(gòu)
針對傳統(tǒng)數(shù)據(jù)挖掘平臺而言,云計算的產(chǎn)生對其影響很大,云計算的分布式存儲和計算使數(shù)據(jù)挖掘開始變革,數(shù)據(jù)挖掘云服務只有基于云計算平臺才能得以實現(xiàn),其設計思想是分層設計,思路是面向組件設計,整個平臺自下向上分為三層,最下面一層也是最基礎的一層是云計算支撐平臺層,再往上一層是數(shù)據(jù)挖掘能力層,最頂層是數(shù)據(jù)挖掘云服務層。
云計算支撐平臺層的功能主要是提供數(shù)據(jù)的分布式存儲和計算,最底層構(gòu)建可以以企業(yè)自主研發(fā)的云計算平臺為基礎 ,也可以以第三方提供的云計算平臺為基礎。
數(shù)據(jù)挖掘能力層的能力有算法服務管理、調(diào)度引起、數(shù)據(jù)并行處理框架等,這些都是基礎能力,數(shù)據(jù)挖掘能力層支撐著它的上一層(數(shù)據(jù)挖掘云服務層)。這層不但支持內(nèi)部數(shù)據(jù)挖掘算法和推薦算法庫,對于外在的第三方數(shù)據(jù)挖掘算數(shù)法也可以接入。
最頂層數(shù)據(jù)挖掘云服務層的主要功能是為外在企業(yè)和個人提供數(shù)據(jù)挖掘云服務,其涵蓋多種多樣的服務能力封裝的接口形式,例如針對于簡單對象的訪問協(xié)議簡稱SOAP的XML等,本地應用程序編程接口也是其形式之一,基于結(jié)構(gòu)化查詢語言語句的訪問在數(shù)據(jù)挖掘云服務層也是支持的,同時此層還提供解析引擎和自動調(diào)用云服務。
總之,基于云計算的數(shù)據(jù)挖掘平臺從很多方面是優(yōu)于傳統(tǒng)數(shù)據(jù)挖掘平臺的,如大規(guī)模數(shù)據(jù)處理能力、數(shù)據(jù)動態(tài)擴展能力以及低廉的云服務和成本等。
4 云計算關鍵技術
如今大量數(shù)據(jù)挖掘最直接有效的方法是分布式計算方法,這個方法包括兩部分一部分是分布式數(shù)據(jù)存儲,一部分是分布式并行計算,現(xiàn)在的云計算平臺已經(jīng)涵蓋了這兩部分的能力,這兩部分是云計算數(shù)據(jù)挖掘平臺的核心支撐能力,GFS、KFS、HDFS等三種分布式文件系統(tǒng)是目前比較受歡迎的分布式文件系統(tǒng),Google公司的分布式文件系統(tǒng)理論是三者的理論基礎,KFS、HDFS兩種分布式文件系統(tǒng)多被用于商業(yè)和學術領域。
分布式并行計算框架在分布式計算方法中非常重要,其在計算過程中封裝了一些技術細節(jié),如任務調(diào)度、任務容錯等,這樣便捷了用戶,用戶只要把握好任務間的邏輯關系,不必注意這些技術細節(jié),目前較為廣泛應用的分布式計算框架有并行計算框架Mapreduce和迭代處理計算框架Pregel這兩者都由谷歌公司提出,還有微軟公司研發(fā)的Dryad。
5 結(jié)束語
隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代的到來,海量復雜的數(shù)據(jù)處理與數(shù)據(jù)挖掘困擾著各大運營商,與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比,云計算優(yōu)勢明顯,強大動態(tài)擴展能力、獨特的分布式存儲和計算方法、以及低廉的成本優(yōu)勢吸引了越來越多企業(yè)和個人,基于云的數(shù)據(jù)挖掘平臺,企業(yè)和運行商都因此減少了數(shù)據(jù)挖掘方面的資金投入,對這些企業(yè)來說無疑是減小了生產(chǎn)成本。
參考文獻:
[1]丁巖,楊慶平,錢煜明.基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關鍵技術研究[J].中興通訊技術,2013(01).
關鍵詞:煙草行業(yè);質(zhì)量管理;數(shù)據(jù)挖掘
煙草行業(yè)在我國市場經(jīng)濟發(fā)展中迅速壯大起來,同時行業(yè)間的競爭也越來越激烈,如何在激烈的競爭中占據(jù)主動是廣大煙草企業(yè)領導者關心的問題。加強質(zhì)量管理,提高煙草產(chǎn)品質(zhì)量,在很大程度上能夠提升企業(yè)競爭力。采用數(shù)據(jù)挖掘技術,利用大數(shù)據(jù)對行業(yè)發(fā)展規(guī)律進行分析,對質(zhì)量管理過程進行有效地監(jiān)測,提高企業(yè)質(zhì)量管理的水平,促進煙草企業(yè)持續(xù)發(fā)展。
一、數(shù)據(jù)挖掘技術概述
所謂的數(shù)據(jù)挖掘技術,就是從大量模糊的數(shù)據(jù)中,將其隱含的具有價值的信息提煉出來,在一定程度上與數(shù)據(jù)庫、數(shù)據(jù)融合等概念具有相似性?;谕诰蛉蝿盏囊暯浅霭l(fā),數(shù)據(jù)挖掘技術更加強調(diào)對相關數(shù)據(jù)的聚類以及關聯(lián)性分析,同時對大量數(shù)據(jù)進行整理、歸納,以便做出準確的預測任務?,F(xiàn)階段,常用的數(shù)據(jù)挖掘技術包括遺傳算法、統(tǒng)計分析法、神經(jīng)網(wǎng)絡法、模糊算法等等。在具體的使用過程中,首先應該根據(jù)業(yè)務的性質(zhì)進行重新定義,明確任務目標,然后做好相關的準備工作,確保數(shù)據(jù)的完整性;隨后進行數(shù)據(jù)挖掘以及數(shù)據(jù)分析,將收集的數(shù)據(jù)進行整理、分析,得到目標數(shù)據(jù)信息;最后,在業(yè)務處理工作中對這些數(shù)據(jù)信息進行妥善的應用。
二、煙草行業(yè)質(zhì)量管理現(xiàn)狀
現(xiàn)階段,消費者對煙草行業(yè)質(zhì)量的要求越來越嚴格,外部環(huán)境控煙要求也越來越緊迫,盡管在市場經(jīng)濟的良好環(huán)境下,煙草行業(yè)無論從規(guī)模、數(shù)量還是設備上都得到了顯著的提升,但是在此過程中也形成了大量的數(shù)據(jù)信息。在企業(yè)質(zhì)量管理過程中,主要缺陷體現(xiàn)在以下幾個方面:第一,在質(zhì)量管理過程中,采用傳統(tǒng)的數(shù)據(jù)處理方式,導致質(zhì)量管理部門工作量龐大,數(shù)據(jù)處理結(jié)果的準確性也不高;第二,煙草行業(yè)質(zhì)量管理方式相對滯后,對數(shù)據(jù)的分析不夠科學,導致采用不科學的數(shù)據(jù)結(jié)果對煙草質(zhì)量進行評價,導致煙草企業(yè)質(zhì)量管理整體質(zhì)量受到影響。第三,質(zhì)量管理中缺少反饋內(nèi)容,使煙草行業(yè)無法及時發(fā)現(xiàn)其中存在的問題并做好相應對策以及改進與預防工作。第四,傳統(tǒng)質(zhì)量管理更側(cè)重于某個生產(chǎn)環(huán)節(jié),忽視全局管理,而煙草行業(yè)本身規(guī)模較大且在不同地域中都涉及較多的質(zhì)量管理部門,很多質(zhì)量信息需在較長時間內(nèi)完成流通。對此,便需引入數(shù)據(jù)挖掘中的關聯(lián)與聚類分析,其中的關聯(lián)規(guī)則可將數(shù)據(jù)項關聯(lián)關系充分挖掘出來,在質(zhì)量管理中更集中體現(xiàn)在產(chǎn)品質(zhì)量預期特性值的關系。
三、數(shù)據(jù)挖掘技術在煙草行業(yè)質(zhì)量管理中的應用
加強對數(shù)據(jù)挖掘技術在煙草行業(yè)質(zhì)量管理工作中應用的研究,對煙草企業(yè)質(zhì)量管理工作具有重要意義,對煙草行業(yè)的發(fā)展也具有促進作用。在具體分析研究過程中,一般從供應商、適量反饋以及生產(chǎn)過程三個角度出發(fā):
1.基于對供應商評價的角度
煙草產(chǎn)品生產(chǎn)過程中需要大量的原材料,并且原材料的種類相對較多,包括煙葉原材料以及一些輔助的材料。這些材料的質(zhì)量在很大程度上決定了煙草產(chǎn)品的整體質(zhì)量。供應商在某種意義上對原材料質(zhì)量起著重要作用,煙草企業(yè)還需要與供應商建立良好的關系。煙草企業(yè)的相關部門需要將供應商提供的原材料信息進行有效地統(tǒng)計、儲存,同時將原材料的合格率作為主要的評價依據(jù)。根據(jù)數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則,將一種原材料對應所有的原材料供應商,收集并分析所有供應商提供的數(shù)據(jù)信息中該原材料的合格率,從而選擇最佳的原材料供應商,為煙草質(zhì)量提供保障。
2.基于質(zhì)量反饋的角度
質(zhì)量反饋就是客戶對一件產(chǎn)品質(zhì)量使用后的總結(jié)性評價,通過有效地質(zhì)量反饋,煙草企業(yè)能夠?qū)煵萆a(chǎn)過程、生產(chǎn)工藝、服務水平等進行整改。根據(jù)相關研究資料顯示:在能夠創(chuàng)造同樣價值的基礎上,新客戶發(fā)展涉及的成本往往是維持與老客戶關系涉及的成本的五倍,但若由老客戶將企業(yè)口碑向新客戶傳遞將獲得更大的競爭優(yōu)勢,所以企業(yè)發(fā)展中維持老客戶的關鍵在于使顧客滿意度得以提高。利用數(shù)據(jù)挖掘技術,對顧客反饋的信息進行科學化的分析與管理,總結(jié)客戶對產(chǎn)品質(zhì)量的意見,同時分析出造成這個質(zhì)量問題產(chǎn)生的原因,以便企業(yè)能夠提出針對性的措施,幫助企業(yè)質(zhì)量管理水平的提升,也能夠為煙草企業(yè)迎來更大的經(jīng)濟利潤,讓煙草企業(yè)在激烈競爭中立于不敗之地。
3.煙草生產(chǎn)過程中數(shù)據(jù)挖掘技術的應用
在卷煙生產(chǎn)過程中,煙絲質(zhì)量是備受關注的問題,煙絲質(zhì)量不僅會受到化學成分的影響,在生產(chǎn)過程中的一些工藝、操作也會對其質(zhì)量造成影響。在煙絲制作過程中需要經(jīng)過多重工序,同時涉及配方、含雜量等諸多因素,這一過程就會產(chǎn)生大量的數(shù)據(jù)。因此,需要利用數(shù)據(jù)挖掘技術,對煙草生產(chǎn)過程產(chǎn)生的數(shù)據(jù)進行存儲、分析,利用神經(jīng)網(wǎng)絡技術分析導致煙絲質(zhì)量問題的原因,不斷地優(yōu)化生產(chǎn)工藝參數(shù),同時利用聚類分析手段,對加工過程與煙絲質(zhì)量的關系進行分析,促進煙草產(chǎn)品質(zhì)量的提升。
四、總結(jié)
通過上述分析可知,煙草行業(yè)在市場經(jīng)濟發(fā)展中迅速發(fā)展起來,已經(jīng)逐漸成為我國支柱型產(chǎn)業(yè)。然而在煙草行業(yè)質(zhì)量管理過程中,由于對海量數(shù)據(jù)處理技術滯后,給煙草企業(yè)重大決策以及煙草產(chǎn)品質(zhì)量都造成重大影響。數(shù)據(jù)挖掘技術的應用,不僅能夠幫助企業(yè)選擇最佳合適的原材料供應商,還能夠及時地發(fā)現(xiàn)產(chǎn)品質(zhì)量問題,以便對產(chǎn)品生產(chǎn)工藝進行優(yōu)化,提高煙草產(chǎn)品質(zhì)量,促進煙草行業(yè)健康發(fā)展。
作者:焦麗靜 單位:河北中煙工業(yè)有限責任公司
參考文獻
[1]張麗榮.數(shù)據(jù)挖掘在煙草行業(yè)質(zhì)量管理中的應用[J].科技創(chuàng)新與應用,2012,25(8):124-125.
[2]李卓.試析數(shù)據(jù)挖掘技術在煙草行業(yè)中的應用[J].旅游總覽,2014,26(2):99-100.
關鍵詞:檔案信息管理系統(tǒng) 計算機 數(shù)據(jù)挖掘技術 應用
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)11-0000-00
為了探知計算機數(shù)據(jù)挖掘技術在檔案信息管理系統(tǒng)中的運用情況,本文從三個方面進行了分析,首先是對數(shù)據(jù)挖掘技術進行了初步概述,然后介紹了在實際運用當中所取得的成效。
1 數(shù)據(jù)挖掘技術的含義與實際應用
(1)計算機數(shù)據(jù)挖掘技術的含義。數(shù)據(jù)挖掘技術是一種全新的數(shù)據(jù)處理技術,是從數(shù)據(jù)庫中大量模糊記憶的隨機數(shù)據(jù)中選取其中所包含的符合人們需求的過程。數(shù)據(jù)挖掘過程是一個不斷循環(huán)的過程,當一個目標節(jié)點沒有達到其預期效果,信息處理系統(tǒng)自動返回上一個目標節(jié)點重新設置選取條件并執(zhí)行。通過不斷細化的目標將達到人們工作、學習需求的信息不斷選取、再集中,并最終完成任務。(2)計算機數(shù)據(jù)挖掘技術運用的技術。在人們進行計算機數(shù)據(jù)挖掘的過程中,大多數(shù)情況下都是運用數(shù)學方法,在一些特定條件下也會采用非數(shù)學方法。數(shù)學方法就是運用數(shù)學專業(yè)語言表達事物的狀態(tài)、關系和過程,是一種具有高度概括性和抽象性的方法,它具有嚴密的邏輯性和可操作性。同時,在運用計算機數(shù)據(jù)挖掘技術的過程中,還會使用到演繹法和歸納法進行數(shù)據(jù)收集。在運用計算機數(shù)據(jù)挖掘技術的過程中,通過對數(shù)據(jù)庫挖掘,收集符合要求的數(shù)據(jù)信息,并進行整合分析得出一定的結(jié)果。而得出的結(jié)果在一定的條件下,是能夠運用于信息管理等領域的。
2 數(shù)據(jù)挖掘技術的形式
數(shù)據(jù)挖掘通常分為兩種形式,一種是通過對數(shù)據(jù)中的包含的規(guī)則進行描述,找出其中具有很強的普遍性的知識,并對其進行初步的總結(jié)描述出這一類別事物的共同特征,我們把它稱之為描述型。另一種是通過分析已有的數(shù)據(jù)信息,并推測某一類別事物的某項特征或是其形成的規(guī)律,我們把它稱之為預測型。在進行數(shù)據(jù)挖掘技術的過程中,通常會采用分類、關聯(lián)和粗糙集三種方法。
(1)分類。在進行計算機數(shù)據(jù)挖掘時,分類是最常見的形式。分類通過對數(shù)據(jù)庫中龐大的信息量進行屬性的辨別和分析,并劃分為不同的種類,分類直接決定著所收集到的數(shù)據(jù)的優(yōu)劣。在進行種類劃分的實際操作過程當中,依據(jù)所選數(shù)據(jù)形成的訓練集,對一部分數(shù)據(jù)進行集中處理和劃分。再對剩下的數(shù)據(jù)部分進行測試,當測試達到預定指標以后,再根據(jù)相應的規(guī)則對剩下的數(shù)據(jù)部分進行分類。在分類的進行過程中,比較重要的幾個環(huán)節(jié)是明確其所涵蓋的范圍,辨別和分析目標具有的屬性特征,選取相應的算法進行計算并將計算結(jié)果明示,設定測試集,驗證并得出分類規(guī)則。(2)相關規(guī)則。在運用計算機數(shù)據(jù)挖掘技術的過程中,關聯(lián)分析法里最簡便、最具實用性的規(guī)則就是相關規(guī)則。相關規(guī)則能夠?qū)?shù)據(jù)進行科學嚴謹?shù)姆治觯?shù)據(jù)的信息精準地正確地描述出來。在相關規(guī)則的具體實踐方面,主要是對實際存在的事物進行描寫,將其中具有相同屬性的進行集中,分析總結(jié)出其模式。(3)粗糙集。在運用計算機數(shù)據(jù)挖掘技術的過程中,粗糙集是用來專門研究不具有穩(wěn)定性的知識的一種數(shù)學工具。其優(yōu)勢在于無需知曉額外信息,運用的算法簡潔有效、可操作性強。
3 計算機數(shù)據(jù)挖掘技術在檔案信息管理系統(tǒng)中的應用意義
(1)數(shù)據(jù)挖掘技術為檔案實體與內(nèi)容的安全性提供了保障。檔案信息是對過去的信息進行記錄所形成的,檔案信息一般都是很珍貴的,許多檔案信息其實體更是寶貴的。一方面,這類信息由于其珍貴性,人們總是希望能將這些檔案信息盡可能的保存長久,然而在事實上,人們對這些檔案的重復使用度往往很高的,這也必定會造成檔案信息的使用壽命大大降低。另一方面,檔案信息的實際內(nèi)容經(jīng)常帶有密級,如果對檔案信息的使用監(jiān)督不到位也會造成泄密,產(chǎn)生不良后果。而如果在檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術,通過對檔案信息的借閱行為進行統(tǒng)計和分析,找出不恰當?shù)慕栝喰袨?,就可以防止惡性利用檔案和泄密等情況的出現(xiàn),也就對檔案實體和檔案信息的安全性提供了保障。(2)數(shù)據(jù)挖掘技術可以提升檔案信息的使用效率。檔案信息大都是帶有一定的密級的,其借閱范圍都有相對明確的規(guī)定。隨著時代的進步,雖然國家放寬了借閱檔案的限制,但由于人們對于檔案的認知水平存在滯后性,許多檔案管理部門對于檔案的借閱還是被動式的,有人提出借閱申請,工作人員就根據(jù)規(guī)章制度適當?shù)靥峁n案信息,主動性很低。但是,如果在檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術,通過與檔案借閱者的溝通,發(fā)現(xiàn)相關的有需求用戶以及利用方向,建立專門的檔案提供渠道。這樣有針對性地提供檔案信息,既提高了檔案的使用效率,提升了檔案管理部門的服務水平,又能幫助借閱者解決難題,促成其研究成果的產(chǎn)生。(3)數(shù)據(jù)挖掘技術為檔案鑒定工作提供了便利。檔案的鑒定工作一直以來都是檔案工作整體流程中難度系數(shù)最高、重要性最高的一個部分。在過去,這一工作進展的良好與否完全憑借的是檔案管理從業(yè)人員的個人的能力強弱,隨人員的主觀因素變動幅度大,這就可能造成存在價值的檔案未被保存下來而無價值的檔案卻被大量保存下來諸如此類情況的發(fā)生,不僅損失了有用的檔案信息而且還浪費了資源。但是,如果在檔案信息管理系統(tǒng)引入數(shù)據(jù)挖掘技術,對檔案的使用情況和保存情況進行系統(tǒng)分析,發(fā)現(xiàn)各個檔案管理管理部門其檔案形成的規(guī)律和使用范圍,判定出信息的重要性,為檔案鑒定工作的進行提供鑒定依據(jù)。
4結(jié)語
隨著社會的進步和科技的發(fā)展,計算機技術應用面越來越廣泛。在檔案信息管理系統(tǒng)的應用方面,數(shù)據(jù)挖掘技術為檔案信息的實體和內(nèi)容提供了安全保障,為檔案鑒定工作提供了便利,并提升了檔案信息的使用效率。
參考文獻
[1]黃世矗吳震.論數(shù)據(jù)挖掘技術在電子文件管理中應用的必要性與可行性[J].檔案與建設,2011,11:8-10.
數(shù)據(jù)挖掘 聚類分析 K均值
一、引言數(shù)據(jù)挖掘是計算機行業(yè)發(fā)展最快的領域之一。以前數(shù)據(jù)挖掘只是結(jié)合了計算機科學和統(tǒng)計學而產(chǎn)生的一個讓人感興趣的小領域,如今,它已經(jīng)迅速擴大成為一個獨立的領域。數(shù)據(jù)挖掘的結(jié)果對于醫(yī)生臨床診斷有很重要的意義。實驗表明患心臟病病人的某些屬性特征和患心臟病風險的大小有較大關系。數(shù)據(jù)挖掘有兩種策略:有指導和無指導學習。本文用心臟病數(shù)據(jù)集范例來解釋有指導學習的過程。1.有指導學習和無指導聚類對于使用無指導聚類來說,不存在預定義的類。取而代之的是,數(shù)據(jù)實例根據(jù)聚類模型定義的相似度機制來分組。而大部分數(shù)據(jù)挖掘是有指導的,在使用有指導學習時,數(shù)據(jù)挖掘工具可使用類別已知的實例來建立表示數(shù)據(jù)的普遍的模型。然后利用所創(chuàng)建的模型確定新的、以前未分類實例的類別。2.用于有指導學習的方法在一個裝有iData分析器的Excel中,用一種數(shù)據(jù)挖掘工具ESX建立有指導的學習模型,其方法如下:首先,將要挖掘的數(shù)據(jù)輸入一個Excel電子表格并選擇一個輸出屬性。然后執(zhí)行一個數(shù)據(jù)挖掘會話,再閱讀并解釋匯總結(jié)果、檢驗集結(jié)果和各個類的結(jié)果,最后生成可視化并解釋類規(guī)則。
二、聚類分析數(shù)據(jù)挖掘技術從傳統(tǒng)意義上說是指數(shù)據(jù)的統(tǒng)計分析技術,采用的傳統(tǒng)數(shù)據(jù)分析技術主要包含線性分析和非線性分析、回歸分析、邏輯回歸分析、時間序列分析、最近鄰算法和聚類分析等。K-Means算法是劃分聚類中較流行的一種算法,它是一種迭代的聚類算法,迭代過程中不斷移動簇集中的對象,直至得到理想的簇集為止,每個簇用該簇中對象的平均值來表示。算法的主要步驟為:(1)從n個數(shù)據(jù)對象隨機選取k個對象作為初始簇中心;(2)計算每個簇的平均值,并用該平均值代表相應的簇;(3)根據(jù)每個對象與各個簇中心的距離,分配給最近的簇;(4)轉(zhuǎn)第二步,重新計算每個簇的平均值。這個過程不斷重復直到滿足某個準則函數(shù)不再明顯變化或者聚類的對象不再變化才停止。K-Means算法對于大型數(shù)據(jù)庫是相對可伸縮的和高效的,算法的時間復雜度為O(n*k*t),其中t為迭代次數(shù)。一般情況下結(jié)束于局部最優(yōu)解。
三、具體實例說明1. 心臟病風險評價中的數(shù)據(jù)挖掘問題在世界衛(wèi)生組織與世界心臟病協(xié)會等權威機構(gòu)的另一項關于預防心臟病的指南中指出,引起心臟病的危險因素有兩種,即“行為因素”和“生理問題”。最主要的四種行為因素是:吸煙、飲酒、不健康的飲食、缺乏體力活動。這些不良的行為日益累積會使機體發(fā)生生理改變。醫(yī)學數(shù)據(jù)庫的信息量非常龐大,其數(shù)據(jù)又具有自身的獨特性。要想充分利用豐富而寶貴的醫(yī)學資源,必須選擇適合醫(yī)學數(shù)據(jù)類型的數(shù)據(jù)挖掘工具及挖掘技術,盡可能大地發(fā)揮數(shù)據(jù)挖掘技術在醫(yī)學信息獲取中的價值。2. 數(shù)據(jù)準備(1)數(shù)據(jù)選擇及預處理。運用有指導學習的方法對心臟病人數(shù)據(jù)集進行數(shù)據(jù)挖掘,此數(shù)據(jù)集是由位于加州Long Beach的VA醫(yī)療中心的Detrano博士搜集的。該數(shù)據(jù)集包含分類和數(shù)值數(shù)據(jù)的混合表,數(shù)據(jù)包含了303個實例組成,其中165個包含了未患心臟病的患者,剩余的138個實例包含了患過心臟病的患者。(2)建立數(shù)據(jù)挖掘庫。我們將試圖發(fā)現(xiàn)年齡等因素與是否患過心臟病之間的關聯(lián),從而證實患過心臟疾病與它產(chǎn)生的可能因素之間的規(guī)則。具體實施步驟如下:將文件加載到一個新的Excel電子表格中,其中我們將下列屬性設置為輸入屬性:age(年齡)、sex (性別)、chest pain type(胸痛類型)、blood pressure(血壓)、cholesterol(膽固醇)、fasting blood sugar
4.總結(jié)研究表明心臟病的高發(fā)人群為:年齡大于45歲的男性、大于55歲的女性;吸煙者;高血壓患者;糖尿病患者;高膽固醇血癥患者;肥胖者。雖然年齡、性別、家族遺傳病史等危險因素難以改變,但是如果有效控制其余危險因素,就能有效預防某些心臟病。在日常生活中學會自我管理,建立良好的健康的生活方式,對心臟病患者而言,至關重要。
參考文獻:
[1]崔園.有指導的數(shù)據(jù)挖掘在風險評價中的應用
[J].四川師范大學出版社,2006.1.
[2]孫微微,劉才興.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
[J].農(nóng)業(yè)網(wǎng)絡信息,2005,(1).
[3]鄭新奇,劉曉麗.基于Clenmentine決策樹的空間數(shù)據(jù)挖掘方法探討
[J].中國科協(xié)年會論文集.2006.
[4]Richard J.Roiger,and Mchael W.Geatz Data mining:a tutorial based primer
[M].Pearson Education,Inc.2003.
[5]湯效琴,戴汝源.數(shù)據(jù)挖掘中聚類分析的技術方法
[J].微計算機信息,2003,(1).
關鍵詞:數(shù)字圖書館;計算機技術;應用模塊;數(shù)據(jù)挖掘;網(wǎng)格技術
1數(shù)字圖書館概述
“數(shù)字化”的生活模式伴隨著科技的發(fā)展應運而生,人們也越來越適應并習慣了這種生活模式,數(shù)字圖書館的出現(xiàn)使得人們對它的需求越來越高,同時它也直接關系著當代圖書館的生存與發(fā)展。而數(shù)字圖書館的概念是由美國的一位學者在研究圖書館的時效性時提出來的,它就是一個信息化的平臺,擁有著全球性的知識資源和媒體內(nèi)容,一方面能夠使用戶及時的了解到全球的訊息,另一方面用戶使用搜索功能可以搜索到一些多樣化的信息。而其中關鍵性技術的應用與研究成為了當今國內(nèi)外IT界和圖書館界研究的熱門技術。而評價一個國家信息基礎設施好壞的標志之一就是數(shù)字圖書館的建設。數(shù)字圖書館作為一種高新技術的產(chǎn)物,涉及到了以下技術:數(shù)字化處理技術、超大規(guī)模數(shù)據(jù)庫技術、網(wǎng)絡技術、多媒體信息處理技術、信息壓縮與傳送技術、安全保密技術、自然語言理解技術等。本文主要介紹了網(wǎng)絡技術、數(shù)據(jù)挖掘技術、Agent技術。
2數(shù)據(jù)挖掘技術的應用研究
2.1數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘也可以叫作數(shù)據(jù)庫中的知識發(fā)現(xiàn),它是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。其一般與計算機科學有關,可以通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)及模式識別等多種方法來實現(xiàn)所要達到的目標。數(shù)字圖書館的數(shù)據(jù)挖掘?qū)ο笫峭诰虺銎渲械拇笮蛿?shù)據(jù)庫、數(shù)據(jù)倉庫以及大量的網(wǎng)絡信息空間,通過對這些數(shù)據(jù)的統(tǒng)計分析和總結(jié),可以找到數(shù)據(jù)間內(nèi)在的關系,進而可以預測到未來發(fā)展的趨勢。數(shù)據(jù)挖掘涉及到了很多前沿的學科,比如數(shù)據(jù)庫、數(shù)理統(tǒng)計、人工智能、神經(jīng)網(wǎng)絡等,這是當今國際上最高端的技術研究之一了。
2.2數(shù)據(jù)挖掘技術的方法
2.2.1數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一種面向數(shù)值數(shù)據(jù)的方法,它是用人工智能、機器學習、統(tǒng)計學、數(shù)據(jù)庫的交叉方法在一個較大的數(shù)據(jù)集中發(fā)現(xiàn)模式的計算過程,是一門跨學科的計算機科學分支。它的目標是從一個數(shù)據(jù)集中提取信息,然后將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以此進一步使用。數(shù)字圖書館的建設基礎就是數(shù)據(jù)挖掘,利用多種數(shù)據(jù)挖掘算法,通過數(shù)字處理和研究數(shù)字模型的變化,以此來進行總結(jié)得到數(shù)據(jù)的變化情況。
2.2.2基于Web的數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在Web上的應用,它是利用數(shù)據(jù)挖掘技術抽取出與Web有關的一些感興趣的、有用的資源信息、行為及模式,涉及到了多個研究領域的技術,在挖掘內(nèi)容的過程中,我們一般從以下兩個角度進行著手分析:一是對文本文檔進行挖掘,二是挖掘多媒體文檔。在調(diào)整數(shù)字圖書館的網(wǎng)頁時一般都用追蹤和個性化使用記錄的全面追蹤這兩種模式來保證給用戶提供個性化的服務。
2.2.3文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘是指從文本中挖掘出有一定價值的信息和知識的計算機處理技術,挖掘的對象的數(shù)據(jù)類型全是由文本類型組成的,在對巨量文本信息進行自動化信息分析與處理所使用的方法是利用數(shù)據(jù)挖掘算法和信息檢索算法來實現(xiàn)的。文本挖掘方法主要包含以下幾種:文本分類、文本聚類、信息抽取、摘要、壓縮。為了能夠更加更好的豐富圖書館的信息量,處理好文本的摘要和數(shù)據(jù),提高數(shù)據(jù)挖掘的精確度,可以利用文本數(shù)據(jù)的挖掘和傳輸來實現(xiàn)。
2.3利用數(shù)據(jù)挖掘?qū)崿F(xiàn)數(shù)字圖書館的個性化服務
實現(xiàn)數(shù)字圖書館的個性化服務是通過把挖掘技術應用到數(shù)字圖書館建設中,一方面可以通過提高數(shù)字圖書館的建設標準來增強各方面的服務質(zhì)量,另一方面還可以有效的鞏固信息資源的建設力度。在信息用戶掌握信息使用的行為、習慣、偏好等時,個性化的服務可以為用戶提供滿足其所需要的一些相關服務,主要是兩個方面:一是個性化,二是主動服務。其原理是根據(jù)不同的用戶不同的需求使用不同的服務辦法來進行針對性的服務,系統(tǒng)不需要用戶去做什么就可以給用戶提供相對應的服務,通過簡化用戶的操作來達到個性化服務。個性化服務主要表現(xiàn)在以下幾個方面:數(shù)據(jù)挖掘服務、個人書架、個性化檢索、信息分類定制及推送、虛擬咨詢服務等。
3網(wǎng)格技術的應用
3.1網(wǎng)格技術在數(shù)字圖書館中的應用
在數(shù)字圖書館的建設中,網(wǎng)格技術是一種不可或缺的技術,為了確保數(shù)字圖書館的完整性和較好的服務性,就要利用網(wǎng)絡來調(diào)節(jié)因數(shù)字的變化而造成的改變,而數(shù)字圖書館建設擁有良好基礎的前提就是在網(wǎng)格技術應用過程中要結(jié)合信息資源建設網(wǎng)絡基礎設施,并在后期結(jié)合相關的Web技術方法,以圖書館的基礎架構(gòu)作為基礎,搭建一個良好的可以實現(xiàn)資源信息共享的信息技術平臺,整合網(wǎng)絡各方面的資源,在統(tǒng)一管理的基礎上實現(xiàn)良好的信息服務。
關鍵詞 ;數(shù)據(jù)挖掘; web;挖掘;網(wǎng)絡技術
中圖分類號:G642文獻標識碼:A文章編號:1003-2851(2009)12-0174-01
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。數(shù)據(jù)挖掘是面向發(fā)現(xiàn)的數(shù)據(jù)分析技術,通過對大型的數(shù)據(jù)集進行探查??梢园l(fā)現(xiàn)有用的知識,從而為決策支持提供有力的依據(jù)。
一、 Web數(shù)據(jù)挖掘定義及分類
Web數(shù)據(jù)挖掘(Web Date Mining),簡稱Web挖掘,是數(shù)據(jù)挖掘技術在Web環(huán)境下的應用,是從數(shù)據(jù)挖掘、計算機技術、信息科學等多個領域進行的一項技術。
Web 數(shù)據(jù)挖掘的分類根據(jù)數(shù)據(jù)挖掘?qū)ο蟮牟煌梢詫eb數(shù)據(jù)挖掘分為Web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 訪問信息挖掘三類(見圖1)。Web 內(nèi)容挖掘就是指從Web 的文檔中發(fā)現(xiàn)提取有用信息; Web 結(jié)構(gòu)挖掘是指對html 頁面間的鏈接結(jié)構(gòu)進行挖掘; Web 訪問信息挖掘是從網(wǎng)絡訪問者的交談或活動中提取信息。
二、 Web數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘的過程可以分為6個步驟:
(一)理解業(yè)務:從商業(yè)的角度理解項目目標和需求,將其轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問題定義,設計出達到目標的一個初步計劃。
(二)理解數(shù)據(jù):收集初步的數(shù)據(jù),進行各種熟悉數(shù)據(jù)的活動。包括數(shù)據(jù)描述,數(shù)據(jù)探索和數(shù)據(jù)質(zhì)量驗證等。
(三)準備數(shù)據(jù):將最初的原始數(shù)據(jù)構(gòu)造成最終適合建模工具處理的數(shù)據(jù)集。包括表、記錄和屬性的選擇,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清理等。
(四)建模:選擇和應用各種建模技術,并對其參數(shù)進行優(yōu)化。
(五)模型評估:對模型進行較為徹底的評價,并檢查構(gòu)建模型的每個步驟,確認其是否真正實現(xiàn)了預定的商業(yè)目的。
三、Web 數(shù)據(jù)挖掘的常用工具
Web 數(shù)據(jù)挖掘工具如果按用途分, 可分為: Web 文本信息挖掘工具、用戶訪問模式挖掘工具或用戶導航行為挖掘工具和綜合性的web分析工具。Web 文本信息挖掘工具主要完成兩方面的功能: 信息檢索和對文本的分析。IBM 公司的產(chǎn)品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比較好的文本信息挖掘工具。用戶模式挖掘工具通常實現(xiàn)的方法是對Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用戶訪問行為、頻度和內(nèi)容等信息, 從而找出一定的模式和規(guī)則。由Sstphen Tumer 博士編制的免費個人軟件Analog 是一個用來分析Server Logs 的工具。
四、數(shù)據(jù)挖掘的應用現(xiàn)狀
數(shù)據(jù)挖掘是一個新興的邊緣學科,它匯集了來自機器學習、模式識別、數(shù)據(jù)庫、統(tǒng)計學、人工智能以及管理信息系統(tǒng)等各學科的成果。多學科的相互交融和相互促進,使得這一新學科得以蓬勃發(fā)展,而且已初具規(guī)模。在美國國家科學基金會(NSF)的數(shù)據(jù)庫研究項目中,KDD被列為90年代最有價值的研究項目。人工智能研究領域的科學家也普遍認為,下一個人工智能應用的重要課題之一,將是以機器學習算法為主要工具的大規(guī)模的數(shù)據(jù)庫知識發(fā)現(xiàn)。盡管數(shù)據(jù)挖掘還是一個很新的研究課題,但它所固有的為企業(yè)創(chuàng)造巨大經(jīng)濟效益的潛力,已使其很快有了許多成功的應用,具有代表性的應用領域有市場預測、投資、制造業(yè)、銀行、通訊等。
美國鋼鐵公司和神戶鋼鐵公司利用基于數(shù)據(jù)挖掘技術的ISPA系統(tǒng),研究分析產(chǎn)品性能規(guī)律和進行質(zhì)量控制,取得了顯著效果。通用電器公司(GE)與法國飛機發(fā)動機制造公司(sNEcMA),利用數(shù)據(jù)挖掘技術研制了CASSIOP.EE質(zhì)量控制系統(tǒng),被三家歐洲航空公司用于診斷和預測渡音737的故障,帶來了可觀的經(jīng)濟效益。該系統(tǒng)于1996年獲歐洲一等創(chuàng)造性應用獎。
中國的公安部門也在研究利用KDD技術總結(jié)各類案件的共性和發(fā)生規(guī)律,從而在宏觀上制定最有效的社會治安綜合治理的方案和措施;在微觀上指出犯罪人的特點,劃定罪犯的范圍,為偵破工作提供方向。
關鍵詞:數(shù)據(jù)挖掘技術;web挖掘;web的應用;個性化服務
中圖分類號:TP399-C1 文獻標識碼:A 文章編號:1007-9599 (2012) 15-0000-02
1 數(shù)據(jù)挖掘技術
1.1 數(shù)據(jù)挖掘技術的概念
數(shù)據(jù)挖掘技術主要是指尋找隱藏在數(shù)據(jù)庫中有價值的信息,從而為決策支持 提供有力的依據(jù)的過程。數(shù)據(jù)挖掘的目標主要包括特征、趨勢以及相關性等多個方面的信息。隨著計算機的普及,信息時代的到來,網(wǎng)絡中信息量迅速增加,傳統(tǒng)的知識發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)技術和方法已經(jīng)不能滿足人們從Web中獲取信息的需要,并且現(xiàn)實也要求對互聯(lián)網(wǎng)上的信息進行深層次實時的分析[1]。所以Web的數(shù)據(jù)挖掘技術油然而生,這種技術將傳統(tǒng)的數(shù)據(jù)挖掘和web相互結(jié)合起來,能夠從大量的信息數(shù)據(jù)選取有價值的隱含信息。下圖1為Web數(shù)據(jù)挖掘原理流程:
1.2 Web數(shù)據(jù)挖掘的分類
根據(jù)數(shù)據(jù)挖掘的對象不同,Web數(shù)據(jù)挖掘技術可以分為Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘、Web 使用挖掘三類,Web數(shù)據(jù)挖掘分類如下圖2所示:
1.3 Web數(shù)據(jù)挖掘的特點
傳統(tǒng)的數(shù)據(jù)挖掘主要是以數(shù)據(jù)庫為基礎,對結(jié)構(gòu)化的數(shù)據(jù)進行信息分析、加工以及模式挖掘,傳統(tǒng)的數(shù)據(jù)挖掘技術能夠直接或者間接的應用到Web數(shù)據(jù)挖掘中,但是因為Web技術自身的特點,從而使Web中的數(shù)據(jù)挖掘技術和傳統(tǒng)的數(shù)據(jù)挖掘具有很大的不同。
(1)數(shù)據(jù)量巨大。網(wǎng)絡能夠?qū)⒎植荚谑澜绮煌恢玫碾娔X連接在一起,并且每一個電腦都存在豐富的數(shù)據(jù),又因為連接在網(wǎng)絡上電腦的數(shù)量非常巨大,所以Web數(shù)據(jù)挖掘技術能夠處理的數(shù)據(jù)也非常大。
(2)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)具有一定的模型,可以根據(jù)數(shù)據(jù)模型進行對網(wǎng)絡中的數(shù)據(jù)進行描述,與傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)相比,在Web站點中的數(shù)據(jù)沒有統(tǒng)一的模型,并且各個站點之間都是獨自設計的,所以Web站點中對數(shù)據(jù)的處理是不斷變化的[2]。
(3)異構(gòu)數(shù)據(jù)庫環(huán)境。在數(shù)據(jù)庫環(huán)境中每一個Web站點都可以看作是一個數(shù)據(jù)源, 由于Web站點是相互獨立的,因此站點之間除了能夠相互訪問之外沒有其他的關系,所以Web站點之間的信息都是不同的,從而構(gòu)成一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。
2 數(shù)據(jù)挖掘技術在Web中應用
隨著信息時代的到來,網(wǎng)絡技術的發(fā)展,目前數(shù)據(jù)挖掘技術已經(jīng)廣泛應用到遠程通信業(yè)、制造業(yè)、金融業(yè)、零售業(yè)、政府管理機構(gòu)以及體育等各個行業(yè)中,而數(shù)據(jù)挖掘技術在Web中應用目前已經(jīng)成為全球?qū)W術界研究的熱點,并應用到各個行業(yè)中。
2.1 Web中數(shù)據(jù)挖掘技術在搜索引擎中的應用
在Web數(shù)據(jù)挖掘技術中,搜索引擎是最為典型的應用,采用Web數(shù)據(jù)挖掘技術不僅能夠提高搜索引擎的查詢速度、網(wǎng)頁的權重、關鍵詞匹配的相關度以及改善搜索結(jié)果等,并且Web數(shù)據(jù)挖掘技術也應用在文本的自動分類、自動摘要的形成、個性化的搜索引擎以及檢搜結(jié)果的聚類等具有重要的作用。
2.2 在電子商務中的應用
Web數(shù)據(jù)挖掘技術在電子商務中應用也是比較典型的應用,Web數(shù)據(jù)挖掘技術能夠通過對客戶訪問日志數(shù)據(jù)采用模型化算法、神經(jīng)元網(wǎng)絡以及其他的信息處理技術進行分析,從而商家能夠?qū)€體或者特定消費群體進行定向營銷的決策。并且采用Web數(shù)據(jù)挖掘技術還可以對日志進行定量分析,從而能夠揭示出頻繁訪問的頁面、訪問途徑以及客戶的類屬關系、網(wǎng)頁的類屬關系等,從而能夠為Web站點的優(yōu)化提供有力的參考是數(shù)據(jù)。Web數(shù)據(jù)挖掘技術在電子商務中應用主要體現(xiàn)在客戶的駐留、客戶獲取以及客戶的聚類和分類三個重要的方面。下圖3為Web數(shù)據(jù)挖掘的簡單商務網(wǎng)站模型:
2.3 Web數(shù)據(jù)挖掘技術應用于股票系統(tǒng)
Web數(shù)據(jù)技術采用Web-Dms系統(tǒng)可以構(gòu)建一個基于Web 的挖掘的股票教育和交易環(huán)境,并且還能夠充分利用站點上積累的信息,從而更好地服務于企業(yè)和客戶。在股票系統(tǒng)中采用Web 數(shù)據(jù)挖掘技術不僅能夠通過了解查找者的動態(tài)行為 選擇最佳的電子商務精英方式,而且還能夠得知查找者的愛好[3]。應用Web數(shù)據(jù)技術Web設計人員不在依靠專家的定性的指導進行設計網(wǎng)站,而是可以根據(jù)查找者的信息進行設計網(wǎng)站的機構(gòu)和外觀,從而能夠為客戶提供個性化的服務。
3 總結(jié)
Web中的數(shù)據(jù)挖掘技術是一種新型的技術,由于Web自身的特點,從而使Web數(shù)據(jù)挖掘技術具有很多特點,并且其應用也是非常廣泛,不僅能夠提取頁面的信息,進行分析設計站點,而且在電子商務方面也具有非常廣闊的應用前景。
參考文獻:
[1]DiPasquo D,Using HTML forlnation to aid in natural languageprocessing on the World Wide Web[M].Canegie-Mellon University.Sehool of Computer Science,1998.