前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘論文主題范文,僅供參考,歡迎閱讀并收藏。
1.1GPUGPU之所以在某些應(yīng)用中較CPU能夠獲得更高的性能,主要是因?yàn)镚PU和CPU在硬件結(jié)構(gòu)設(shè)計(jì)上存在很大差異。如圖1所示[10],GPU將大量的晶體管用作ALU計(jì)算單元,從而適應(yīng)密集且可并行的圖像渲染計(jì)算處理需要。相對(duì)GPU而言,CPU卻是將更多的晶體管用作復(fù)雜的控制單元和緩存等非計(jì)算功能,并以此來提高少量執(zhí)行單元的執(zhí)行效率。此外,存儲(chǔ)帶寬是另一個(gè)重要問題。存儲(chǔ)器到處理器的帶寬已經(jīng)成為許多應(yīng)用程序的瓶頸。目前GPU的芯片帶寬是CPU芯片帶寬的6倍左右。
1.2CPU/GPU協(xié)同并行計(jì)算在諸多適用于高性能計(jì)算的體系結(jié)構(gòu)中,采用通用多核CPU與定制加速協(xié)處理器相結(jié)合的異構(gòu)體系結(jié)構(gòu)成為構(gòu)造千萬億次計(jì)算機(jī)系統(tǒng)的一種可行途徑。而在眾多異構(gòu)混合平臺(tái)中,基于CPU/GPU異構(gòu)協(xié)同的計(jì)算平臺(tái)具有很大的發(fā)展?jié)摿?。在協(xié)同并行計(jì)算時(shí),CPU和GPU應(yīng)各取所長(zhǎng),即CPU承擔(dān)程序控制,而密集計(jì)算交由GPU完成。另外,除管理和調(diào)度GPU計(jì)算任務(wù)外,CPU也應(yīng)當(dāng)承擔(dān)一部分科學(xué)計(jì)算任務(wù)[12]。新型異構(gòu)混合體系結(jié)構(gòu)對(duì)大規(guī)模并行算法研究提出了新的挑戰(zhàn),迫切需要深入研究與該體系結(jié)構(gòu)相適應(yīng)的并行算法。事實(shí)上,目前基于GPU加速的數(shù)據(jù)挖掘算法實(shí)現(xiàn)都有CPU參與協(xié)同計(jì)算,只是討論的重點(diǎn)多集中在為適應(yīng)GPU而進(jìn)行的并行化設(shè)計(jì)上。實(shí)踐中,需要找出密集計(jì)算部分并將其遷移到GPU中執(zhí)行,剩余部分仍然由CPU來完成。
1.3CUDA為了加速GPU通用計(jì)算的發(fā)展,NVIDIA公司在2007年推出統(tǒng)一計(jì)算設(shè)備架構(gòu)(ComputeUnifiedDeviceArchitecture,CUDA)[10,13]。CUDA編程模型將CPU作為主機(jī),GPU作為協(xié)處理器,兩者協(xié)同工作,各司其職。CPU負(fù)責(zé)進(jìn)行邏輯性強(qiáng)的事務(wù)處理和串行計(jì)算,GPU則專注于執(zhí)行高度線程化的并行處理任務(wù)。CUDA采用單指令多線程(SIMT)執(zhí)行模式,而內(nèi)核函數(shù)(kernel)執(zhí)行GPU上的并行計(jì)算任務(wù),是整個(gè)程序中一個(gè)可以被并行執(zhí)行的步驟。CUDA計(jì)算流程通常包含CPU到GPU數(shù)據(jù)傳遞、內(nèi)核函數(shù)執(zhí)行、GPU到CPU數(shù)據(jù)傳遞三個(gè)步驟。CUDA不需要借助于圖形學(xué)API,并采用了比較容易掌握的類C/C++語言進(jìn)行開發(fā),為開發(fā)人員有效利用GPU的強(qiáng)大性能提供了條件。CUDA被廣泛應(yīng)用于石油勘探、天文計(jì)算、流體力學(xué)模擬、分子動(dòng)力學(xué)仿真、生物計(jì)算和圖像處理等領(lǐng)域,在很多應(yīng)用中獲得了幾倍、幾十倍,乃至上百倍的加速比[13]。
1.4并行編程語言和模型過去幾十年里,人們相繼提出了很多并行編程語言和模型,其中使用最廣泛的是為可擴(kuò)展的集群計(jì)算設(shè)計(jì)的消息傳遞接口(MessagePassingInterface,MPI)和為共享存儲(chǔ)器的多處理器系統(tǒng)設(shè)計(jì)的OpenMP[14]。OpenMP最初是為CPU執(zhí)行而設(shè)計(jì)的。OpenACC[15]是計(jì)算機(jī)廠商為異構(gòu)計(jì)算系統(tǒng)提出的一種新編程模型,其主要優(yōu)勢(shì)是為抽象掉許多并行編程細(xì)節(jié)提供了編譯自動(dòng)化和運(yùn)行時(shí)系統(tǒng)支持。這使得應(yīng)用程序在不同廠商的計(jì)算機(jī)和同一廠商不同時(shí)代的產(chǎn)品中保持兼容性。然而,學(xué)習(xí)OpenACC需要理解所有相關(guān)的并行編程細(xì)節(jié)。在MPI編程模型中,集群中的計(jì)算節(jié)點(diǎn)之間相互不共享存儲(chǔ)器;節(jié)點(diǎn)之間的數(shù)據(jù)共享與交互都通過顯式傳遞消息的方式實(shí)現(xiàn)。MPI成功應(yīng)用于高性能科學(xué)計(jì)算(HPC)領(lǐng)域?,F(xiàn)在很多HPC集群采用的是異構(gòu)的CPU/GPU節(jié)點(diǎn)。在集群層次上,開發(fā)人員使用MPI進(jìn)行編程,但在節(jié)點(diǎn)層次上,CUDA是非常高效的編程接口。由于計(jì)算節(jié)點(diǎn)之間缺乏共享存儲(chǔ)器機(jī)制,要把應(yīng)用程序移植到MPI中需要做大量針對(duì)性分析和分解工作。包括蘋果公司在內(nèi)的幾大公司在2009年共同開發(fā)了一套標(biāo)準(zhǔn)編程接口,稱之為OpenCL[16]。與CUDA類似,OpenCL編程模型定義了語言擴(kuò)展和運(yùn)行時(shí)API,使程序員可以在大規(guī)模并行處理中進(jìn)行并行管理和數(shù)據(jù)傳遞。與CUDA相比,OpenCL更多地依賴API,而不是語言的擴(kuò)展,這允許廠商快速調(diào)整現(xiàn)有編譯器和工具來處理OpenCL程序。OpenCL和CUDA在關(guān)鍵概念和特性上有諸多相似之處,因此CUDA程序員可以很快掌握OpenCL。
1.5MATLAB因提供豐富的庫函數(shù)庫以及諸多其他研究者貢獻(xiàn)和共享的函數(shù)庫,MATLAB是研究人員實(shí)現(xiàn)算法的常用平臺(tái)。通過封裝的數(shù)據(jù)容器(GPUArrays)和函數(shù),MATLAB允許沒有底層CUDA編程能力的研究人員可以較容易獲得GPU計(jì)算能力,因此MATLAB較OpenCL更容易上手。截止準(zhǔn)備本文時(shí),2014版本的MATLAB提供了226個(gè)內(nèi)置的GPU版本的庫函數(shù)。對(duì)于有CUDA編程經(jīng)驗(yàn)的人員,MATLAB允許直接集成CUDA內(nèi)核進(jìn)MATLAB應(yīng)用。本文第四節(jié)的實(shí)驗(yàn)亦基于MATLAB實(shí)現(xiàn)。
1.6JACKET引擎JACKET[17]是一個(gè)由AccelerEyes公司開發(fā)專門用于以MATLAB為基礎(chǔ)的基于GPU的計(jì)算引擎,其最新版本已經(jīng)包含了高層的接口,完全屏蔽了底層硬件的復(fù)雜性,并支持所有支持CUDA的GPU計(jì)算,降低了進(jìn)行CUDA開發(fā)的門檻。JACKET是MATLAB代碼在GPU上運(yùn)行的插件。JACKET允許標(biāo)準(zhǔn)的MATLAB代碼能夠在任何支持CUDA的GPU上運(yùn)行,這使得廣大的MATLAB及C/C++用戶可以直接使用GPU強(qiáng)大的計(jì)算能力進(jìn)行相關(guān)應(yīng)用領(lǐng)域的快速原型開發(fā)。JACKET包含了一套運(yùn)行于MATLAB環(huán)境中優(yōu)化并行計(jì)算的基礎(chǔ)函數(shù)庫。并且支持MATLAB數(shù)據(jù)類型,可將任何存儲(chǔ)于MATLABCPU內(nèi)存中的變量數(shù)據(jù)轉(zhuǎn)換為GPU上的數(shù)據(jù)類型,對(duì)以往的MATLAB程序來說,只需更改數(shù)據(jù)類型,就能遷移到GPU上運(yùn)行。本文的第四節(jié)的實(shí)驗(yàn)亦基于JACKET在MATLAB上實(shí)現(xiàn)。
2相關(guān)工作綜述
2.1基于CPU的數(shù)據(jù)挖掘算法實(shí)現(xiàn)數(shù)據(jù)挖掘算法的研究一直很活躍,許多成熟和經(jīng)典的算法已經(jīng)實(shí)現(xiàn)在諸多研究或商用軟件包/平臺(tái),例如開源的Weka[18]和KNIME,以及商用的IBM公司的PASWModeler(即之前SPSS公司的Clementine®)。這些軟件默認(rèn)都是單機(jī)版本,可運(yùn)行在普通PC或高性能服務(wù)器上,基于CPU的計(jì)算能力。為了適應(yīng)目前大規(guī)模的計(jì)算,出現(xiàn)了基于Google公司提出的MapReduce[19]計(jì)算框架實(shí)現(xiàn)的開源數(shù)據(jù)挖掘平臺(tái)Mahout[20]。相關(guān)的研究起源于斯坦福大學(xué)AndrewNg研究組2006年的經(jīng)典論著[21]。由于現(xiàn)有的算法需要先找到可“遷移”到MapReduce的方式,因此目前Mahout平臺(tái)上僅有幾個(gè)能支持分布式部署的數(shù)據(jù)挖掘算法,包括用于分類的樸素貝葉斯、隨機(jī)森林,用于聚類的k-Means,基于項(xiàng)目的協(xié)同過濾等。目前Mahout仍然是基于CPU的計(jì)算能力。
2.2聚類算法聚類是數(shù)據(jù)挖掘中用來發(fā)現(xiàn)數(shù)據(jù)分布和隱含模式的一種無監(jiān)督學(xué)習(xí),每個(gè)訓(xùn)練元組的類標(biāo)號(hào)是未知的,并且要學(xué)習(xí)的個(gè)數(shù)或集合也可能事先不知道。對(duì)于給定的數(shù)據(jù)集,聚類算法按照一定的度量,將數(shù)據(jù)對(duì)象分組為多個(gè)簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別很大[22-23]。k-Means算法是經(jīng)典的基于距離/劃分的聚類分析算法,也是應(yīng)用得最廣泛的算法之一,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象距離越近,其相似度就越大。k-Means算法的流程如下[24]:輸入:簇的數(shù)目k和包含n個(gè)對(duì)象數(shù)據(jù)集D。輸出:k個(gè)簇的集合。方法:1)從D中任意選擇k個(gè)對(duì)象作為初始簇中心。計(jì)算每個(gè)數(shù)據(jù)對(duì)象到各簇中心的歐氏距離,將每個(gè)數(shù)據(jù)對(duì)象分配到最相似的簇中。2)重新計(jì)算每個(gè)簇中對(duì)象的均值。3)循環(huán)執(zhí)行步驟2-3兩個(gè)步驟,直到各個(gè)簇內(nèi)對(duì)象不再變化。上述算法步驟2屬于計(jì)算密度最大的部分,且具備并行化的條件。計(jì)算各個(gè)數(shù)據(jù)對(duì)象到各簇中心的歐氏距離和將數(shù)據(jù)對(duì)象分配到最近的簇的時(shí)候,數(shù)據(jù)對(duì)象之間都是相互獨(dú)立的,不需要進(jìn)行交換,且沒有先后順序,后計(jì)算的對(duì)象不需要等待前一次計(jì)算的結(jié)果,僅在完成全部分配過程之后,才需要進(jìn)行一次數(shù)據(jù)匯總。所以文獻(xiàn)[25]的作者們使用GPU并行優(yōu)化了一維數(shù)據(jù)的k-Means算法的步驟2,并使用帶緩存機(jī)制的常數(shù)存儲(chǔ)器保存中心點(diǎn)數(shù)據(jù),能獲得更好的讀取效率。文獻(xiàn)中還展示了實(shí)驗(yàn)結(jié)果,在8600GT上取得了14倍左右的加速效果。DBSCAN屬于基于密度的聚類算法中最常被引用的,G-DBSCAN是它的一個(gè)GPU加速版本[26]。文獻(xiàn)[26]的實(shí)驗(yàn)顯示較DBSCAN可以實(shí)現(xiàn)高達(dá)112倍的加速。BIRCH是經(jīng)典的基于層次的聚類算法,文獻(xiàn)[27]中基于CUDA實(shí)現(xiàn)的GPU加速版本在實(shí)驗(yàn)中獲得了高達(dá)154倍的加速。
2.3分類算法分類是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一,至今已經(jīng)提出很多算法。分類算法[28]是一種監(jiān)督學(xué)習(xí),通過對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。分類算法是將一個(gè)未知樣本分到幾個(gè)已存在類的過程,主要包含兩個(gè)步驟:首先,根據(jù)類標(biāo)號(hào)已知的訓(xùn)練數(shù)據(jù)集,訓(xùn)練并構(gòu)建一個(gè)模型,用于描述預(yù)定的數(shù)據(jù)類集或概念集;其次,使用所獲得的模型對(duì)新的數(shù)據(jù)進(jìn)行分類。近年來,許多研究已經(jīng)轉(zhuǎn)向?qū)崿F(xiàn)基于GPU加速分類算法,包括k-NN(k近鄰)分類算法[29],支持向量機(jī)分類算法[30],貝葉斯分類算法[31-32]等。kNN算法[33]是數(shù)據(jù)挖掘中應(yīng)用最廣泛的一種分類算法,簡(jiǎn)單易實(shí)現(xiàn)。它是一種典型的基于實(shí)例的學(xué)習(xí)法,將待判定的檢驗(yàn)元組與所有的訓(xùn)練元組進(jìn)行比較,挑選與其最相似的k個(gè)訓(xùn)練數(shù)據(jù),基于相應(yīng)的標(biāo)簽和一定的選舉規(guī)則來決定其標(biāo)簽。在ShenshenLiang等人的文章[34]指出,由于kNN算法是一種惰性學(xué)習(xí)法,對(duì)于每個(gè)待分類的樣本,它都需要計(jì)算其與訓(xùn)練樣本庫中所有樣本的距離,然后通過排序,才能得到與待分類樣本最相鄰的k個(gè)鄰居。那么當(dāng)遇到大規(guī)模數(shù)據(jù)并且是高維樣本時(shí),kNN算法的時(shí)間復(fù)雜度和空間復(fù)雜度將會(huì)很高,造成執(zhí)行效率低下,無法勝任大數(shù)據(jù)分析任務(wù)。所以加速距離的計(jì)算是提高kNN算法的核心問題。因?yàn)槊總€(gè)待分類的樣本都可以獨(dú)立地進(jìn)行kNN分類,前后之間沒有計(jì)算順序上的相關(guān)性,因此可以采用GPU并行運(yùn)算方法解決kNN算法串行復(fù)雜度高的問題。將計(jì)算測(cè)試集和訓(xùn)練集中點(diǎn)與點(diǎn)之間的距離和排序一步采用GPU并行化完成,其余如判斷類標(biāo)號(hào)一步難以在GPU上高效實(shí)現(xiàn),由CPU完成。文獻(xiàn)[34]通過GPU并行化實(shí)現(xiàn)kNN算法,讓kNN算法時(shí)間復(fù)雜度大幅度減少,從而說明GPU對(duì)kNN算法的加速效果是非常明顯的。
2.4關(guān)聯(lián)分析算法關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中較成熟和重要的研究方法,旨在挖掘事務(wù)數(shù)據(jù)庫頻繁出現(xiàn)的項(xiàng)集。因此,挖掘關(guān)聯(lián)規(guī)則的問題可以歸結(jié)為挖掘頻繁項(xiàng)集[35]。關(guān)聯(lián)分析算法首先找出所有的頻繁項(xiàng)集,然后根據(jù)最小支持度和最小置信度從頻繁項(xiàng)集中產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法[36]是最有影響力的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的經(jīng)典算法。Apriori算法使用逐層搜索的迭代方法產(chǎn)生頻繁項(xiàng)目集,即利用k頻繁項(xiàng)集來產(chǎn)生(k+1)項(xiàng)集,是一種基于生成候選項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘方法。在劉瑩等人的文章[37]中指出,產(chǎn)生候選項(xiàng)和計(jì)算支持度,占據(jù)Apriori的大部分計(jì)算量。產(chǎn)生候選項(xiàng)的任務(wù)是連接兩個(gè)頻繁項(xiàng)集,而這個(gè)任務(wù)在不同線程之間是獨(dú)立的,所以這個(gè)過程適合在GPU上被并行化。通過掃描交易數(shù)據(jù)庫,計(jì)算支持度程序記錄一個(gè)候選項(xiàng)集出現(xiàn)的次數(shù)。由于每個(gè)候選項(xiàng)集的計(jì)數(shù)與其他項(xiàng)集的計(jì)數(shù)相對(duì)獨(dú)立,同樣適合于多線程并行。所以文獻(xiàn)[37]的作者們?cè)趯?shí)現(xiàn)Apriori時(shí)使用GPU并行化了產(chǎn)生候選項(xiàng)和計(jì)算支持度這兩個(gè)過程,取得了顯著的加速效果。文獻(xiàn)[38]是目前發(fā)現(xiàn)的對(duì)于在GPU上實(shí)現(xiàn)頻繁項(xiàng)集挖掘最全面細(xì)致的研究。他們使用的是早期的CUDA平臺(tái),采用了bitmap和trie兩種數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)GPU的挖掘算法,并且根據(jù)不同數(shù)據(jù)集和支持度進(jìn)行了算法性能的對(duì)比,均相對(duì)于CPU版本的算法獲得的一定的加速比。
2.5時(shí)序分析由于越來越多的數(shù)據(jù)都與時(shí)間有著密切的關(guān)系,時(shí)序數(shù)據(jù)作為數(shù)據(jù)挖掘研究的重要分支之一,越來越受到人們的重視。其研究的目的主要包括以下兩個(gè)方面:一是學(xué)習(xí)待觀察過程過去的行為特征;二是預(yù)測(cè)未來該過程的可能狀態(tài)或表現(xiàn)。時(shí)序數(shù)據(jù)挖掘主要包含以下幾個(gè)主要任務(wù):數(shù)據(jù)預(yù)處理,時(shí)序數(shù)據(jù)表示,分割,相似度度量,分類,聚類等。這些任務(wù)中很多都涉及到相當(dāng)大的計(jì)算量。由于問題規(guī)模的不斷擴(kuò)大,并且對(duì)于實(shí)時(shí)性能的要求,時(shí)序數(shù)據(jù)挖掘的任務(wù)就必須要求充分地提高計(jì)算速度或者通過優(yōu)化減少計(jì)算量。時(shí)序數(shù)據(jù)的表示有時(shí)候會(huì)采取特征來表示,這就涉及到了特征提取問題,當(dāng)特征數(shù)量龐大的時(shí)候就需要進(jìn)行維數(shù)約簡(jiǎn),主要的方法有奇異值分解法,離散小波變換。這些計(jì)算都涉及到很大的時(shí)間復(fù)雜度,為了減少計(jì)算的時(shí)間消耗,SheetalLahabar等人使用GPU加速SVD的計(jì)算,獲得了60多倍的加速效果[39]。動(dòng)態(tài)時(shí)間彎曲(DynamicTimeWarping,DTW)起初被應(yīng)用于文本數(shù)據(jù)匹配和視覺模式識(shí)別的研究領(lǐng)域,是一種相似性度量算法。研究表明這種基于非線性彎曲技術(shù)的算法可以獲得很高的識(shí)別、匹配精度。Berndt和Clifford提出了將DTW的概念引入小型時(shí)間序列分析領(lǐng)域,在初步的實(shí)驗(yàn)中取得了較好的結(jié)果[40]。隨著問題規(guī)模的擴(kuò)大,對(duì)于DTW的計(jì)算成為了時(shí)序數(shù)據(jù)挖掘的首先要處理的問題。在DTW中,搜索需要找出與訓(xùn)練數(shù)據(jù)最近距離的樣本,這就需要搜索與每個(gè)訓(xùn)練樣本的距離,這就可以很好的利用GPU進(jìn)行并行化處理。DorukSart等人在對(duì)DTW加速的處理中,獲得了兩個(gè)數(shù)量級(jí)的加速效果[41]。而對(duì)于分類和聚類任務(wù)的加速,上面已經(jīng)提到,這里不再累贅。
2.6深度學(xué)習(xí)深度學(xué)習(xí)雖然隸屬機(jī)器學(xué)習(xí),但鑒于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的緊密聯(lián)系,深度學(xué)習(xí)必定將在數(shù)據(jù)挖掘領(lǐng)域獲得越來越多的應(yīng)用。從2006年Hinton和他的學(xué)生Salakhutdinov在《科學(xué)》上發(fā)表的文章[42]開始,深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。深度學(xué)習(xí)的實(shí)質(zhì)是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類預(yù)測(cè)的準(zhǔn)確性[43]。如何在工程上利用大規(guī)模的并行計(jì)算平臺(tái)來實(shí)現(xiàn)海量數(shù)據(jù)訓(xùn)練,是各個(gè)機(jī)構(gòu)從事深度學(xué)習(xí)技術(shù)研發(fā)首先要解決的問題。傳統(tǒng)的大數(shù)據(jù)平臺(tái)如Hadoop,由于數(shù)據(jù)處理延遲太高而不適合需要頻繁迭代的深度學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)一般基于大量相似的神經(jīng)元,故本質(zhì)上可以高度并行化訓(xùn)練;通過映射到GPU,可以實(shí)現(xiàn)比單純依賴CPU顯著地提升。谷歌搭建的DistBelief是一個(gè)采用普通服務(wù)器的深度學(xué)習(xí)并行計(jì)算平臺(tái),采用異步算法,由很多計(jì)算單元獨(dú)立更新同一個(gè)參數(shù)服務(wù)器的模型參數(shù),實(shí)現(xiàn)了隨機(jī)梯度下降算法的并行化,加快了模型訓(xùn)練速度。百度的多GPU并行計(jì)算平臺(tái)克服了傳統(tǒng)SGD訓(xùn)練不能并行的技術(shù)難題,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練已經(jīng)可以在海量語料上并行展開。NVIDIA在2014年9月推出了深度學(xué)習(xí)GPU加速庫cuDNN,可以方便地嵌入高層級(jí)機(jī)器學(xué)習(xí)框架中使用,例如Caffe[45]。cuDNN支持NVIDIA的全系列GPU,包括低端的TegraK1和高端的TeslaK40,并承諾可向上支持未來的GPU。
2.7小結(jié)并行化能帶來多少倍的加速取決于算法中可并行化的部分。例如,如果可并行部分的時(shí)間占整個(gè)應(yīng)用程序執(zhí)行時(shí)間的20%,那么即使將并行部分加速100倍,總執(zhí)行時(shí)間也只能減少19.8%,整個(gè)應(yīng)用程序的加速只有1.247倍;即使無限加速也只能減少約20%的執(zhí)行時(shí)間,總加速不會(huì)超過1.25倍。對(duì)于一個(gè)數(shù)據(jù)挖掘(學(xué)習(xí)和預(yù)測(cè))算法進(jìn)行GPU加速實(shí)現(xiàn),首先要思考是否存在可并行執(zhí)行的部分,之后再結(jié)合GPU的架構(gòu)特點(diǎn)進(jìn)行針對(duì)性實(shí)現(xiàn)優(yōu)化。然而,由于數(shù)據(jù)挖掘算法普遍是數(shù)據(jù)密集型計(jì)算,而GPU片內(nèi)存儲(chǔ)容量有限,如何降低與內(nèi)存交換數(shù)據(jù)集是一個(gè)要解決的關(guān)鍵問題。通過以上相關(guān)工作的分析,可以發(fā)現(xiàn)數(shù)據(jù)挖掘算法在GPU上的加速具有數(shù)據(jù)獨(dú)立,可并行化共同特征。本文提出數(shù)據(jù)挖掘算法在GPU上加速實(shí)現(xiàn)的一種解決思路:在大數(shù)據(jù)下,分析算法的性能瓶頸,從而確定算法中耗時(shí)大,時(shí)間復(fù)雜度高的部分,將此部分在GPU上執(zhí)行,不耗時(shí)部分在CPU上串行執(zhí)行,以達(dá)到加速效果。為了更充分利用GPU的并行計(jì)算的體系結(jié)構(gòu),可深入分析耗時(shí)大的部分,將具有數(shù)據(jù)獨(dú)立,可并行化的部分在GPU上并行執(zhí)行,達(dá)到更進(jìn)一步的加速效果。
3實(shí)踐和分析:協(xié)同過濾推薦
當(dāng)前主要的協(xié)同過濾推薦算法有兩類:基于用戶(r-based)和基于項(xiàng)目(item-based)的協(xié)同過濾推薦算法?;陧?xiàng)目的協(xié)同過濾推薦算法[46-50]認(rèn)為,項(xiàng)目間的評(píng)分具有相似性,可以通過用戶對(duì)目標(biāo)項(xiàng)目的若干相似項(xiàng)目的評(píng)分來估計(jì)該項(xiàng)目的分值?;谟脩舻膮f(xié)同過濾推薦算法認(rèn)為,如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,那么他們對(duì)其他項(xiàng)目的評(píng)分也比較相似。本文根據(jù)以上總結(jié)的算法特征圍繞兩種經(jīng)典協(xié)同過濾算法的實(shí)現(xiàn),通過大規(guī)模數(shù)據(jù)的實(shí)驗(yàn)來驗(yàn)證GPU相對(duì)于傳統(tǒng)CPU的優(yōu)勢(shì)。
3.1算法實(shí)現(xiàn)
3.1.1基于CPU實(shí)現(xiàn)協(xié)同過濾推薦的兩類經(jīng)典算法本文基于MATLAB實(shí)現(xiàn)CPU版本的基于用戶和基于項(xiàng)目的兩種經(jīng)典協(xié)同過濾推薦算法。實(shí)現(xiàn)的步驟:1)數(shù)據(jù)表示:收集用戶的評(píng)分?jǐn)?shù)據(jù),并進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成一個(gè)mn的用戶-項(xiàng)目評(píng)分矩陣R,m和n分別代表矩陣中的用戶數(shù)和項(xiàng)目數(shù),矩陣中的元素代表用戶對(duì)項(xiàng)目的評(píng)分值。2)最近鄰居搜索:主要完成對(duì)目標(biāo)用戶/項(xiàng)目的最近鄰居的查找。通過計(jì)算目標(biāo)用戶/項(xiàng)目與其他用戶/項(xiàng)目之間的相似度,算出與目標(biāo)用戶/項(xiàng)目最相似的最近鄰居集。該過程分兩步完成:首先采用協(xié)同過濾推薦算法中運(yùn)用較多的度量方法“Pearson相關(guān)系數(shù)”計(jì)算用戶/項(xiàng)目之間的相似度得到相應(yīng)的相似度矩陣,其次是采用最近鄰方法找到目標(biāo)用戶/項(xiàng)目的最近的K個(gè)鄰居,這些鄰居是由與目標(biāo)相似度最高的一些用戶/項(xiàng)目組成的。3)產(chǎn)生推薦:根據(jù)之前計(jì)算好的用戶/項(xiàng)目之間的相似度,并使用相應(yīng)的預(yù)測(cè)評(píng)分函數(shù)對(duì)用戶未打分的項(xiàng)目進(jìn)行預(yù)測(cè),得到預(yù)測(cè)評(píng)分矩陣,然后選擇預(yù)測(cè)評(píng)分最高的Top-n項(xiàng)推薦給目標(biāo)用戶。4)性能評(píng)估:本研究擬采用平均絕對(duì)誤差MAE作為評(píng)價(jià)推薦系統(tǒng)預(yù)測(cè)質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)。MAE可以直觀地對(duì)預(yù)測(cè)質(zhì)量進(jìn)行度量,是最常用的一種方法。MAE通過計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際評(píng)分之間的偏差度量預(yù)測(cè)的準(zhǔn)確性;MAE越小,預(yù)測(cè)質(zhì)量越高。
3.1.2基于GPU實(shí)現(xiàn)協(xié)同過濾推薦的兩類經(jīng)典算法在大數(shù)據(jù)下,協(xié)同過濾算法中主要的時(shí)間消耗在于相似度計(jì)算模塊,占了整個(gè)算法的大部分時(shí)間,且每個(gè)用戶/項(xiàng)目之間的相似度可以被獨(dú)立計(jì)算,不依靠其他用戶/項(xiàng)目,具備并行化的條件,所以在以下的實(shí)驗(yàn)中,將相似度計(jì)算模塊在GPU上執(zhí)行,其他部分在CPU上執(zhí)行,進(jìn)而提高整個(gè)算法的執(zhí)行效率。使用MATLAB編程技術(shù)和JACKET編程技術(shù)在GPU上分別實(shí)現(xiàn)基于用戶和基于項(xiàng)目的兩種經(jīng)典協(xié)同過濾推薦算法。實(shí)現(xiàn)步驟如下:1)數(shù)據(jù)表示:收集用戶的評(píng)分?jǐn)?shù)據(jù),并進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換,最終形成用戶-項(xiàng)目評(píng)分矩陣。2)將收集的數(shù)據(jù)從CPU傳輸至GPU。3)對(duì)傳輸?shù)紾PU上的數(shù)據(jù)執(zhí)行GPU操作,調(diào)用相關(guān)函數(shù)庫,采用公式(1)和(2)分別計(jì)算并獲取用戶/項(xiàng)目間的相似度矩陣。4)將GPU計(jì)算結(jié)果返回CPU中以便后續(xù)操作。5)采用公式(3)和(4)在CPU上分別獲取兩種經(jīng)典算法的評(píng)分預(yù)測(cè)矩陣。6)選擇預(yù)測(cè)評(píng)分最高的Top-n項(xiàng)推薦給目標(biāo)用戶。7)采用公式(5)求兩種經(jīng)典算法的平均絕對(duì)誤差MAE。
3.2實(shí)驗(yàn)結(jié)果與分析
3.2.1實(shí)驗(yàn)環(huán)境本實(shí)驗(yàn)所用的CPU是IntelXeonE52687W,核心數(shù)量是八核,主頻率是3.1GHz,內(nèi)存大小是32GB;所使用的GPU是NVIDIAQuadroK4000,顯存容量是3GB,顯存帶寬是134GB/s核心頻率是811MHz,流處理器數(shù)是768個(gè)。使用Windows764位操作系統(tǒng),編程環(huán)境使用最新的CUDA。
3.2.2實(shí)驗(yàn)數(shù)據(jù)本實(shí)驗(yàn)使用目前比較常用的MovieLens[56]數(shù)據(jù)集作為測(cè)試數(shù)據(jù),該數(shù)據(jù)集從MovieLens網(wǎng)站采集而來,由美國Minnesota大學(xué)的GroupLens研究小組提供,數(shù)據(jù)集1包含943個(gè)用戶對(duì)1682部電影約10萬的評(píng)分?jǐn)?shù)據(jù),數(shù)據(jù)集2包含6040個(gè)用戶對(duì)3952部電影約100萬的評(píng)分?jǐn)?shù)據(jù),其中每個(gè)用戶至少對(duì)20部電影進(jìn)行了評(píng)分。評(píng)分的范圍是1~5,1表示“很差”,5表示“很好”。實(shí)驗(yàn)需要將每個(gè)數(shù)據(jù)集劃分為一個(gè)訓(xùn)練集和一個(gè)測(cè)試集,每次隨機(jī)選出其中80%的評(píng)分?jǐn)?shù)據(jù)用作訓(xùn)練集,另20%用作測(cè)試集。
3.2.3實(shí)驗(yàn)結(jié)果與分析本文采用加速比來比較算法的CPU實(shí)現(xiàn)和GPU實(shí)現(xiàn)的運(yùn)行效率。計(jì)算加速比的方法如式(6)所示:在公式中,TimeCPU表示算法在CPU上的平均運(yùn)行時(shí)間,TimeGPU表示算法在GPU上的平均運(yùn)行時(shí)間。所有實(shí)驗(yàn)中均取最近鄰居數(shù)為20,且各實(shí)驗(yàn)結(jié)果均為5次獨(dú)立測(cè)試的平均值。圖2是關(guān)于兩個(gè)算法核心步驟的加速效果,而圖3則展示了算法整體加速效果??梢钥闯觯?)整體加速效果取決于核心步驟的加速效果,(2)GPU版本的算法在性能上較CPU版本有較顯著地優(yōu)勢(shì),且面對(duì)大數(shù)據(jù)集的加速效果更為明顯。例如在基于100萬條數(shù)據(jù)集時(shí),Item-based的整體算法的加速比達(dá)到了14倍左右,而面對(duì)10萬條數(shù)據(jù)集時(shí),加速比不到8倍。這可以解釋為GPU的多核優(yōu)勢(shì)在面對(duì)大數(shù)據(jù)集時(shí)被更為充分地得到釋放;(3)算法對(duì)r-based和Item-based兩種算法的加速比相近。圖4是關(guān)于算法預(yù)測(cè)效果的評(píng)估,可以看出基于GPU加速的兩類經(jīng)典協(xié)同過濾算法與基于CPU的兩類經(jīng)典協(xié)同過濾算法在預(yù)測(cè)效果上相近。如果結(jié)合圖2和圖3,可獲得結(jié)論-能夠基于GPU獲得得可觀的計(jì)算加速而不犧牲應(yīng)用效果。
3.3小結(jié)
本文通過使用JACKET加快開發(fā)過程。目前國內(nèi)還缺少對(duì)JACKET的了解和應(yīng)用,JACKET的出現(xiàn)為科學(xué)領(lǐng)域進(jìn)行大規(guī)模計(jì)算仿真提供了新的研究方法,并使得研究人員可以在熟悉的MATLAB平臺(tái)上實(shí)現(xiàn)相關(guān)算法。
4結(jié)束語
在電子商務(wù)進(jìn)行應(yīng)用的數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)過程大致要?jiǎng)澐譃槿齻€(gè)不同的階段:第一部分對(duì)需要挖掘的數(shù)據(jù)信息的準(zhǔn)備階段,第二部分對(duì)數(shù)據(jù)信息的挖掘階段,第三部分的主要任務(wù)是對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋與評(píng)價(jià).
1.1數(shù)據(jù)信息的準(zhǔn)備準(zhǔn)備部分又可以分成數(shù)據(jù)的選取、數(shù)據(jù)信息的預(yù)處理.對(duì)數(shù)據(jù)進(jìn)行選取的主要目的就是對(duì)操作對(duì)象進(jìn)行確定,即是對(duì)目標(biāo)數(shù)據(jù)進(jìn)行確定,所謂的目標(biāo)數(shù)據(jù)是在經(jīng)過對(duì)用戶的需要進(jìn)行細(xì)致分析之后,對(duì)最有可能得到有利用價(jià)值的信息的那些從數(shù)據(jù)庫中抽取出來的數(shù)據(jù).獲取到這些數(shù)據(jù)以后需要進(jìn)行預(yù)處理,主要包含數(shù)據(jù)的去噪、計(jì)算缺值數(shù)據(jù)的推導(dǎo)、數(shù)據(jù)類型的轉(zhuǎn)換,數(shù)據(jù)類型轉(zhuǎn)換舉個(gè)例子來說比如把連續(xù)型數(shù)據(jù)轉(zhuǎn)化成離散數(shù)據(jù),以方便進(jìn)行符號(hào)的歸納.
1.2挖掘過程數(shù)據(jù)信息的挖掘階段是在上一步的基礎(chǔ)之上,即在目標(biāo)數(shù)據(jù)已經(jīng)確定,并且已經(jīng)完成了初始化的基礎(chǔ)之上,需要確定數(shù)據(jù)挖掘的目的與挖掘的類型.在對(duì)挖掘任務(wù)的目標(biāo)確定之后,要根據(jù)數(shù)據(jù)挖掘的知識(shí)類型選取合適的數(shù)據(jù)挖掘方法,最終完成數(shù)據(jù)挖掘具體操作即采用特定的數(shù)據(jù)挖掘方法從數(shù)據(jù)倉庫中抽取所需的挖掘目標(biāo).
1.3挖掘結(jié)果的解釋和評(píng)價(jià)數(shù)據(jù)挖掘的結(jié)果的解釋和評(píng)價(jià)是在完成數(shù)據(jù)挖掘階段之后對(duì)發(fā)現(xiàn)的知識(shí),進(jìn)行評(píng)估,對(duì)于冗余或者無關(guān)的知識(shí)要進(jìn)行刪除;對(duì)于獲得的知識(shí)不符合用戶的要求的要進(jìn)行重新的挖掘.與此同時(shí),因?yàn)閿?shù)據(jù)挖掘需要面臨用戶,所以,在得到目標(biāo)知識(shí)以后還需要對(duì)所挖掘的知識(shí)附加相關(guān)解釋,來用一種便于用戶理解的方式供用戶使用.綜上所述,整個(gè)數(shù)據(jù)信息的挖掘在實(shí)際情況下是一個(gè)不斷地循環(huán)與反復(fù)的過程,所以要對(duì)所挖掘出來的知識(shí)不斷求精和深化,最終要獲得用戶所需要的結(jié)果.
2電子商務(wù)中數(shù)據(jù)挖掘的特點(diǎn)
由于電子商務(wù)自身的某些獨(dú)特的特點(diǎn),同其他的應(yīng)用于普通商業(yè)領(lǐng)域中的數(shù)據(jù)挖掘相比,應(yīng)用于電子商務(wù)的數(shù)據(jù)挖掘具有如下幾個(gè)特點(diǎn):(1)應(yīng)用于電子商務(wù)的數(shù)據(jù)挖掘的最終目的主要表現(xiàn)在企業(yè)與客戶之間的關(guān)系管理方面,電子商務(wù)利用因特網(wǎng)的技術(shù)能夠使企業(yè)和客戶之間的關(guān)系處理變得更加方便.所以,其主要的功能是怎樣使企業(yè)采用這些頻繁的交流信息,快速的掌握客戶的趨向、改善與客戶交流情況或者獲取交流方向等;(2)電子商務(wù)本身就是一個(gè)信息化程度比較高的系統(tǒng),其自身累積的數(shù)據(jù)信息會(huì)存放在電子商務(wù)數(shù)據(jù)庫內(nèi),用戶可以比較便捷地得到這些信息,所以對(duì)于電子商務(wù)的數(shù)據(jù)挖掘的數(shù)據(jù)信息的準(zhǔn)備階段的相關(guān)工作就變得相對(duì)容易;(3)電子商務(wù)領(lǐng)域的數(shù)據(jù)挖掘的主要目標(biāo)一般是使電子商務(wù)系統(tǒng)得到有效的改進(jìn).例如為客戶提供個(gè)性化頁面、把用戶比較感興趣的信息展現(xiàn)在網(wǎng)站首頁或得到哪一些商品比較受到客戶的歡迎等.
3電子商務(wù)中的數(shù)據(jù)挖掘運(yùn)用
首先要講的是關(guān)聯(lián)規(guī)則在電子商務(wù)中的運(yùn)用,利用比較通俗的語言來講,從一個(gè)事件的發(fā)生與否方面進(jìn)行解釋,所謂的關(guān)聯(lián)規(guī)則法在大量的事件發(fā)生或者不發(fā)生的條件下,對(duì)這些事件中的任意兩個(gè)或者多個(gè)事件提取出來,通過一定的統(tǒng)計(jì)分析算法,最終確定兩個(gè)或者多個(gè)事件的發(fā)生與否是否存在著某種關(guān)系,而這種可能存在的管理,我們稱之為關(guān)聯(lián)規(guī)則.列舉一個(gè)有趣的故事,就是在一個(gè)超市里面,店家把小孩的尿布同啤酒放到了一起,來供購買者進(jìn)行購買,結(jié)果是二者的銷量都提升了一倍,其實(shí)這就是因?yàn)槎咧g有著某種潛在聯(lián)系,店家通過數(shù)據(jù)挖掘的方法發(fā)現(xiàn)的這個(gè)規(guī)則,并對(duì)這一關(guān)聯(lián)規(guī)則進(jìn)行了實(shí)際的運(yùn)用,從中得到了益處.同樣在電子商務(wù)中通過數(shù)據(jù)挖掘得到關(guān)聯(lián)規(guī)則,有著類似的意義.其次在電子商務(wù)中數(shù)據(jù)挖掘聚類分析方法的應(yīng)用.在大量數(shù)據(jù)倉庫中,數(shù)據(jù)與數(shù)據(jù)之間,往往會(huì)有某些性質(zhì)的類型相似,同樣也會(huì)有某些性質(zhì)或者特點(diǎn)相異,我們把這些性質(zhì)或者特點(diǎn)稱為觀察指標(biāo),聚類分析就是對(duì)于某一個(gè)特點(diǎn)指標(biāo)而言,把指標(biāo)相差不多的數(shù)據(jù)劃分為同一個(gè)類型,若相差較大則要?jiǎng)澐譃椴煌念愋?、這種操作的主要意義就是將具有某種特定的相似特性的客戶或者數(shù)據(jù)分成一個(gè)類.在電子商務(wù)活動(dòng)中,這一方法的應(yīng)用主要集中在市場(chǎng)細(xì)分的工作之中.分類分析系統(tǒng)的建立以生物的遺傳算法為基礎(chǔ),屬于其中的自學(xué)習(xí)的一種,它一般會(huì)包含三個(gè)子系統(tǒng),第一個(gè)是以串規(guī)則為基礎(chǔ)的并行生成子系統(tǒng)、第二個(gè)是規(guī)則評(píng)價(jià)子系統(tǒng).第三個(gè)是遺傳算法子系統(tǒng).分類分析可以說是電子商務(wù)中運(yùn)用到數(shù)據(jù)挖掘最多的一種挖掘方式.主要原因就是在于其能夠形成一種預(yù)測(cè)模型能夠?qū)σ恍I銷方式或者其他的一些商業(yè)措施做出正確的預(yù)測(cè).
4數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
更高效的利用企業(yè)現(xiàn)有資源以及開發(fā)新資源是當(dāng)代企業(yè)發(fā)展的關(guān)鍵.電子商務(wù)通過采用數(shù)據(jù)挖掘的技術(shù),能夠更加及時(shí)和正確的獲得企業(yè)當(dāng)前所有資源的具體使用情況,而且通過數(shù)據(jù)挖掘的技術(shù)可以分析以往的各種企業(yè)數(shù)據(jù),比如說企業(yè)財(cái)務(wù)數(shù)據(jù)、企業(yè)庫存數(shù)據(jù)或者企業(yè)交易數(shù)據(jù),能夠較為及時(shí)的發(fā)現(xiàn)企業(yè)資源過度消耗的主要問題所在,或者能夠得到各種商務(wù)活動(dòng)的投入與產(chǎn)出的比例,來為企業(yè)領(lǐng)導(dǎo)進(jìn)行經(jīng)營決策提供有力的根據(jù)[6].另外在企業(yè)的經(jīng)營過程中,人們不斷推崇“以客戶為中心”的經(jīng)營理念,在這一趨勢(shì)下,如何正確快速的分析和了解客戶的需求已成為企業(yè)提高自身市場(chǎng)競(jìng)爭(zhēng)力的一大課題.通過把數(shù)據(jù)挖掘應(yīng)用到電子商務(wù)之中,能夠使企業(yè)最準(zhǔn)確的分析客戶資源并最有效的利用企業(yè)客戶資源,通過對(duì)已有客戶行為進(jìn)行相關(guān)性分析,可以形成潛在客戶資源的預(yù)測(cè)模型.除此之外在企業(yè)經(jīng)營過程中,利用數(shù)據(jù)挖掘可以解決另外一個(gè)嚴(yán)重影響了商業(yè)正常秩序的重要問題.即當(dāng)前時(shí)區(qū)商務(wù)活動(dòng)中的地下的信用狀況問題,這一問題的嚴(yán)重程度已經(jīng)引起了人們的廣泛關(guān)注.在電子商務(wù)經(jīng)營過程中,因?yàn)榫W(wǎng)上詐騙公司或者企業(yè)財(cái)務(wù)的現(xiàn)象屢見不鮮,信用危機(jī)已經(jīng)成為影響其快速正常發(fā)展的一個(gè)重要因素.而通過在電子商務(wù)中采用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對(duì)企業(yè)經(jīng)營活動(dòng)的跟蹤,在此基礎(chǔ)上實(shí)現(xiàn)企業(yè)的資產(chǎn)評(píng)估、利潤收益分析以及發(fā)展?jié)摿︻A(yù)測(cè)分析等,為電子商務(wù)在經(jīng)營過程中提供了完善的安全保障體系,同時(shí)利用數(shù)據(jù)挖掘?qū)崿F(xiàn)企業(yè)網(wǎng)上全程監(jiān)控.另外通過實(shí)現(xiàn)基于數(shù)據(jù)挖掘的信用評(píng)估模型,可以在很大程度上進(jìn)行防范或者化解信用風(fēng)險(xiǎn),從而提高企業(yè)的信用度以及應(yīng)對(duì)風(fēng)險(xiǎn)能力.
5結(jié)束語
1.1數(shù)據(jù)挖掘技術(shù)概述
發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)能夠被接受、理解和運(yùn)用。也就是發(fā)現(xiàn)全部相對(duì)的知識(shí),是具有特定前提與條件,面向既定領(lǐng)域的,同時(shí)還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點(diǎn)為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價(jià)值的商業(yè)數(shù)據(jù)。簡(jiǎn)單來說,其實(shí)數(shù)據(jù)挖掘是一種對(duì)數(shù)據(jù)進(jìn)行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘?yàn)椋焊鶕?jù)企業(yè)設(shè)定的工作目標(biāo),探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識(shí)包括:
1.1.1廣義知識(shí)體現(xiàn)相同事物共同性質(zhì)的知識(shí),是指類別特點(diǎn)的概括描述知識(shí)。按照數(shù)據(jù)的微觀特點(diǎn)對(duì)其表征的、具有普遍性的、極高概念層次的知識(shí)積極發(fā)現(xiàn),是對(duì)數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識(shí)的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。
1.1.2關(guān)聯(lián)知識(shí)體現(xiàn)一個(gè)事件與其他事件之間形成的關(guān)聯(lián)知識(shí)。假如兩項(xiàng)或者更多項(xiàng)之間形成關(guān)聯(lián),則其中一項(xiàng)的屬性數(shù)值就能夠借助其他屬性數(shù)值實(shí)行預(yù)測(cè)。
1.1.3分類知識(shí)體現(xiàn)相同事物共同特點(diǎn)的屬性知識(shí)與不同事物之間差異特點(diǎn)知識(shí)。
1.2數(shù)據(jù)挖掘過程
1.2.1明確業(yè)務(wù)對(duì)象對(duì)業(yè)務(wù)問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預(yù)測(cè)的,但是研究的問題是可預(yù)見的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會(huì)體現(xiàn)出盲目性,通常也不會(huì)獲得成功。基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級(jí)職業(yè)技術(shù)學(xué)校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn),基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會(huì)解決大量現(xiàn)實(shí)問題,為企業(yè)確定目標(biāo)市場(chǎng)、完善決策、獲得最大競(jìng)爭(zhēng)優(yōu)勢(shì),其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競(jìng)爭(zhēng)力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過程、用戶細(xì)分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。
1.2.2數(shù)據(jù)準(zhǔn)備第一選擇數(shù)據(jù):是按照用戶的挖掘目標(biāo),對(duì)全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對(duì)數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計(jì)算機(jī)丟失的數(shù)據(jù),清除重復(fù)記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對(duì)象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。
1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個(gè)分析模型。這一分析模型是相對(duì)于挖掘算法構(gòu)建的。構(gòu)建一個(gè)與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點(diǎn)??梢岳猛队皵?shù)據(jù)庫的相關(guān)操作對(duì)數(shù)據(jù)維度有效降低,進(jìn)一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。
1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟(jì)轉(zhuǎn)化的數(shù)據(jù)。除了對(duì)選擇科學(xué)挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對(duì)某些挖掘參數(shù)能夠積極控制。
1.2.5評(píng)價(jià)挖掘結(jié)果這個(gè)過程劃分為兩個(gè)步驟:表達(dá)結(jié)果和評(píng)價(jià)結(jié)果。第一表達(dá)結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對(duì)挖掘結(jié)果積極理解。第二評(píng)價(jià)結(jié)果:用戶與機(jī)器對(duì)數(shù)據(jù)挖掘獲得的模式有效評(píng)價(jià),對(duì)冗余或者無關(guān)的模式及時(shí)刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對(duì)挖掘過程科學(xué)執(zhí)行,直到獲得用戶滿意為止。
2用戶細(xì)分理論
用戶細(xì)分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價(jià)值的細(xì)分理論,其不僅包含了用戶為企業(yè)貢獻(xiàn)歷史利潤,還包含未來利潤,也就是在未來用戶為企業(yè)可能帶來的利潤總和?;谟脩魞r(jià)值的細(xì)分理論選擇客戶當(dāng)前價(jià)值與客戶潛在價(jià)值兩個(gè)因素評(píng)價(jià)用戶。用戶當(dāng)前價(jià)值是指截止到目前用戶對(duì)企業(yè)貢獻(xiàn)的總體價(jià)值;用戶潛在價(jià)值是指未來用戶可能為企業(yè)創(chuàng)造的價(jià)值總和。每個(gè)因素還能夠劃分為兩個(gè)高低檔次,進(jìn)一步產(chǎn)生一個(gè)二維的矩陣,把用戶劃分為4組,價(jià)值用戶、次價(jià)值用戶、潛在價(jià)值用戶、低價(jià)值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應(yīng)當(dāng)形成對(duì)應(yīng)的方法,投入不同的資源。很明顯對(duì)于企業(yè)來說價(jià)值用戶最重要,被認(rèn)為是企業(yè)的玉質(zhì)用戶;其次是次價(jià)值用戶,被認(rèn)為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤;其他則是低價(jià)值用戶,對(duì)企業(yè)來說價(jià)值最小,成為鉛質(zhì)用戶,另外一類則是潛在價(jià)值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價(jià)值有限,甚至很小。需要我們注意的是潛在價(jià)值用戶利用再造用戶關(guān)系,將來極有可能變成價(jià)值用戶。從長(zhǎng)期分析,潛在價(jià)值用戶可以是企業(yè)的隱形財(cái)富,是企業(yè)獲得利潤的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對(duì)這4類用戶特點(diǎn)有效挖掘。
3電子商務(wù)數(shù)據(jù)挖掘分析
3.1設(shè)計(jì)問卷
研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價(jià)值用戶特征、次價(jià)值用戶特征、潛在價(jià)值用戶特征,對(duì)電子商務(wù)用戶的認(rèn)知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對(duì)象的個(gè)人信息,包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點(diǎn)、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對(duì)用戶對(duì)電子商務(wù)的了解、需求、使用情況的指標(biāo)設(shè)計(jì)。
3.2調(diào)查方式
本次調(diào)查的問卷主體是電腦上網(wǎng)的人群,采用隨機(jī)抽象的方式進(jìn)行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請(qǐng)其填寫問卷。
3.3數(shù)據(jù)挖掘和結(jié)果
(1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。
(2)用戶數(shù)據(jù)分析
1)電子商務(wù)用戶認(rèn)知度分析按照調(diào)查問卷的問題“您知道電子商務(wù)嗎?”得到對(duì)電子商務(wù)用戶認(rèn)知情況的統(tǒng)計(jì),十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒有聽過電子商務(wù)。對(duì)調(diào)查問卷問題“您聽過電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報(bào)刊雜志上知道電子商務(wù)的并且對(duì)其進(jìn)行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。
2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對(duì)應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務(wù),你覺得其用途怎樣,假如沒有使用過,你覺得其對(duì)自己有用嗎?”得到了認(rèn)為需要和十分需要的數(shù)據(jù),覺得電子商務(wù)有用的用戶為40.7%,不清楚是否對(duì)自己有用的用戶為56.7%,認(rèn)為不需要的僅有2.4%。
3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費(fèi)者對(duì)某一產(chǎn)品服務(wù)進(jìn)行應(yīng)用或者購買的一種心理欲望。按照問題“假如可以滿足你所關(guān)心的因素,未來你會(huì)繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時(shí),將來一年之內(nèi)會(huì)應(yīng)用電子商務(wù)的用戶為78.2%,一定不會(huì)應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強(qiáng)烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好。基于用戶特征的電子商務(wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過這一結(jié)果能夠更好地實(shí)行營銷和推廣,對(duì)潛在用戶積極定位,提高用戶體驗(yàn),積極挖掘用戶價(jià)值。分析為企業(yè)準(zhǔn)確營銷和推廣企業(yè)提供了一個(gè)有效的借鑒。
4結(jié)語
1.1數(shù)據(jù)挖掘產(chǎn)生的背景
進(jìn)入新時(shí)代后,計(jì)算機(jī)技術(shù)取得了巨大的成就,人們獲取信息和儲(chǔ)存數(shù)據(jù)的方式更加快捷和便利。所需要搜集的數(shù)據(jù)日漸增多,由此一來,使得數(shù)據(jù)和信息量以幾何倍數(shù)增長(zhǎng),各式各樣的信息,難以進(jìn)行統(tǒng)一;真假信息混為一體,且信息安全無法保證。而如何有效的利用這大量數(shù)據(jù)背后隱藏的重要信息,是人們關(guān)注的焦點(diǎn),隨著計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的發(fā)展這些問題都迎面而解。
1.2數(shù)據(jù)挖掘的發(fā)展過程
此過程分為5個(gè)階段,第一,業(yè)務(wù)理解,業(yè)務(wù)理解指的是站在業(yè)務(wù)的角度去理解項(xiàng)目的最終目標(biāo)和需求,它是將項(xiàng)目的目標(biāo)和需求轉(zhuǎn)化為一個(gè)問題的定義,再制定一個(gè)初步計(jì)劃來主義實(shí)現(xiàn)這些目標(biāo)。第二,數(shù)據(jù)理解,指的是全面調(diào)查數(shù)據(jù)挖掘所需要的數(shù)據(jù),并收集再熟悉,鑒別數(shù)據(jù)的質(zhì)量問題,產(chǎn)生對(duì)數(shù)據(jù)的洞察力,形成對(duì)數(shù)據(jù)中隱藏內(nèi)容的假象。第三,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)準(zhǔn)備階段包括,數(shù)據(jù)清洗、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換等。第四,建立模型。在此階段,對(duì)于不同的建模技術(shù)進(jìn)行選擇和應(yīng)用,并且認(rèn)真校對(duì)他們的參數(shù)直到達(dá)到最優(yōu)值為止。最后就是實(shí)施,由相關(guān)人員進(jìn)行實(shí)施操作。數(shù)據(jù)挖掘融合了多個(gè)學(xué)科,包含數(shù)據(jù)庫系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、算法等等。
2數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識(shí)的過程。就針對(duì)功能這方面,可以完成以下五種功能:
2.1分類
將收集到的數(shù)據(jù),根據(jù)它們的屬性進(jìn)行分類定義,并建立組別。
2.2推算估計(jì)
根據(jù)估計(jì)對(duì)象的變量相關(guān)的其他變量,并利用已有的數(shù)據(jù)來推算它的未來值。
2.3預(yù)測(cè)
根據(jù)對(duì)象的特點(diǎn),推算估計(jì)它的過去觀察值,來預(yù)測(cè)它的未來值。
2.4關(guān)聯(lián)分析
把所有的相關(guān)對(duì)象根據(jù)某種特點(diǎn)分為與之相關(guān)的類,再將它們放一起。
2.5聚類分析
將不同成分組成的總體分割成若干個(gè)其性質(zhì)相同的群。
3網(wǎng)絡(luò)優(yōu)化的概述
3.1網(wǎng)絡(luò)優(yōu)化定義
網(wǎng)絡(luò)優(yōu)化指的是利用各種硬軟件技術(shù)來達(dá)到網(wǎng)絡(luò)性能最優(yōu)平衡點(diǎn)的目的。而硬件方面是指對(duì)系統(tǒng)進(jìn)行合理分析后,其中在性能和價(jià)格方面給出最優(yōu)解。另外,軟件方面指的是為取得最高性能負(fù)載對(duì)其進(jìn)行參數(shù)的設(shè)置。網(wǎng)絡(luò)優(yōu)化也等同于SEO。
3.2網(wǎng)絡(luò)優(yōu)化的目標(biāo)
其目標(biāo)分為兩部分,其一,針對(duì)網(wǎng)絡(luò)運(yùn)行當(dāng)中存在的問題,包括信號(hào)不好、語音質(zhì)量差、網(wǎng)絡(luò)擁堵、數(shù)據(jù)業(yè)務(wù)方面性能差等,網(wǎng)絡(luò)優(yōu)化都能很好的解決,使之網(wǎng)絡(luò)處于最佳運(yùn)行狀態(tài);其二,為適應(yīng)社會(huì)的要求和發(fā)展的需要,有效的優(yōu)化資源配置,來使網(wǎng)絡(luò)資源得到合理的調(diào)配和運(yùn)用,從而發(fā)揮設(shè)備的最大潛能,實(shí)現(xiàn)投資效益的最大化。移動(dòng)通信網(wǎng)始終處于一個(gè)變化的狀態(tài),各種各樣的因素都會(huì)影響到當(dāng)前的性能運(yùn)行狀態(tài)未達(dá)到最初的設(shè)計(jì)要求。所以需要網(wǎng)絡(luò)優(yōu)化來對(duì)其進(jìn)行不間斷調(diào)整以便適應(yīng)各種變化。由此可見,網(wǎng)絡(luò)優(yōu)化并非一項(xiàng)短期的工程,而是需要在摸索中積累經(jīng)驗(yàn),才能解決各種各樣的網(wǎng)絡(luò)問題。
3.3網(wǎng)絡(luò)優(yōu)化的意義
在原有網(wǎng)絡(luò)的基礎(chǔ)上,不再擴(kuò)大規(guī)模及投資的前提下,可使網(wǎng)絡(luò)的投資效益顯著提高,以及網(wǎng)絡(luò)運(yùn)行的質(zhì)量、服務(wù)質(zhì)量、網(wǎng)絡(luò)的容量均有一定程度的提高,這些都是網(wǎng)絡(luò)優(yōu)化存在的意義。
4數(shù)據(jù)挖掘在網(wǎng)絡(luò)優(yōu)化中的應(yīng)用
4.1數(shù)據(jù)挖掘在站點(diǎn)選擇中的應(yīng)用
移動(dòng)通信網(wǎng)絡(luò)運(yùn)營商首先會(huì)對(duì)不同技術(shù)體系的鏈路進(jìn)行預(yù)算工作,計(jì)算出不同地區(qū)各個(gè)站點(diǎn)的覆蓋半徑,從而得出所要設(shè)置的站點(diǎn)個(gè)數(shù)。其次,由工程師通過專業(yè)的分析選擇有利的站點(diǎn),因?yàn)檎军c(diǎn)位置的選擇決定著網(wǎng)絡(luò)的質(zhì)量。如果沒有數(shù)據(jù)挖掘技術(shù),那么在選擇站點(diǎn)個(gè)數(shù)及位置的時(shí)候,僅僅取決于人為因素。但是如果我們將數(shù)據(jù)挖掘應(yīng)用到站點(diǎn)選擇當(dāng)中,這樣得出多種更加有效的方案,大大的減少人力、物力和財(cái)力。
4.2數(shù)據(jù)挖掘在話務(wù)預(yù)測(cè)中的應(yīng)用
1.1數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備過程有三個(gè)主要步驟,分別是數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)變換。不管是哪一個(gè)行業(yè)的檢測(cè)系統(tǒng),其所檢測(cè)得到的數(shù)據(jù)都具有多樣性與復(fù)雜性以及海量行的特點(diǎn),正是這些造成人們分析數(shù)據(jù)的困難。所以想要解決問題,首先就要先確定挖掘目標(biāo),這樣在檢測(cè)數(shù)據(jù)庫與歷史數(shù)據(jù)庫中才能夠獲得相對(duì)應(yīng)的數(shù)據(jù),并且進(jìn)行預(yù)處理與變化和歸化等。不過如果挖掘出來的數(shù)據(jù)質(zhì)量不高會(huì)影響最終結(jié)果,所以提高挖掘質(zhì)量,就要花費(fèi)大量時(shí)間與精力去進(jìn)行,大部分這個(gè)挖掘過程需要耗費(fèi)整個(gè)過程的百分之八十以上。
1.2數(shù)據(jù)挖掘這個(gè)過程是不斷反復(fù)與重復(fù)的過程,在這個(gè)過程中可以不斷發(fā)現(xiàn)一些潛藏的知識(shí)與信息,可以利用決策樹或者規(guī)則學(xué)習(xí)等多種方法來進(jìn)行分析統(tǒng)計(jì)。
1.3結(jié)果分析和評(píng)估在不斷檢測(cè)數(shù)據(jù)的情況下,得到的數(shù)據(jù)也在不斷發(fā)生變化,大量數(shù)據(jù)下需要不斷的分析與建模,這樣才能不斷發(fā)現(xiàn)新設(shè)備的運(yùn)行過程與故障,從而保證在較短時(shí)間內(nèi)獲得故障診斷結(jié)果。
2數(shù)據(jù)挖掘的常用技術(shù)
數(shù)據(jù)挖掘技術(shù)算法的好快直接影響到所發(fā)現(xiàn)信息質(zhì)量的好壞,目前對(duì)該技術(shù)的研究方向也集中在算法與應(yīng)用方面,常用的技術(shù)主要有以下幾點(diǎn):
2.1粗糙集理論這項(xiàng)研究數(shù)據(jù)的不確定性的數(shù)學(xué)工具由波蘭科學(xué)家第一次提出,并且在經(jīng)過二十年的不斷發(fā)展中已經(jīng)廣泛應(yīng)用到人工智能的各分支中,不管是在模式識(shí)別還是機(jī)械學(xué)習(xí)等方面都帶來了成功。成功應(yīng)用主要還在于存在的幾點(diǎn)優(yōu)點(diǎn):其一該理論不用事先給出額外信息,可以減掉冗余信息的輸入,減輕數(shù)據(jù)的復(fù)雜度與輸入時(shí)間。其二算法簡(jiǎn)單,更方便人們操作。雖然優(yōu)點(diǎn)明顯,但是缺點(diǎn)也存在,在對(duì)實(shí)際發(fā)生問題的處理過程中,抗干擾的能力十分差,有可能會(huì)直接影響故障分類。
2.2決策樹技術(shù)決策樹算法是一種外形像樹的預(yù)測(cè)模型結(jié)構(gòu),樹的節(jié)點(diǎn)表述所屬類別,非終端節(jié)點(diǎn)表示問題屬性。根據(jù)數(shù)據(jù)不同取值來進(jìn)行分類,建立樹的分叉,從而形成決策樹。決策樹的規(guī)則是可直觀容易理解的,這一點(diǎn)是與神經(jīng)元網(wǎng)絡(luò)存在的最大不同點(diǎn),由于算法直觀所以分類不需要很多時(shí)間,所以十分適用于記錄故障分類和分析預(yù)測(cè)。
2.3人工神經(jīng)元網(wǎng)絡(luò)技術(shù)這是目前數(shù)據(jù)挖掘技術(shù)使用最多也是最廣泛的一項(xiàng)技術(shù),該項(xiàng)技術(shù)主要是模仿人的神經(jīng)系統(tǒng)來建立數(shù)據(jù)庫的,從而分析數(shù)據(jù)庫中的數(shù)據(jù)并進(jìn)行預(yù)測(cè)與分類。與上述技術(shù)不同的是,神經(jīng)元網(wǎng)絡(luò)技術(shù)在機(jī)械故障十分復(fù)雜的情況下還能夠得到較為準(zhǔn)確的預(yù)測(cè)技術(shù),因此可以處理一些連續(xù)變量的問題,但對(duì)于高維變量數(shù)據(jù)則不適合,主要原因在于其最大的特點(diǎn)是不透明性,不能夠就是分析結(jié)果是怎樣產(chǎn)生的,以及產(chǎn)生結(jié)果的推算過程,所以神經(jīng)元網(wǎng)絡(luò)技術(shù)比較適合于較為復(fù)雜數(shù)據(jù)的分析,比如聚類模式。典型三層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.4遺傳算法這種算法來自于生物進(jìn)化理論,其使用的適者生存觀點(diǎn),也救贖常把一些任務(wù)看成一項(xiàng)可以搜索的問題,進(jìn)行遺傳算法搜索,從而得到最優(yōu)解。遺傳算法可以解決很多數(shù)據(jù)類型的問題,還能夠同時(shí)處理不同類型的數(shù)據(jù),但計(jì)算的時(shí)候由于使用的參數(shù)過多,不少編碼問題十分困難,計(jì)算量也十分大。
3數(shù)據(jù)挖掘技術(shù)在工業(yè)優(yōu)化中的應(yīng)用
工業(yè)優(yōu)化也分類型,根據(jù)不同的優(yōu)化類型的不同要求,要采取不同的挖掘技術(shù)來實(shí)現(xiàn)找出問題解決的辦法。一些需要解決的優(yōu)化目標(biāo)比較容易獲得評(píng)價(jià)或者說需要優(yōu)化的問題是比較容易表達(dá)的這些情況下,通常使用遺傳算法進(jìn)行全局搜索,這樣比較方便。比如工業(yè)配方、工藝工序組成等。粗糙集方法可以用于需要學(xué)習(xí)目標(biāo)值與其相關(guān)變量間的定量關(guān)系,利用技術(shù)來挖掘數(shù)據(jù)庫中的目標(biāo)數(shù)據(jù)間的關(guān)聯(lián)規(guī)律,當(dāng)然也可以利用神經(jīng)網(wǎng)絡(luò)技術(shù)來找尋目標(biāo)值與數(shù)據(jù)間的模糊關(guān)系。想要確定優(yōu)化目標(biāo)邊界,可以采用隧道映射方法。通過假定各變量目標(biāo)需要優(yōu)化的邊界在二維空間中體現(xiàn)出來的是一個(gè)凸出來的多面體來包圍顯示的。定量預(yù)測(cè)的一個(gè)十分好的方法就是非線性回歸預(yù)測(cè),可以先利用模式識(shí)別方法來收集數(shù)據(jù),建立數(shù)據(jù)結(jié)構(gòu),再根據(jù)相關(guān)數(shù)據(jù)確定非線性回歸的方程式,最后再進(jìn)行非線性回歸,不過這樣做會(huì)存在一個(gè)明顯缺點(diǎn)就是要在進(jìn)行非線性回歸預(yù)測(cè)之前要主觀確定方式公式。向外推廣尋找更優(yōu)化的方式在工業(yè)應(yīng)用上更為有效,可以采用多種方法配合使用,形成一種比較適用于各種數(shù)據(jù)結(jié)構(gòu)外推尋優(yōu)的數(shù)據(jù)處理過程。
4數(shù)據(jù)挖掘技術(shù)在設(shè)備故障診斷中的實(shí)現(xiàn)步驟
4.1基本原理數(shù)據(jù)挖掘技術(shù)主要是利用歷史數(shù)據(jù)里的設(shè)備運(yùn)行記錄來對(duì)現(xiàn)在機(jī)械設(shè)備出現(xiàn)故障的原因進(jìn)行診斷,分析其原因并找出解決方法,并對(duì)未來可能出現(xiàn)的故障做出預(yù)測(cè)。機(jī)械設(shè)備故障的根本性質(zhì)就是模式識(shí)別,所以對(duì)其診斷的過程也就是模式獲得并匹配的過程。
4.2故障診斷的數(shù)據(jù)挖掘方法建模對(duì)機(jī)械設(shè)備故障診斷,首先要做的就是要收集與本設(shè)備相關(guān)的大量數(shù)據(jù),不僅要有機(jī)械正常運(yùn)行工作時(shí)的數(shù)據(jù),更要有機(jī)械出現(xiàn)問題時(shí)產(chǎn)生的數(shù)據(jù),一般現(xiàn)場(chǎng)的監(jiān)控系統(tǒng)都存有歷史數(shù)據(jù)與故障數(shù)據(jù),而且現(xiàn)在的檢測(cè)系統(tǒng)十分先進(jìn),出現(xiàn)故障的時(shí)候已經(jīng)對(duì)此進(jìn)行分類,這樣數(shù)據(jù)收集的時(shí)候更加方便。進(jìn)一步完成各項(xiàng)數(shù)據(jù)的獲取并建立完整的數(shù)據(jù)庫。而數(shù)據(jù)挖掘技術(shù)的目標(biāo)就是要從這些雜亂無章的大量數(shù)據(jù)中找出潛藏在里面的相關(guān)規(guī)律與信息,并且提取信息特征。一般故障類型的劃分,可以根據(jù)概率統(tǒng)計(jì)來進(jìn)行,這也是現(xiàn)在剛出現(xiàn)的一種新方法。目前故障模式識(shí)別理論中比較成熟的理論是關(guān)聯(lián)規(guī)則理論,這是一種利用數(shù)據(jù)間相互關(guān)聯(lián)關(guān)系來達(dá)到分類的最終目的。根據(jù)相關(guān)之間的關(guān)聯(lián)關(guān)系劃分出類別,并對(duì)新數(shù)據(jù)進(jìn)行歸納,分析故障類別,這樣更快速的找到故障原因并進(jìn)行解決。數(shù)據(jù)挖掘系統(tǒng)總體設(shè)計(jì)策略如圖2所示。
5結(jié)束語
根據(jù)衛(wèi)生部2001年的《醫(yī)院感染診斷標(biāo)準(zhǔn)》和2009年12月1日起實(shí)施的《醫(yī)院感染監(jiān)測(cè)規(guī)范》要求,應(yīng)用數(shù)據(jù)挖掘技術(shù),在院內(nèi)綜合管理平臺(tái)上建立在線的醫(yī)院感染全院綜合性監(jiān)測(cè)和目標(biāo)性監(jiān)測(cè)等子系統(tǒng)。參照醫(yī)院感染監(jiān)測(cè)流程,建立臨床無紙化的報(bào)告方式上報(bào)醫(yī)院感染病例功能,由醫(yī)院感染科終端接收。將查詢醫(yī)院感染病例的信息線索從各獨(dú)立的系統(tǒng)內(nèi)收集并組合展示在一個(gè)界面上,方便醫(yī)院感染專職人員實(shí)現(xiàn)網(wǎng)上前瞻性調(diào)查;盡可能地從各系統(tǒng)內(nèi)直接導(dǎo)入以數(shù)字及文字表達(dá)的病例信息,生成各類監(jiān)測(cè)記錄表并進(jìn)行統(tǒng)計(jì)分析。
醫(yī)院感染實(shí)時(shí)監(jiān)控系統(tǒng)需要以醫(yī)院信息系統(tǒng)中的醫(yī)療數(shù)據(jù)為數(shù)據(jù)源,通過數(shù)據(jù)模型分析建立數(shù)據(jù)倉庫,通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、建立數(shù)據(jù)挖掘模型、得到相應(yīng)規(guī)則并返回給用戶界面。系統(tǒng)主要分由用戶界面、數(shù)據(jù)庫接口、數(shù)據(jù)挖掘模塊和決策四個(gè)部分組成。由于醫(yī)療數(shù)據(jù)的特殊性,需要針對(duì)數(shù)據(jù)源進(jìn)行預(yù)處理及信息融合;為得出最佳的決策管理方案,需對(duì)結(jié)構(gòu)化處理的數(shù)據(jù)建立關(guān)聯(lián)規(guī)則。醫(yī)院感染實(shí)時(shí)監(jiān)控系統(tǒng)采用了決策樹算法對(duì)醫(yī)療數(shù)據(jù)進(jìn)行挖掘分析。在數(shù)據(jù)庫接口準(zhǔn)備過程中,由于醫(yī)療數(shù)據(jù)庫中含有海量不同來源的原始信息,包括大量模糊的、不完整的、帶有噪聲的、冗余的信息。因此在數(shù)據(jù)挖掘之前,必須對(duì)這些信息進(jìn)行清理和過濾,以確保數(shù)據(jù)的一致性和確定性,并將其轉(zhuǎn)換成適合挖掘的形式。醫(yī)療數(shù)據(jù)中還包含大量的文本、符號(hào)、數(shù)字信息,對(duì)這些不同物理屬性的醫(yī)療數(shù)據(jù),應(yīng)采用不同的技術(shù)進(jìn)行處理,使其在屬性上趨同或一致,再對(duì)處理結(jié)果進(jìn)行綜合。醫(yī)療數(shù)據(jù)多源性、時(shí)序性和非時(shí)序性數(shù)據(jù)共存、數(shù)字型數(shù)據(jù)和非數(shù)字型數(shù)據(jù)共存的特點(diǎn),加大了信息融合的難度。
經(jīng)過數(shù)據(jù)清洗并通過數(shù)據(jù)挖掘計(jì)算后,在醫(yī)院綜合管理平臺(tái)上建立醫(yī)院感染監(jiān)控系統(tǒng),醫(yī)師通過該系統(tǒng)上報(bào)可疑的醫(yī)院感染病例。醫(yī)院感染專兼職人員通過該系統(tǒng)進(jìn)行各類監(jiān)測(cè)、調(diào)查或查詢病例,監(jiān)測(cè)資料可以存儲(chǔ)、統(tǒng)計(jì)、網(wǎng)絡(luò)反饋和導(dǎo)出。
2醫(yī)院感染實(shí)時(shí)監(jiān)控系統(tǒng)功能
通過數(shù)據(jù)挖掘技術(shù),建立醫(yī)院感染實(shí)時(shí)監(jiān)控系統(tǒng)。由于前期數(shù)據(jù)準(zhǔn)備充分,數(shù)據(jù)源規(guī)范準(zhǔn)確,數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用,全面實(shí)現(xiàn)了感染病例的全過程監(jiān)控、感染預(yù)警、統(tǒng)計(jì)分析和目標(biāo)監(jiān)測(cè)各功能。系統(tǒng)對(duì)患者感染相關(guān)數(shù)據(jù)進(jìn)行多參數(shù)綜合分析、智能化識(shí)別,把達(dá)到預(yù)警標(biāo)準(zhǔn)的病例全部提取出來,將醫(yī)院科室感染情況直觀展示。通過設(shè)置統(tǒng)計(jì)參數(shù),系統(tǒng)自動(dòng)統(tǒng)計(jì)出住院、出院感染病人的各類數(shù)據(jù)。分析后產(chǎn)生全面的統(tǒng)計(jì)結(jié)果,然后以圖形、表格等方式展示。強(qiáng)大的查詢功能使醫(yī)院管理人員能更高效、全面、深入地進(jìn)行感染學(xué)的調(diào)查與研究。通過數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)有效分析,系統(tǒng)的應(yīng)用更為有效,在感染發(fā)生早期就能通過數(shù)據(jù)全過程進(jìn)行監(jiān)控,極大提升了發(fā)現(xiàn)感染的概率,準(zhǔn)確度高,效率快,從根本上解決感染病例漏報(bào)率問題,提高了醫(yī)院感染管理水平。同時(shí),因數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)有效分析也降低了多重耐藥菌的監(jiān)控?cái)?shù)據(jù)的偏差,在多重耐藥菌監(jiān)測(cè)模塊,根據(jù)從檢驗(yàn)信息系統(tǒng)中獲取的數(shù)據(jù),經(jīng)過清洗計(jì)算,大大降低了可能出現(xiàn)的偏差。
3結(jié)語
要了解Web數(shù)據(jù)挖掘技術(shù),首先就必須要了解數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是指從大量不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識(shí)的過程。它的表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。Web數(shù)據(jù)挖掘是一種綜合的技術(shù),它主要是使用數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)挖掘各種有用的、有趣的、隱藏起來的信息或者是有用的模式。與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web數(shù)據(jù)挖掘所挖掘的信息更加的海量,這些信息具有異構(gòu)和分布廣的特點(diǎn)。對(duì)于服務(wù)器上的日志與用戶信息的挖掘仍然屬于傳統(tǒng)的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘由于Web的邏輯結(jié)構(gòu)其所挖掘到的模式有可能是關(guān)于Web內(nèi)容的,也有可能是關(guān)于Web結(jié)構(gòu)的。同時(shí)有些數(shù)據(jù)挖掘技術(shù)也不能直接運(yùn)用到Web數(shù)據(jù)挖掘中。Web數(shù)據(jù)挖掘的研究范圍十分廣泛,它的研究主要包括了數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)等。Web數(shù)據(jù)挖掘根據(jù)所處理的對(duì)象可以分為三類:Web文檔的內(nèi)容挖掘、Web文檔的結(jié)構(gòu)挖掘、Web使用的挖掘。Web文檔的內(nèi)容挖掘指的是從Web文檔及對(duì)其的描述內(nèi)容中獲取到有用的信息,即是對(duì)Web上大量的各種文檔集合的內(nèi)容進(jìn)行處理,例如摘要、分類、聚類、關(guān)聯(lián)分析等。同時(shí)內(nèi)容挖掘還可以對(duì)各種多媒體信息進(jìn)行挖掘。Web上的內(nèi)容摘要是用簡(jiǎn)潔的語言和方式對(duì)文檔的內(nèi)容進(jìn)行描述和解釋,讓用戶在不用瀏覽全文的情況下就可以對(duì)全文的內(nèi)容和文章寫作的目的有一個(gè)總體的了解。文章寫作的目的有一個(gè)總體的了解。而Web內(nèi)容挖掘的這種方式非常有用,例如應(yīng)用到檢索結(jié)果的顯示中。Web分類則指的是根據(jù)已經(jīng)確定好的類別,為每一個(gè)獲得的Web文檔確定一個(gè)大類。聚類則是指的在沒有確定類別之前,將相似度高的文檔歸為一類。關(guān)聯(lián)分析指的是從文檔集合中找出不同語詞之間的具有的關(guān)系。Web文檔的結(jié)構(gòu)挖掘指的是從互聯(lián)網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁之間的相互鏈接以及網(wǎng)頁本身的結(jié)構(gòu)中獲取有用的信息和知識(shí)。目前為止針對(duì)結(jié)構(gòu)的挖掘主要還是鏈?zhǔn)浇Y(jié)構(gòu)模式。對(duì)于Web結(jié)構(gòu)的挖掘主要源于對(duì)引文的分析,引文分析的主要內(nèi)容就是通過對(duì)網(wǎng)頁的鏈接數(shù)和被連接數(shù)以及對(duì)象的分析來建立一個(gè)鏈接結(jié)構(gòu)模式,這種模式可以用來對(duì)網(wǎng)頁進(jìn)行歸類,同時(shí)還可以獲取網(wǎng)頁之間的相似度和關(guān)聯(lián)度等信息。Web使用的挖掘一般情況下指的是對(duì)Web日志的挖掘。其挖掘的對(duì)象是用戶與互聯(lián)網(wǎng)交互過程中所抽取出來的各種信息,例如訪問記錄、用戶名、用戶注冊(cè)信息以及用戶所進(jìn)行的操作等。在這一方面的研究已經(jīng)比較成熟,同時(shí)也有很多較為成熟的產(chǎn)品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術(shù)較為成熟的產(chǎn)品。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫中的動(dòng)態(tài)信息,然后生成WWW資源庫索引;第四步,進(jìn)行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會(huì)議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時(shí)常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會(huì)到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識(shí)增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個(gè)網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動(dòng)時(shí),所有這些問題只要稍加改動(dòng),容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對(duì)感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識(shí),然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個(gè)性化服務(wù)頁面,并提供用戶對(duì)站內(nèi)信息進(jìn)行搜索功能,同時(shí)可以滿足師生對(duì)于圖書館資源進(jìn)行查找訪問的需求,實(shí)現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個(gè)性化服務(wù)。
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時(shí)輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊(cè)時(shí)所填寫的,訪問記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請(qǐng)求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過Web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會(huì)根據(jù)圖書館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報(bào)告和預(yù)測(cè)報(bào)告。根據(jù)對(duì)分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)
傳統(tǒng)的信息檢索工具在友好型、可理解性、交互性方面都存在著很大的缺陷。通常情況下都只是將各種查詢結(jié)果毫無邏輯的簡(jiǎn)單的進(jìn)行羅列,用戶很難從其中獲取自己需要的信息,通過數(shù)據(jù)挖掘,可以對(duì)圖書館網(wǎng)站上的在線調(diào)查、留言簿、讀者調(diào)查表等數(shù)據(jù)進(jìn)行收集整理,對(duì)不需要的冗余信息進(jìn)行剔除。通過分析可以獲知用戶所喜好的瀏覽模式是哪種,他們常訪問的網(wǎng)站的路徑是什么,他們對(duì)圖書館中的那些資源比較有興趣。然后再根據(jù)用戶的普遍需求與每個(gè)人的個(gè)性需求,建立起相應(yīng)的規(guī)則,從而幫助網(wǎng)站設(shè)計(jì)人員對(duì)網(wǎng)站進(jìn)行設(shè)計(jì)和優(yōu)化,使得這些信息檢索變得更加的個(gè)性化、智能化,并根據(jù)每個(gè)用戶的偏好等特征將檢索到的信息排列處理,使得讀者可以用最快的速度獲得想要檢索的文獻(xiàn)信息。通過Web數(shù)據(jù)挖掘技術(shù)可以對(duì)用戶的特征信息進(jìn)行總結(jié),將那些從沒有發(fā)出過信息的潛在用戶進(jìn)行歸類,同時(shí)還可以免費(fèi)的為他們提供各種他們所感興趣的信息和資料,把這些潛在的用戶轉(zhuǎn)變?yōu)檎降挠脩羰褂肳eb數(shù)據(jù)挖掘可以對(duì)用戶的檢索日志進(jìn)行分析,從而得知用戶所感興趣的內(nèi)容、他們的研究方向,并根據(jù)這些內(nèi)容為用戶指定個(gè)性化服務(wù)的內(nèi)容,為用戶提供各種他們所感興趣的各種信息。
關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)數(shù)據(jù)庫
一、引言
電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、利用數(shù)字化電子方式開展的商務(wù)活動(dòng)。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,電子商務(wù)正顯示越來越強(qiáng)大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),為公司創(chuàng)造更多潛在的利潤。利用數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),發(fā)現(xiàn)隱藏在其后的規(guī)律性,提取出有效信息,進(jìn)而指導(dǎo)企業(yè)調(diào)整營銷策略,給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)。
二、數(shù)據(jù)挖掘技術(shù)
1.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DataMining),又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的知識(shí)。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫的簡(jiǎn)單檢索查詢調(diào)用,而且,要對(duì)數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指定實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來的活動(dòng)進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類分析、消費(fèi)者習(xí)慣分析等。
2.數(shù)據(jù)挖掘過程
挖掘數(shù)據(jù)過程可以分為3個(gè)步驟:數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析。
(1)數(shù)據(jù)預(yù)處理。實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此,數(shù)據(jù)挖掘一般不對(duì)原始數(shù)據(jù)進(jìn)行挖掘,要通過預(yù)處理提供準(zhǔn)確、簡(jiǎn)潔的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個(gè)文件或多個(gè)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除一些無關(guān)記錄,將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。
(2)模式發(fā)現(xiàn)。模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識(shí)??捎糜赪eb的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等等。
(3)模式分析。模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段,對(duì)得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。
三、電子商務(wù)中幾種常用的數(shù)據(jù)挖掘方法
1.關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的主要模式之一,側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的關(guān)系,找出滿足給定條件下的多個(gè)域間的依賴關(guān)系。關(guān)聯(lián)規(guī)則挖掘?qū)ο笠话闶谴笮蛿?shù)據(jù)庫,該規(guī)則一般表示式為:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián),即根據(jù)一個(gè)事務(wù)中某些數(shù)據(jù)項(xiàng)的出現(xiàn)可以導(dǎo)出另一些數(shù)據(jù)項(xiàng)在同一事務(wù)中的出現(xiàn)。關(guān)聯(lián)分析的目的是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。關(guān)聯(lián)規(guī)則用于尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購買活動(dòng)中所買不同商品的相關(guān)性。關(guān)聯(lián)分析的典型例子是購物籃分析,描述顧客的購買行為,可以幫助零售商決定商品的擺放和捆綁銷售策略。如著名的(面包+黃油牛奶)例子就屬于關(guān)聯(lián)分析:在超市中,90%的顧客在購買面包和黃油的同時(shí),也會(huì)購買牛奶。直觀的意義是:顧客在購買某種商品時(shí)有多大的傾向會(huì)購買另外一些商品。找出所有類似的關(guān)聯(lián)規(guī)則,對(duì)于企業(yè)確定生產(chǎn)銷售、產(chǎn)品分類設(shè)計(jì)、市場(chǎng)分析等多方面是有價(jià)值的。
2.聚類分析方法
類聚分析就是直接比較樣本中各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,而將性質(zhì)差別較大的分在不同的類。對(duì)變量聚類計(jì)算變量之間的距離,對(duì)樣本聚類則計(jì)算樣本之間的距離。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別上的個(gè)體間的距離盡可能大。
聚類分析用于把有相似特性的客戶、數(shù)據(jù)項(xiàng)集合到一起。在電子商務(wù)中,聚類分析常用于市場(chǎng)細(xì)分。根據(jù)已有客戶的數(shù)據(jù),利用聚類技術(shù)將市場(chǎng)按客戶消費(fèi)模式的相似性分為若干細(xì)分市場(chǎng),以進(jìn)行有針對(duì)性的市場(chǎng)營銷,提供更適合、更滿意的服務(wù)。如自動(dòng)給一個(gè)特定的客戶聚類發(fā)送銷售郵件,為一個(gè)客戶聚類動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)等。通過對(duì)聚類的客戶特征的提取,電子商務(wù)網(wǎng)站還可以為客戶提供個(gè)性化的服務(wù)。
3.分類分析
分類系統(tǒng)是基于遺傳算法的機(jī)器學(xué)習(xí)中的一類,它包括一個(gè)簡(jiǎn)單的基于串規(guī)則的并行生成子系統(tǒng)、規(guī)則評(píng)價(jià)子系統(tǒng)和遺傳算法子系統(tǒng)。分類系統(tǒng)正在被人們?cè)絹碓蕉嗟貞?yīng)用于科學(xué)、工程和經(jīng)濟(jì)領(lǐng)域中,是目前遺傳算法研究領(lǐng)域中一個(gè)非常活躍的領(lǐng)域。
分類分析是數(shù)據(jù)挖掘中應(yīng)用最多的方法。分類要解決的問題是為一個(gè)事件或?qū)ο髿w類,既可以用于分析已有的數(shù)據(jù),也可以用來預(yù)測(cè)未來的數(shù)據(jù)。分類通過分析已知分類信息的歷史數(shù)據(jù),總結(jié)出一個(gè)預(yù)測(cè)模型,預(yù)測(cè)哪些人可能會(huì)對(duì)郵寄廣告、產(chǎn)品目錄等有反應(yīng),可以針對(duì)這一類客戶的特點(diǎn)展開商務(wù)活動(dòng),提供個(gè)性化的信息服務(wù)。
4.序列模式
序列模式挖掘就是要挖掘出交易集之間有時(shí)間序列關(guān)系的模式。它挖掘的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系,找到那些“一些項(xiàng)跟隨另一些項(xiàng)”,以預(yù)測(cè)未來的訪問模式。序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時(shí)間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A-B-C出現(xiàn)的頻率較高”之類的知識(shí)。序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要有用戶輸入最小置信度C和最小支持度S。
序列模式便于進(jìn)行電子商務(wù)的組織,預(yù)測(cè)客戶的訪問模式,對(duì)客戶開展有針對(duì)性的廣告服務(wù)或者主動(dòng)推薦客戶感興趣的頁面,以滿足訪問者的特定要求。
四、結(jié)束語
數(shù)據(jù)挖掘的另一個(gè)主要的作用便是在處理企業(yè)的內(nèi)部以及外部的信息的基礎(chǔ)之上,對(duì)于涉及企業(yè)所有的信息進(jìn)行整合以及篩選,最終目的是能夠提供對(duì)于企業(yè)的發(fā)展有著重要作用的信息。通過對(duì)于企業(yè)的內(nèi)、外部信息進(jìn)行合并以及挖掘,找出企業(yè)的內(nèi)部以及外部之間相關(guān)的影響的信息。從而實(shí)現(xiàn)企業(yè)的內(nèi)外部信息的綜合處理以及應(yīng)用,在其中提取有價(jià)值的知識(shí),并且增強(qiáng)企業(yè)的管理功能,提高企業(yè)的信息化管理的效率。
2數(shù)據(jù)挖掘在企業(yè)信息化之中的實(shí)際應(yīng)用
企業(yè)的信息化的建設(shè)在企業(yè)之中是一項(xiàng)比較復(fù)雜并且需要長(zhǎng)期的資金以及人力投資才能夠完成的事情,企業(yè)的管理者需要從企業(yè)的自身出發(fā),從而選拔經(jīng)驗(yàn)比較豐富、技術(shù)水平較高、立場(chǎng)比較中立的主體對(duì)企業(yè)提供的數(shù)據(jù)進(jìn)行診斷以及分析。數(shù)據(jù)挖掘本身與企業(yè)利潤沒有直接的關(guān)系,企業(yè)為了能夠使得數(shù)據(jù)挖掘帶來的效益表現(xiàn)在企業(yè)的利潤之上需要進(jìn)行一次有關(guān)于數(shù)據(jù)挖掘的循環(huán):確定目標(biāo)、選擇數(shù)據(jù)集、數(shù)據(jù)挖掘、知識(shí)應(yīng)用、計(jì)劃執(zhí)行、結(jié)果反饋。
2.1企業(yè)信息診斷階段的應(yīng)用企業(yè)的信息化的診斷階段主要包括預(yù)備、正式以及總結(jié)三個(gè)部分。首先要對(duì)企業(yè)的相關(guān)的經(jīng)營活動(dòng),無論外部以及內(nèi)部都需要進(jìn)行原始數(shù)據(jù)的收集,其中可以包括企業(yè)的產(chǎn)供銷、研發(fā)過程管理以及外部經(jīng)營環(huán)境等。然后整合到企業(yè)的數(shù)據(jù)庫之中,根據(jù)數(shù)據(jù)挖掘需要達(dá)到的目標(biāo),編寫數(shù)據(jù)挖掘需要的相應(yīng)的數(shù)據(jù)算法,挖掘出相應(yīng)的有價(jià)值的信息,從而為企業(yè)的發(fā)展戰(zhàn)略、外部環(huán)境、企業(yè)文化甚至組織機(jī)構(gòu)以及制度管理提供數(shù)據(jù)依據(jù)。
2.2在客戶關(guān)系管理之中的應(yīng)用數(shù)據(jù)挖掘之中非常重要的一點(diǎn)在于對(duì)于客戶的自身的行為進(jìn)行分析,客戶的行為之中包括對(duì)于客戶的滿意程度、忠誠度、客戶異常、客戶保持等。在企業(yè)的經(jīng)營生產(chǎn)之中,隨著商業(yè)數(shù)據(jù)的不斷增加,關(guān)于為了更好地服務(wù)客戶進(jìn)行的數(shù)據(jù)挖掘起著至關(guān)重要的作用。在對(duì)客戶相關(guān)的數(shù)據(jù)挖掘之中,包含對(duì)于客戶的識(shí)別以及評(píng)價(jià),分析客戶的相關(guān)行為的改變?yōu)槠髽I(yè)帶來的變化,從而使得企業(yè)與客戶的關(guān)系達(dá)到最優(yōu)。數(shù)據(jù)挖掘在客戶的管理方面能夠深化企業(yè)對(duì)于客戶本身的管理,跟蹤市場(chǎng)的變化,從而最終預(yù)測(cè)客戶的消費(fèi)趨勢(shì),最終開發(fā)出滿足客戶自身需要的個(gè)性化產(chǎn)品。
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:CSCD期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫