网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

淺談多維數(shù)據(jù)挖掘和決策樹粗糙集理論

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了淺談多維數(shù)據(jù)挖掘和決策樹粗糙集理論范文,希望能給你帶來靈感和參考,敬請閱讀。

淺談多維數(shù)據(jù)挖掘和決策樹粗糙集理論

摘要:隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的發(fā)展,數(shù)據(jù)存儲被越來越多的企業(yè)使用,機構(gòu)和部門,這需要更多的智能和數(shù)據(jù)挖掘的更準(zhǔn)確的方法。多維數(shù)據(jù)挖掘技術(shù),包括聯(lián)機分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,建立了日益完善的數(shù)據(jù)倉庫技術(shù)和OLAP技術(shù),使得用戶可以更方便的選擇和分析。本文主要研究和分析了粗糙集的多維數(shù)據(jù)挖掘,包括多維數(shù)據(jù)集的概念,決策樹技術(shù)和粗糙集的集成,以及基于粗糙集數(shù)據(jù)挖掘的多維設(shè)計。

關(guān)鍵詞:多維數(shù)據(jù)挖掘;粗糙集;決策樹技術(shù)

1概念的多維數(shù)據(jù)和粗糙集

1.1基本的OLAP多維數(shù)據(jù)集的概念

多維數(shù)據(jù)庫和多維數(shù)據(jù)集的多維數(shù)據(jù)庫中提出的物流方式。多維是人們觀察數(shù)據(jù)的特定。層次是指部門描述在不同程度的數(shù)據(jù),例如,時間維度包括日,月,這樣的水平,年度和季度。成員的價值觀。數(shù)據(jù)單元數(shù)的多維數(shù)組的維數(shù)可以挑選出的成員,這些成員可以確定一個特定的值。度量,一般數(shù)值度量指標(biāo),用于描述數(shù)據(jù)。多維分析是一系列分析(切片,旋轉(zhuǎn)等)的數(shù)據(jù)(以多維的方式獲得)來觀察和控制更加全面而詳細的數(shù)據(jù),并把信息和物質(zhì)。數(shù)據(jù)層指的是多維數(shù)據(jù)集的一個子集,是由一個或幾個維度的維度的成員有限的任命。數(shù)據(jù)旋轉(zhuǎn)意味著改變尺寸的位置去觀察用戶從其他角度的多維數(shù)據(jù)。

1.2數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘的功能是發(fā)現(xiàn)蘊含在其中的是很難找到的數(shù)據(jù)信息和技術(shù)。隨著人們?nèi)找嬖鲩L的對信息的價值的知識,數(shù)據(jù)挖掘是逐步發(fā)展。這種技術(shù)可以解決信息不完全的數(shù)據(jù)過多的問題,建立關(guān)系模型和做出正確的預(yù)測。它具有傳統(tǒng)加工方法的特點和優(yōu)勢,如處理大型數(shù)據(jù)庫;隨機信息查詢;有用的規(guī)則和合理的預(yù)測基于數(shù)據(jù)挖掘技術(shù);及時響應(yīng)和決心改變數(shù)據(jù),包括尋找規(guī)律和管理,維護。這些規(guī)則是不斷更新新的數(shù)據(jù)進入,他們并不適合所有的數(shù)據(jù),因為數(shù)據(jù)庫是非常大的,如果他們同意在一定范圍內(nèi)適用。

1.3數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘主要包括四個環(huán)節(jié):業(yè)務(wù)對象的確定和主題分析;數(shù)據(jù)預(yù)處理包括數(shù)據(jù)選擇,清洗,轉(zhuǎn)換和加載;對選定的知識水平直接相關(guān)的數(shù)據(jù)挖掘;驗證結(jié)果分析得到新的,可用的和可理解的數(shù)據(jù);知識同化避免矛盾。

1.4粗糙集理論的基本知識

粗糙集理論已被應(yīng)用于許多領(lǐng)域(機器學(xué)習(xí),決策,流程分析,數(shù)據(jù)挖掘)。粗糙集理論是分類成集嵌入知識,并把它的一部分。在工業(yè)應(yīng)用中,一些知識庫可能是如此復(fù)雜和龐大,多余部分應(yīng)消除為了簡化知識。簡化的過程包括還原兩域。知識依賴也應(yīng)該控制。在信息系統(tǒng)中的數(shù)據(jù)(決策表)的智能系統(tǒng),可以以多種方式呈現(xiàn),如語言形式和數(shù)字形式。不準(zhǔn)確的數(shù)字形式會使獲得的信息不完全和不均勻,這個問題需要通過知識表示方法解決。這表示一般的信息系統(tǒng)(信息表)在粗糙集理論。知道的知識表示系統(tǒng)的概念可以很容易地以表格的形式表示的系統(tǒng),即知識表示系統(tǒng)或信息系統(tǒng)的屬性值表。決策表,重要的和特殊的表,可以準(zhǔn)確地描述一些復(fù)雜的邏輯和簡潔。這一決策表可以連接獨立的術(shù)語與幾個動作直接得到明確表示。

1.5粗糙集理論的五大特征

第一,它能處理各種數(shù)據(jù),包括零碎的數(shù)據(jù)和數(shù)據(jù)的多變量;其次,它可以處理不精確的、模糊的數(shù)據(jù),包括確定性和非確定性;第三,它可以計算出知識和知識水平的不同粒度最小的表示;第四,它可以揭示出的管理模式與簡單的概念;第五,它可以產(chǎn)生精確的規(guī)則易于檢查和驗證,特別適用于自動生成規(guī)則的智能控制。此外,粗糙集理論的最重要的優(yōu)點是它能提供的先驗信息,除了數(shù)據(jù)集需要解決的問題。當(dāng)然,這個理論不是萬能的。

2決策樹

2.1概述決策樹算法

數(shù)據(jù)分類是最常用的數(shù)據(jù)挖掘分析方法。具體地說,它是建立一個分類函數(shù)或模型圖的數(shù)據(jù)記錄到預(yù)先假定類和基于訓(xùn)練集的了解數(shù)據(jù)的預(yù)測。高高的可理解性和決策樹方法簡單的計算成本,使得它越來越受歡迎。不過,有一定的隨機性和不確定性這一方法。決策樹是一種用于計算凈現(xiàn)值的期望值大于零,通過決策樹和價值上的所有情況的概率是已知的前提下,其可行性概率決策分析方法。這是一個直觀的使用概率分析的圖解法。它被稱為決策樹由于其決策機構(gòu)圖看起來像一棵樹。在機器學(xué)習(xí)中,決策樹是一種表示對象的屬性和對象值之間的映射關(guān)系預(yù)測模型。決策節(jié)點的幾種可能方案的選擇,即最終優(yōu)化方案。狀態(tài)節(jié)點代表的經(jīng)濟效應(yīng)(期望值)的替代方案。通過比較所有節(jié)點地位的經(jīng)濟效果,最佳的方案可以在一些決策標(biāo)準(zhǔn)的選擇。結(jié)果節(jié)點代表自然條件下各方案的損益值。評價指標(biāo)具體包括以下五個環(huán)節(jié):預(yù)測精度,分類意義地模型來預(yù)測新的數(shù)據(jù)類型的能力;簡潔地描述,這一評價指標(biāo)的決策取決于理解水平和對問題的描述方式;計算復(fù)雜,主要是指空間和實踐地復(fù)雜性因為他們都是計算成本密切相關(guān);模型的魯棒性,這種評價指標(biāo)是準(zhǔn)確預(yù)測的基礎(chǔ)數(shù)據(jù)分類互補的能力,尤其是當(dāng)有噪聲或數(shù)據(jù)不完整的治療手段;可擴展性,準(zhǔn)確性和能力建設(shè)(分類)模型數(shù)據(jù)庫非常大的。

2.2基于粗糙集和決策樹的數(shù)據(jù)挖掘算法設(shè)計的集成

2.2.1描述算法分類是預(yù)測和評估新的案件類型的相似性通過根據(jù)現(xiàn)有的類型以掌握客觀事物存在的規(guī)則。分類主要是把相同的元素的特性(包括一些基本特征,在這種特征的對象的值)在一起。粗糙集離不開分類機制的支持。分類是一種等價關(guān)系,等價關(guān)系分類是這個空間的分類。決策樹是一種用實例來提高分類,歸納算法預(yù)測未知數(shù)據(jù)的處理和挖掘。粗糙集理論的數(shù)據(jù)預(yù)處理和對海量數(shù)據(jù)的處理和消除冗余屬性約簡的生命比其他方法更容易。然而,粗糙集理論沒有交叉驗證的特點,所以它可能不是很準(zhǔn)確。決策樹方法具有高速,簡單,易懂的分類規(guī)則,但它是適用于數(shù)據(jù)集的屬性,可能會導(dǎo)致可怕的結(jié)構(gòu)分類??傊?,粗糙集和決策樹相互受益,他們都是用來處理離散數(shù)據(jù)。所以他們可以集成來降低數(shù)據(jù)的粗糙集消除冗余,然后發(fā)現(xiàn)分類規(guī)則的決策樹。

2.2.2算法程序基于粗糙集和決策樹相結(jié)合的數(shù)據(jù)挖掘算法的過程是逐步選擇的關(guān)鍵屬性,形成一個新的條件屬性集,并不斷重復(fù)這個過程直到D組趕上。

2.3比較算法

決策樹,也可稱為分類解析,將通過遞歸集合訓(xùn)練直到所有的或大部分的記錄在每一個子集都是同一類型。主要的決策樹算法目前使用的方法基于信息理論和最小的基尼指數(shù)法。通常,歸納學(xué)習(xí)系統(tǒng)將得到一個決策樹的應(yīng)用具有幾個優(yōu)點:理解用戶;生成決策樹和處理大規(guī)模訓(xùn)練集的能力的時間少;決策樹,也可稱為分類解析,將通過遞歸集合訓(xùn)練直到所有的或大部分的記錄在每一個子集都是同一類型。主要的決策樹算法目前使用的方法基于信息理論和最小的基尼指數(shù)法。通常,歸納學(xué)習(xí)系統(tǒng)將得到一個決策樹的應(yīng)用具有幾個優(yōu)點:理解用戶;生成決策樹和處理大規(guī)模訓(xùn)練集的能力的時間少;生成算法簡單的檢查;明確規(guī)定順序決策方法確定案件的類型;高精度。然而,有一些缺點和決策樹很容易被不相關(guān)的屬性的干擾。為了解決這一問題,粗糙集技術(shù)要求。根據(jù)決策樹的評價標(biāo)準(zhǔn),這兩種技術(shù)的結(jié)合可以大大減少計算的復(fù)雜性和描述。

3基于粗糙集數(shù)據(jù)挖掘的多維設(shè)計

不斷提高數(shù)據(jù)倉庫技術(shù)和OLAP技術(shù),多維技術(shù)(包括聯(lián)機分析處理和數(shù)據(jù)挖掘)創(chuàng)建。下面的過程是通過粗糙集理論和決策樹技術(shù)研究實現(xiàn)數(shù)據(jù)挖掘系統(tǒng)的設(shè)計。

3.1系統(tǒng)設(shè)計目標(biāo)

本系統(tǒng)是通過在SQL服務(wù)器分析服務(wù)器環(huán)境VB.NET開發(fā)。應(yīng)用該系統(tǒng)可以實現(xiàn)對數(shù)據(jù)的多維數(shù)據(jù)集,在這樣的環(huán)境中建立數(shù)據(jù)挖掘。在用戶選擇數(shù)據(jù)的維度和維度的層次結(jié)構(gòu),他們將得到不同的和全面的決策樹,通過本系統(tǒng)的內(nèi)隱知識。此外,該系統(tǒng)還具有模型驗證功能。據(jù)此,用戶可以選擇最合適的挖掘模型,得到高精度的信息。

3.2系統(tǒng)設(shè)計

該系統(tǒng)有6個數(shù)據(jù)挖掘:數(shù)據(jù)準(zhǔn)備;數(shù)據(jù)抽?。粩?shù)據(jù)篩選;數(shù)據(jù)預(yù)處理;訓(xùn)練數(shù)據(jù)集的決策樹分析;通過檢查數(shù)據(jù)集分析結(jié)果檢驗。數(shù)據(jù)準(zhǔn)備需要建立多維數(shù)據(jù)集在SQL服務(wù)器分析服務(wù)器環(huán)境分析。ADOMD技術(shù)用于數(shù)據(jù)選擇。在選擇正確的尺寸和維度的層次結(jié)構(gòu)和多維數(shù)據(jù)集的度量值,系統(tǒng)可生成MDX語句,得到相應(yīng)的數(shù)據(jù)集。數(shù)據(jù)抽取是隨機抽取數(shù)據(jù)的隨機函數(shù)生成分析數(shù)據(jù)表,在前面的步驟中產(chǎn)生的數(shù)據(jù)是不準(zhǔn)確的,足夠短暫。在這一環(huán)節(jié)產(chǎn)生的數(shù)據(jù)是未經(jīng)預(yù)處理的,所以其決策屬性是連續(xù)的,有相當(dāng)多的決策屬性。數(shù)據(jù)預(yù)處理是離散和減少訓(xùn)練集。確保所有的連續(xù)屬性離散的等頻率離散化的措施。然后減少離散數(shù)據(jù),并將數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)集。進行決策分析,對預(yù)處理后的數(shù)據(jù)集,包括建立數(shù)據(jù)挖掘模型,該模型加載選定的數(shù)據(jù)集和分析這些訓(xùn)練集的決策樹。

4結(jié)論

總之,基于粗糙集和決策樹相結(jié)合的基礎(chǔ)上,該系統(tǒng)可以通過對多維數(shù)據(jù)集的數(shù)據(jù)挖掘算法的數(shù)據(jù)分析產(chǎn)生更全面的知識,以提高決策者的決策的準(zhǔn)確性。目前,多維數(shù)據(jù)挖掘是不完善的,需要改進。例如,在知識約簡過程注意是不均勻的;該算法只適用于離散屬性值;有很多算法(時序分析)可用于多維數(shù)據(jù)挖掘。

參考文獻:

[2]高靜,徐章艷,宋威,等.一種新的基于粗糙集模型的決策樹算法[J].計算機工程,2008,34(3):9-11.

[4]羅秋瑾,陳世聯(lián).基于值約簡和決策樹的最簡規(guī)則提取算法[J].計算機應(yīng)用,2005,25(8):1853-1855.

[5]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計算機工程與應(yīng)用,2004,40(1):185-185,214.

[6][德]M.巴斯蒂安.武森,高學(xué)東,譯.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.

[7]翟俊海,王熙照,張滄生.基于粗糙集技術(shù)的決策樹歸納[J].計算機工程與應(yīng)用,2009,45(18):45-47.

[8]黃宇穎.基于粗糙集的決策樹算法在體檢系統(tǒng)中的研究[J].計算機工程與應(yīng)用,2008,44(25):78—80.

作者:戴艷麗 單位:宿遷高等師范學(xué)校

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表