欧美老妇一级特黄aa大片,亚洲日韩中文在线精品第一,9热在线视频精品网

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了淺談多維數(shù)據(jù)挖掘和決策樹粗糙集理論范文，希望能給你帶來靈感和參考，敬請閱讀。

淺談多維數(shù)據(jù)挖掘和決策樹粗糙集理論

摘要：隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的發(fā)展，數(shù)據(jù)存儲被越來越多的企業(yè)使用，機構(gòu)和部門，這需要更多的智能和數(shù)據(jù)挖掘的更準(zhǔn)確的方法。多維數(shù)據(jù)挖掘技術(shù)，包括聯(lián)機分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上，建立了日益完善的數(shù)據(jù)倉庫技術(shù)和OLAP技術(shù)，使得用戶可以更方便的選擇和分析。本文主要研究和分析了粗糙集的多維數(shù)據(jù)挖掘，包括多維數(shù)據(jù)集的概念，決策樹技術(shù)和粗糙集的集成，以及基于粗糙集數(shù)據(jù)挖掘的多維設(shè)計。

關(guān)鍵詞：多維數(shù)據(jù)挖掘；粗糙集；決策樹技術(shù)

1概念的多維數(shù)據(jù)和粗糙集

1.1基本的OLAP多維數(shù)據(jù)集的概念

多維數(shù)據(jù)庫和多維數(shù)據(jù)集的多維數(shù)據(jù)庫中提出的物流方式。多維是人們觀察數(shù)據(jù)的特定。層次是指部門描述在不同程度的數(shù)據(jù)，例如，時間維度包括日，月，這樣的水平，年度和季度。成員的價值觀。數(shù)據(jù)單元數(shù)的多維數(shù)組的維數(shù)可以挑選出的成員，這些成員可以確定一個特定的值。度量，一般數(shù)值度量指標(biāo)，用于描述數(shù)據(jù)。多維分析是一系列分析（切片，旋轉(zhuǎn)等）的數(shù)據(jù)（以多維的方式獲得）來觀察和控制更加全面而詳細的數(shù)據(jù)，并把信息和物質(zhì)。數(shù)據(jù)層指的是多維數(shù)據(jù)集的一個子集，是由一個或幾個維度的維度的成員有限的任命。數(shù)據(jù)旋轉(zhuǎn)意味著改變尺寸的位置去觀察用戶從其他角度的多維數(shù)據(jù)。

1.2數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘的功能是發(fā)現(xiàn)蘊含在其中的是很難找到的數(shù)據(jù)信息和技術(shù)。隨著人們?nèi)找嬖鲩L的對信息的價值的知識，數(shù)據(jù)挖掘是逐步發(fā)展。這種技術(shù)可以解決信息不完全的數(shù)據(jù)過多的問題，建立關(guān)系模型和做出正確的預(yù)測。它具有傳統(tǒng)加工方法的特點和優(yōu)勢，如處理大型數(shù)據(jù)庫；隨機信息查詢；有用的規(guī)則和合理的預(yù)測基于數(shù)據(jù)挖掘技術(shù)；及時響應(yīng)和決心改變數(shù)據(jù)，包括尋找規(guī)律和管理，維護。這些規(guī)則是不斷更新新的數(shù)據(jù)進入，他們并不適合所有的數(shù)據(jù)，因為數(shù)據(jù)庫是非常大的，如果他們同意在一定范圍內(nèi)適用。

1.3數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘主要包括四個環(huán)節(jié)：業(yè)務(wù)對象的確定和主題分析；數(shù)據(jù)預(yù)處理包括數(shù)據(jù)選擇，清洗，轉(zhuǎn)換和加載；對選定的知識水平直接相關(guān)的數(shù)據(jù)挖掘；驗證結(jié)果分析得到新的，可用的和可理解的數(shù)據(jù)；知識同化避免矛盾。

1.4粗糙集理論的基本知識

粗糙集理論已被應(yīng)用于許多領(lǐng)域（機器學(xué)習(xí)，決策，流程分析，數(shù)據(jù)挖掘）。粗糙集理論是分類成集嵌入知識，并把它的一部分。在工業(yè)應(yīng)用中，一些知識庫可能是如此復(fù)雜和龐大，多余部分應(yīng)消除為了簡化知識。簡化的過程包括還原兩域。知識依賴也應(yīng)該控制。在信息系統(tǒng)中的數(shù)據(jù)（決策表）的智能系統(tǒng)，可以以多種方式呈現(xiàn)，如語言形式和數(shù)字形式。不準(zhǔn)確的數(shù)字形式會使獲得的信息不完全和不均勻，這個問題需要通過知識表示方法解決。這表示一般的信息系統(tǒng)（信息表）在粗糙集理論。知道的知識表示系統(tǒng)的概念可以很容易地以表格的形式表示的系統(tǒng)，即知識表示系統(tǒng)或信息系統(tǒng)的屬性值表。決策表，重要的和特殊的表，可以準(zhǔn)確地描述一些復(fù)雜的邏輯和簡潔。這一決策表可以連接獨立的術(shù)語與幾個動作直接得到明確表示。

1.5粗糙集理論的五大特征

第一，它能處理各種數(shù)據(jù)，包括零碎的數(shù)據(jù)和數(shù)據(jù)的多變量；其次，它可以處理不精確的、模糊的數(shù)據(jù)，包括確定性和非確定性；第三，它可以計算出知識和知識水平的不同粒度最小的表示；第四，它可以揭示出的管理模式與簡單的概念；第五，它可以產(chǎn)生精確的規(guī)則易于檢查和驗證，特別適用于自動生成規(guī)則的智能控制。此外，粗糙集理論的最重要的優(yōu)點是它能提供的先驗信息，除了數(shù)據(jù)集需要解決的問題。當(dāng)然，這個理論不是萬能的。

2決策樹

2.1概述決策樹算法

數(shù)據(jù)分類是最常用的數(shù)據(jù)挖掘分析方法。具體地說，它是建立一個分類函數(shù)或模型圖的數(shù)據(jù)記錄到預(yù)先假定類和基于訓(xùn)練集的了解數(shù)據(jù)的預(yù)測。高高的可理解性和決策樹方法簡單的計算成本，使得它越來越受歡迎。不過，有一定的隨機性和不確定性這一方法。決策樹是一種用于計算凈現(xiàn)值的期望值大于零，通過決策樹和價值上的所有情況的概率是已知的前提下，其可行性概率決策分析方法。這是一個直觀的使用概率分析的圖解法。它被稱為決策樹由于其決策機構(gòu)圖看起來像一棵樹。在機器學(xué)習(xí)中，決策樹是一種表示對象的屬性和對象值之間的映射關(guān)系預(yù)測模型。決策節(jié)點的幾種可能方案的選擇，即最終優(yōu)化方案。狀態(tài)節(jié)點代表的經(jīng)濟效應(yīng)（期望值）的替代方案。通過比較所有節(jié)點地位的經(jīng)濟效果，最佳的方案可以在一些決策標(biāo)準(zhǔn)的選擇。結(jié)果節(jié)點代表自然條件下各方案的損益值。評價指標(biāo)具體包括以下五個環(huán)節(jié)：預(yù)測精度，分類意義地模型來預(yù)測新的數(shù)據(jù)類型的能力；簡潔地描述，這一評價指標(biāo)的決策取決于理解水平和對問題的描述方式；計算復(fù)雜，主要是指空間和實踐地復(fù)雜性因為他們都是計算成本密切相關(guān)；模型的魯棒性，這種評價指標(biāo)是準(zhǔn)確預(yù)測的基礎(chǔ)數(shù)據(jù)分類互補的能力，尤其是當(dāng)有噪聲或數(shù)據(jù)不完整的治療手段；可擴展性，準(zhǔn)確性和能力建設(shè)（分類）模型數(shù)據(jù)庫非常大的。

2.2基于粗糙集和決策樹的數(shù)據(jù)挖掘算法設(shè)計的集成

2.2.1描述算法分類是預(yù)測和評估新的案件類型的相似性通過根據(jù)現(xiàn)有的類型以掌握客觀事物存在的規(guī)則。分類主要是把相同的元素的特性（包括一些基本特征，在這種特征的對象的值）在一起。粗糙集離不開分類機制的支持。分類是一種等價關(guān)系，等價關(guān)系分類是這個空間的分類。決策樹是一種用實例來提高分類，歸納算法預(yù)測未知數(shù)據(jù)的處理和挖掘。粗糙集理論的數(shù)據(jù)預(yù)處理和對海量數(shù)據(jù)的處理和消除冗余屬性約簡的生命比其他方法更容易。然而，粗糙集理論沒有交叉驗證的特點，所以它可能不是很準(zhǔn)確。決策樹方法具有高速，簡單，易懂的分類規(guī)則，但它是適用于數(shù)據(jù)集的屬性,可能會導(dǎo)致可怕的結(jié)構(gòu)分類?？傊?，粗糙集和決策樹相互受益，他們都是用來處理離散數(shù)據(jù)。所以他們可以集成來降低數(shù)據(jù)的粗糙集消除冗余，然后發(fā)現(xiàn)分類規(guī)則的決策樹。

2.2.2算法程序基于粗糙集和決策樹相結(jié)合的數(shù)據(jù)挖掘算法的過程是逐步選擇的關(guān)鍵屬性，形成一個新的條件屬性集，并不斷重復(fù)這個過程直到D組趕上。

2.3比較算法

決策樹，也可稱為分類解析，將通過遞歸集合訓(xùn)練直到所有的或大部分的記錄在每一個子集都是同一類型。主要的決策樹算法目前使用的方法基于信息理論和最小的基尼指數(shù)法。通常，歸納學(xué)習(xí)系統(tǒng)將得到一個決策樹的應(yīng)用具有幾個優(yōu)點：理解用戶；生成決策樹和處理大規(guī)模訓(xùn)練集的能力的時間少；決策樹，也可稱為分類解析，將通過遞歸集合訓(xùn)練直到所有的或大部分的記錄在每一個子集都是同一類型。主要的決策樹算法目前使用的方法基于信息理論和最小的基尼指數(shù)法。通常，歸納學(xué)習(xí)系統(tǒng)將得到一個決策樹的應(yīng)用具有幾個優(yōu)點：理解用戶；生成決策樹和處理大規(guī)模訓(xùn)練集的能力的時間少；生成算法簡單的檢查；明確規(guī)定順序決策方法確定案件的類型；高精度。然而，有一些缺點和決策樹很容易被不相關(guān)的屬性的干擾。為了解決這一問題，粗糙集技術(shù)要求。根據(jù)決策樹的評價標(biāo)準(zhǔn)，這兩種技術(shù)的結(jié)合可以大大減少計算的復(fù)雜性和描述。

3基于粗糙集數(shù)據(jù)挖掘的多維設(shè)計

不斷提高數(shù)據(jù)倉庫技術(shù)和OLAP技術(shù)，多維技術(shù)（包括聯(lián)機分析處理和數(shù)據(jù)挖掘）創(chuàng)建。下面的過程是通過粗糙集理論和決策樹技術(shù)研究實現(xiàn)數(shù)據(jù)挖掘系統(tǒng)的設(shè)計。

3.1系統(tǒng)設(shè)計目標(biāo)

本系統(tǒng)是通過在SQL服務(wù)器分析服務(wù)器環(huán)境VB.NET開發(fā)。應(yīng)用該系統(tǒng)可以實現(xiàn)對數(shù)據(jù)的多維數(shù)據(jù)集，在這樣的環(huán)境中建立數(shù)據(jù)挖掘。在用戶選擇數(shù)據(jù)的維度和維度的層次結(jié)構(gòu)，他們將得到不同的和全面的決策樹，通過本系統(tǒng)的內(nèi)隱知識。此外，該系統(tǒng)還具有模型驗證功能。據(jù)此，用戶可以選擇最合適的挖掘模型，得到高精度的信息。

3.2系統(tǒng)設(shè)計

該系統(tǒng)有6個數(shù)據(jù)挖掘：數(shù)據(jù)準(zhǔn)備；數(shù)據(jù)抽?。粩?shù)據(jù)篩選；數(shù)據(jù)預(yù)處理；訓(xùn)練數(shù)據(jù)集的決策樹分析；通過檢查數(shù)據(jù)集分析結(jié)果檢驗。數(shù)據(jù)準(zhǔn)備需要建立多維數(shù)據(jù)集在SQL服務(wù)器分析服務(wù)器環(huán)境分析。ADOMD技術(shù)用于數(shù)據(jù)選擇。在選擇正確的尺寸和維度的層次結(jié)構(gòu)和多維數(shù)據(jù)集的度量值，系統(tǒng)可生成MDX語句，得到相應(yīng)的數(shù)據(jù)集。數(shù)據(jù)抽取是隨機抽取數(shù)據(jù)的隨機函數(shù)生成分析數(shù)據(jù)表，在前面的步驟中產(chǎn)生的數(shù)據(jù)是不準(zhǔn)確的，足夠短暫。在這一環(huán)節(jié)產(chǎn)生的數(shù)據(jù)是未經(jīng)預(yù)處理的，所以其決策屬性是連續(xù)的，有相當(dāng)多的決策屬性。數(shù)據(jù)預(yù)處理是離散和減少訓(xùn)練集。確保所有的連續(xù)屬性離散的等頻率離散化的措施。然后減少離散數(shù)據(jù)，并將數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)集。進行決策分析，對預(yù)處理后的數(shù)據(jù)集，包括建立數(shù)據(jù)挖掘模型，該模型加載選定的數(shù)據(jù)集和分析這些訓(xùn)練集的決策樹。

4結(jié)論

總之，基于粗糙集和決策樹相結(jié)合的基礎(chǔ)上，該系統(tǒng)可以通過對多維數(shù)據(jù)集的數(shù)據(jù)挖掘算法的數(shù)據(jù)分析產(chǎn)生更全面的知識，以提高決策者的決策的準(zhǔn)確性。目前，多維數(shù)據(jù)挖掘是不完善的，需要改進。例如，在知識約簡過程注意是不均勻的；該算法只適用于離散屬性值；有很多算法（時序分析）可用于多維數(shù)據(jù)挖掘。

參考文獻：

[2]高靜,徐章艷,宋威,等.一種新的基于粗糙集模型的決策樹算法[J].計算機工程,2008,34(3):9-11.

[4]羅秋瑾,陳世聯(lián).基于值約簡和決策樹的最簡規(guī)則提取算法[J].計算機應(yīng)用,2005,25(8):1853-1855.

[5]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計算機工程與應(yīng)用,2004,40(1):185-185,214.

[6][德]M.巴斯蒂安.武森,高學(xué)東,譯.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.

[7]翟俊海,王熙照,張滄生.基于粗糙集技術(shù)的決策樹歸納[J].計算機工程與應(yīng)用,2009,45(18):45-47.

[8]黃宇穎．基于粗糙集的決策樹算法在體檢系統(tǒng)中的研究[J]．計算機工程與應(yīng)用,2008,44(25)：78—80.

作者：戴艷麗單位：宿遷高等師范學(xué)校

淺談多維數(shù)據(jù)挖掘和決策樹粗糙集理論

免责声明

AI写作，高效原创

相關(guān)文章閱讀

精選范文推薦