前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)論文主題范文,僅供參考,歡迎閱讀并收藏。
1.較高的有效性新興起來(lái)的數(shù)據(jù)挖掘技術(shù)的應(yīng)用時(shí)間并不是很長(zhǎng),但是其在經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域的應(yīng)用受到了良好的效果,其穩(wěn)定的工作性能,不僅能夠?qū)?jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析整理,更能深層次地開(kāi)發(fā)出更多的有用信息,在實(shí)際的應(yīng)用中展現(xiàn)出較高的有效性。
2.綜合應(yīng)用性強(qiáng)數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用在統(tǒng)計(jì)工作中的多個(gè)領(lǐng)域,并且發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅是一種綜合應(yīng)用性強(qiáng)的技術(shù)手段,同時(shí)又能滿(mǎn)足統(tǒng)計(jì)數(shù)據(jù)使用者的特定數(shù)據(jù)需要。因此,數(shù)據(jù)挖掘技術(shù)能夠?qū)?jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行定向的整理和開(kāi)發(fā),為數(shù)據(jù)使用者提供更好的服務(wù)。
3.宏觀(guān)型的數(shù)據(jù)庫(kù)有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前,我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)大多還是采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方法,統(tǒng)計(jì)收集的數(shù)據(jù)信息不能形成有機(jī)整體,在對(duì)數(shù)據(jù)進(jìn)行管理過(guò)程中,出現(xiàn)了很多問(wèn)題。因此。經(jīng)濟(jì)統(tǒng)計(jì)工作需要能夠提供數(shù)據(jù)整理開(kāi)發(fā)的新技術(shù)。宏觀(guān)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù),為數(shù)據(jù)挖掘技術(shù)的開(kāi)展提供了平臺(tái)。數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)信息要正確無(wú)誤,然后經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的整合,就能得到更豐富的數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)的運(yùn)用
數(shù)據(jù)挖掘技術(shù)的特性決定了其對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)整理的重要性,經(jīng)濟(jì)統(tǒng)計(jì)所得到的數(shù)據(jù)信息要求必須有實(shí)用性和真實(shí)性,數(shù)據(jù)挖掘技術(shù)的特性正好滿(mǎn)足了經(jīng)濟(jì)統(tǒng)計(jì)工作的需要。數(shù)據(jù)挖掘的過(guò)程主要包括以下四種方法:
1.預(yù)處理方法首先,要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行預(yù)處理。由于經(jīng)濟(jì)統(tǒng)計(jì)信息在收集過(guò)程中存在一些問(wèn)題,導(dǎo)致收集到的數(shù)據(jù)存在缺失和模糊現(xiàn)象,這種有缺憾的數(shù)據(jù)信息不能作為數(shù)據(jù)挖掘的基礎(chǔ),因此一定要對(duì)數(shù)據(jù)挖掘?qū)ο筮M(jìn)行事先的處理。其中包括對(duì)基礎(chǔ)數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確和偏差較大的數(shù)據(jù)進(jìn)行甄別。
2.集成化處理方法其次,要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行集成化處理。經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中,會(huì)出現(xiàn)對(duì)多個(gè)數(shù)據(jù)源進(jìn)行重疊統(tǒng)計(jì)的現(xiàn)象,這就要求對(duì)數(shù)據(jù)進(jìn)行挖掘之前,要有一個(gè)統(tǒng)一整理的過(guò)程,即數(shù)據(jù)的集成化處理。數(shù)據(jù)集成在統(tǒng)計(jì)中被廣泛的使用。經(jīng)過(guò)數(shù)據(jù)集成處理的統(tǒng)計(jì)信息更加全面,更加真實(shí),可以作為數(shù)據(jù)挖掘基礎(chǔ)信息。
3.轉(zhuǎn)換方法再有,要對(duì)統(tǒng)計(jì)數(shù)據(jù)根據(jù)需要進(jìn)行轉(zhuǎn)換。經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的描述形式比較單一,為了滿(mǎn)足數(shù)據(jù)信息使用者的需要,就要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其的表現(xiàn)形式具有泛化或是更加規(guī)范。這里所說(shuō)的泛化指的是利用更深層次和更加抽象的定義來(lái)代替原有的低層數(shù)據(jù)。
4.決策樹(shù)方法除卻上述四種處理方法外,還有決策樹(shù)方法,指的是對(duì)龐雜的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類(lèi),把有利用價(jià)值的統(tǒng)計(jì)數(shù)據(jù)提煉出來(lái),這種數(shù)據(jù)挖掘形式能夠?qū)Ψ治鰧?duì)象進(jìn)行體現(xiàn),并能快速的對(duì)信息進(jìn)行分類(lèi)處理,能夠解決在經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中出現(xiàn)的各種問(wèn)題。
三、結(jié)語(yǔ)
1.1較高的有效性數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)的深加工技術(shù),其本身是帶有鮮明的目的性的,在實(shí)際應(yīng)用活動(dòng)中能夠?qū)﹂L(zhǎng)時(shí)間積累下來(lái)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行基于數(shù)據(jù)使用者要求的深入加工。在實(shí)踐應(yīng)用活動(dòng)中主要有兩種重要的應(yīng)用形式,一種是對(duì)積累經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的管理高效化處理,一種是對(duì)現(xiàn)有經(jīng)濟(jì)數(shù)據(jù)的目的性分析。其中第一種分析方式是從經(jīng)濟(jì)數(shù)據(jù)管理的角度出發(fā)的,在應(yīng)用中主要是以固有數(shù)據(jù)信息的統(tǒng)計(jì)、分類(lèi)為基礎(chǔ),將原本混亂的數(shù)據(jù)庫(kù)信息進(jìn)行科學(xué)、系統(tǒng)的歸類(lèi),保證統(tǒng)計(jì)數(shù)據(jù)管理的高效性和使用的便利性。另一種工作方式是一種經(jīng)濟(jì)數(shù)據(jù)的再加工過(guò)程,以鮮明的數(shù)據(jù)統(tǒng)計(jì)、分析目標(biāo)為指引對(duì)原有數(shù)據(jù)的呈現(xiàn)形式、組成內(nèi)容和關(guān)聯(lián)形式進(jìn)行重新加工,以保證經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)能夠最大限度地服務(wù)于管理者的需求。
1.2綜合應(yīng)用性強(qiáng)如前文所述,數(shù)據(jù)挖掘技術(shù)是一個(gè)工具系統(tǒng)而不是單一的工具,能夠?qū)崿F(xiàn)使用主體的各種信息需求,隨著現(xiàn)代社會(huì)經(jīng)濟(jì)的快速發(fā)展,當(dāng)前我國(guó)經(jīng)濟(jì)管理的各個(gè)部門(mén)都需要大量的經(jīng)濟(jì)統(tǒng)計(jì)信息來(lái)作為經(jīng)濟(jì)管理決策的基礎(chǔ)。但是因?yàn)楦鱾€(gè)管理部門(mén)經(jīng)濟(jì)管理的領(lǐng)域不同、經(jīng)濟(jì)管理的方式不同、經(jīng)濟(jì)的管理權(quán)限不同,所以相應(yīng)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)呈現(xiàn)形式的需求就不同。這就為經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)提出了更高的要求,其不僅要對(duì)符合各個(gè)經(jīng)濟(jì)管理部門(mén)需求的數(shù)據(jù)內(nèi)容進(jìn)行統(tǒng)計(jì),同時(shí)要將統(tǒng)計(jì)完成的數(shù)據(jù)換算成各種不同的呈現(xiàn)形式,并根據(jù)統(tǒng)計(jì)信息的來(lái)源和統(tǒng)計(jì)信息的計(jì)算方式對(duì)其可靠性進(jìn)行評(píng)估[2]。最終這些數(shù)據(jù)信息的輸出格式還應(yīng)該符合所服務(wù)的經(jīng)濟(jì)管理部門(mén)管理系統(tǒng)的格式要求,保證統(tǒng)計(jì)數(shù)據(jù)能夠在管理部門(mén)的管理系統(tǒng)中正常錄入、應(yīng)用,數(shù)據(jù)挖掘技術(shù)很好地滿(mǎn)足了上述的復(fù)雜經(jīng)濟(jì)數(shù)據(jù)管理要求,其功能的綜合性促進(jìn)了其應(yīng)用深度的提高和范圍的擴(kuò)大。
1.3宏觀(guān)數(shù)據(jù)庫(kù)有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前因?yàn)榻?jīng)濟(jì)管理部門(mén)的職權(quán)較為分散,各個(gè)經(jīng)濟(jì)管理部門(mén)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)需求不盡相同。所以我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)活動(dòng)絕大多數(shù)還采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方法,統(tǒng)計(jì)收集的經(jīng)濟(jì)信息存在一定的局限性,不能夠服務(wù)于經(jīng)濟(jì)管理活動(dòng)的整體,或者造成一些數(shù)據(jù)統(tǒng)計(jì)工作的重復(fù),對(duì)經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)工作造成了一系列的質(zhì)量和效率上的影響。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)急需一個(gè)能夠整合各個(gè)統(tǒng)計(jì)系統(tǒng),實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)信息融合的新技術(shù)。宏觀(guān)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)為數(shù)據(jù)挖掘技術(shù)的開(kāi)展提供了平臺(tái),數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)信息要正確無(wú)誤,然后經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的整合,就能得到更加豐富的數(shù)據(jù)資源[3]。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在社會(huì)經(jīng)濟(jì)管理活動(dòng)中,管理主體對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的要求主要有兩個(gè)。一個(gè)是統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性、一個(gè)是數(shù)據(jù)統(tǒng)計(jì)信息的實(shí)用性。單就這兩個(gè)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿(mǎn)足經(jīng)濟(jì)統(tǒng)計(jì)工作的需求,是適用性極強(qiáng)的一種經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)技術(shù),其在具體的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中主要有以下三種應(yīng)用方法。
2.1預(yù)處理方法在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法,因?yàn)閿?shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù)。其本身是受基礎(chǔ)經(jīng)濟(jì)信息限制的,不可能無(wú)中生有代替經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的功能。所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息都應(yīng)該進(jìn)行預(yù)處理,處理的內(nèi)容主要包括對(duì)這些數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確,以及不同經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息之間差距較大的現(xiàn)象。對(duì)這些基礎(chǔ)數(shù)據(jù)存在的問(wèn)題進(jìn)行處理的過(guò)程被稱(chēng)為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測(cè)法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個(gè)數(shù)據(jù)點(diǎn)是空值或者噪聲數(shù)據(jù)的時(shí)候,可以采用均值法進(jìn)行處理,即用數(shù)據(jù)庫(kù)中所有該屬性已知的屬性均值來(lái)填補(bǔ)空缺。保證數(shù)據(jù)挖掘系統(tǒng)對(duì)基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進(jìn)行,得出相對(duì)而言準(zhǔn)確度較高的統(tǒng)計(jì)分析數(shù)據(jù)。其中Ci表示當(dāng)前數(shù)據(jù)點(diǎn)的取值,Cj表示當(dāng)前數(shù)據(jù)點(diǎn)前后不為空的數(shù)據(jù)點(diǎn),K表示當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算所取的參考數(shù)據(jù)點(diǎn)數(shù)量[4]。平滑法依然是對(duì)基礎(chǔ)數(shù)據(jù)中空值和噪聲數(shù)據(jù)的計(jì)算方法,其與均值法的區(qū)別是用加權(quán)平均數(shù)代替了平均數(shù),考慮了計(jì)算過(guò)程中提取的每一個(gè)數(shù)據(jù)對(duì)數(shù)據(jù)結(jié)果的影響權(quán)重,所以計(jì)算出的結(jié)果往往更加接近真實(shí)的數(shù)值。其中Ci表示當(dāng)前數(shù)據(jù)點(diǎn)的取值,Cj表示當(dāng)前數(shù)據(jù)點(diǎn)前后不為空的數(shù)據(jù)點(diǎn),K表示為對(duì)當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算所取的數(shù)據(jù)點(diǎn)數(shù)量。WJ表示Cj數(shù)據(jù)點(diǎn)的權(quán)值。
2.2集成化處理方法在數(shù)據(jù)挖掘技術(shù)的應(yīng)用活動(dòng)中,因?yàn)橄嗤貐^(qū)的數(shù)據(jù)統(tǒng)計(jì)主體不同,或者在不同地區(qū)對(duì)相同經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)標(biāo)準(zhǔn)不統(tǒng)一,會(huì)產(chǎn)生一系列的數(shù)據(jù)集成問(wèn)題,如何對(duì)這些調(diào)查方向不同或者是呈現(xiàn)方式不同的數(shù)據(jù)進(jìn)行有效集成而不影響經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)的準(zhǔn)確性,是數(shù)據(jù)挖掘技術(shù)的重要任務(wù)。在具體的數(shù)據(jù)集成過(guò)程中主要考慮以下幾個(gè)方面的問(wèn)題[5]。
2.2.1模式集成當(dāng)前因?yàn)樯鐣?huì)經(jīng)濟(jì)活動(dòng)中經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)內(nèi)容過(guò)于廣泛,很多經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)并不是來(lái)自于官方的統(tǒng)計(jì)局而是來(lái)自一些民間統(tǒng)計(jì)組織,或者是由一線(xiàn)社會(huì)經(jīng)濟(jì)主體直接提供的經(jīng)濟(jì)數(shù)據(jù),在數(shù)據(jù)挖掘過(guò)程中將這些來(lái)自多個(gè)數(shù)據(jù)源存在多種數(shù)據(jù)呈現(xiàn)模式的經(jīng)濟(jì)數(shù)據(jù)信息進(jìn)行集成就涉及實(shí)體識(shí)別的問(wèn)題。例如在數(shù)據(jù)挖掘過(guò)程中如何確定一個(gè)數(shù)據(jù)庫(kù)中“std-id”與另一個(gè)數(shù)據(jù)庫(kù)中的“std-no”是否表示同一實(shí)體,當(dāng)前一般使用數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)之間的含元數(shù)據(jù)對(duì)比來(lái)保證實(shí)體識(shí)別高效率和高質(zhì)量[6]。
2.2.2冗余問(wèn)題數(shù)據(jù)挖掘本身是對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的一種深加工技術(shù),經(jīng)過(guò)其加工的經(jīng)濟(jì)統(tǒng)計(jì)技術(shù)應(yīng)該在本質(zhì)上達(dá)到最簡(jiǎn)狀態(tài)。在數(shù)據(jù)挖掘過(guò)程中要將與其他數(shù)據(jù)呈現(xiàn)某種正相關(guān)關(guān)系的數(shù)據(jù)項(xiàng)目進(jìn)行精簡(jiǎn),以保證數(shù)據(jù)庫(kù)中數(shù)據(jù)量維持在一個(gè)較低的水平,為數(shù)據(jù)管理和應(yīng)用提供便利。在經(jīng)濟(jì)數(shù)據(jù)挖掘活動(dòng)中人均國(guó)民生產(chǎn)總值就是典型的冗余屬性,因?yàn)槠鋽?shù)值是可以通過(guò)國(guó)內(nèi)生產(chǎn)總值和總?cè)丝趯傩杂?jì)算出來(lái)的,所以類(lèi)似人均國(guó)民生產(chǎn)總值這種冗余屬性在數(shù)據(jù)挖掘過(guò)程中就應(yīng)該精簡(jiǎn),應(yīng)用的時(shí)候在利用國(guó)民生產(chǎn)總值和人口屬性計(jì)算得出[7]。對(duì)冗余屬性的判斷主要通過(guò)相關(guān)度對(duì)比來(lái)實(shí)現(xiàn)。其中n表示元組的個(gè)數(shù),分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標(biāo)準(zhǔn)方差,在這一公式中如果則表示A、B兩個(gè)屬性是正相關(guān),也就是說(shuō)A越大B就越大,值越高二者的正相關(guān)關(guān)系就越密切;如果則表示屬性A、B之間沒(méi)有直接關(guān)系,是相互獨(dú)立的;如果則表示A、B兩個(gè)屬性呈負(fù)相關(guān),屬性B會(huì)隨著屬性A的減小而增大,的絕對(duì)值越大,二者的負(fù)相關(guān)關(guān)聯(lián)關(guān)系就越密切。
2.3決策樹(shù)方法在數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中,經(jīng)過(guò)系統(tǒng)的分析和總結(jié)以后,分析數(shù)據(jù)的輸出是一個(gè)關(guān)鍵的環(huán)節(jié),其輸出的數(shù)據(jù)形式會(huì)對(duì)使用者的經(jīng)濟(jì)管理決策產(chǎn)生直接的影響。決策樹(shù)是一種較為常見(jiàn)的、直觀(guān)的快速分類(lèi)方法。其應(yīng)用的關(guān)鍵是決策樹(shù)的構(gòu)建,具體而言主要分為兩步:第一步是利用訓(xùn)練集建立并精簡(jiǎn)一棵決策樹(shù),建立輸出分析的模型;第二步是利用構(gòu)建完畢的決策樹(shù)進(jìn)行輸入數(shù)據(jù)的分類(lèi),這一分類(lèi)是一個(gè)遞歸的過(guò)程,從決策樹(shù)的根部開(kāi)始進(jìn)入到樹(shù)干、枝丫,直到輸入數(shù)據(jù)的分類(lèi)滿(mǎn)足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個(gè):一個(gè)是當(dāng)一個(gè)節(jié)點(diǎn)上的所有數(shù)據(jù)都屬于同一個(gè)類(lèi)別的時(shí)候;另一個(gè)是沒(méi)有分類(lèi)屬性可以對(duì)輸入數(shù)據(jù)進(jìn)行再分割[8]。在決策樹(shù)構(gòu)建完成后,還要根據(jù)使用者的具體要求對(duì)決策樹(shù)進(jìn)行“剪枝”,剪枝的主要目的是要降低因?yàn)槭褂糜?xùn)練集而對(duì)決策樹(shù)本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。
3結(jié)語(yǔ)
在熔煉機(jī)組優(yōu)化運(yùn)行的過(guò)程中,機(jī)組的運(yùn)行性能指標(biāo)與人員的操作水平、負(fù)荷及運(yùn)行參數(shù)之間有著復(fù)雜的相互關(guān)系,這種關(guān)系在大量的生產(chǎn)歷史數(shù)據(jù)中與機(jī)組各數(shù)據(jù)項(xiàng)之間關(guān)聯(lián),因此可以通過(guò)數(shù)據(jù)挖掘的方式把其中的關(guān)聯(lián)關(guān)系定量的反映出來(lái),最終反饋到實(shí)際運(yùn)行中。本文結(jié)合工廠(chǎng)的實(shí)際情況,分析由工廠(chǎng)的DCS系統(tǒng)采集的實(shí)時(shí)運(yùn)行數(shù)據(jù),來(lái)得到用戶(hù)期望的相關(guān)參數(shù)間定量的關(guān)聯(lián)規(guī)則。
2交互式關(guān)聯(lián)規(guī)則挖掘算法
關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫(kù)的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴(lài)關(guān)系,其目的是尋找在大量的數(shù)據(jù)項(xiàng)中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶(hù)的定制信息整合到挖掘過(guò)程中,以一種友好的方式引入約束,使挖掘出更加符合用戶(hù)需要的信息,并且提高了挖掘的效率和有效性。
2.1目標(biāo)數(shù)據(jù)庫(kù)的確定
數(shù)據(jù)挖掘應(yīng)熟悉對(duì)象的背景知識(shí),明確挖掘的目標(biāo),根據(jù)目標(biāo)確定相關(guān)數(shù)據(jù),以此作為目標(biāo)數(shù)據(jù)庫(kù),來(lái)完成對(duì)數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評(píng)價(jià)。
2.2交互式關(guān)聯(lián)規(guī)則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S??尚哦菴是對(duì)關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,即在出現(xiàn)A的情況下出現(xiàn)B的概率;支持度S是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,即A和B同時(shí)出現(xiàn)的概率。
3熔煉機(jī)組數(shù)據(jù)挖掘的實(shí)現(xiàn)
本文采用的是冀某工廠(chǎng)于2013年5月運(yùn)行的數(shù)據(jù),采樣頻率為2~3秒/次,采樣模式為實(shí)時(shí)監(jiān)測(cè)值,得到7595組數(shù)據(jù)。在分析階段,對(duì)影響機(jī)組的主要可控參數(shù)進(jìn)行了提取及預(yù)處理,參數(shù)主要包括:轉(zhuǎn)速、有功功率、主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力。以機(jī)組轉(zhuǎn)速設(shè)計(jì)值為3600r/min為例來(lái)分析。對(duì)各個(gè)可控參數(shù)數(shù)據(jù)進(jìn)行曲線(xiàn)化處理,作為分析它們之間的關(guān)聯(lián)規(guī)則的數(shù)據(jù)表。上述關(guān)聯(lián)規(guī)則表示,在三種負(fù)荷工況下,工廠(chǎng)熔煉機(jī)組有功功率與主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力三者之間最優(yōu)變化區(qū)間的關(guān)聯(lián)。經(jīng)分析,在機(jī)組中應(yīng)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)方法相比,優(yōu)點(diǎn)是其可以對(duì)不同的可測(cè)參數(shù)進(jìn)行挖掘,方法簡(jiǎn)單有效、可操作性強(qiáng);運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘,對(duì)過(guò)程能夠較靈活控制,處理后的目標(biāo)值直觀(guān),便于操作指導(dǎo)和提高運(yùn)行效率。
4結(jié)論
[參考文獻(xiàn)]
[1]董西明.客戶(hù)關(guān)系管理及其應(yīng)用[J].學(xué)術(shù)交流,2004(8)
[2]王光玲.CRM—企業(yè)管理理念新發(fā)展[J].經(jīng)濟(jì)論壇,2003(9)
[3]崔京波,陳穎.論CRM及應(yīng)用[J].科學(xué)與管理,2005(6)
[4]田丹.淺析供應(yīng)鏈環(huán)境下的客戶(hù)關(guān)系管理(CRM)[J].商情(教育經(jīng)濟(jì)研究),2008(3)
[5]左臻.淺談客戶(hù)關(guān)系管理[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2005(5)
[6]徐輝.淺析客戶(hù)關(guān)系管理[J].商業(yè)經(jīng)濟(jì),2008(10)
[7]姚德全,于冬梅.客戶(hù)關(guān)系管理在企業(yè)發(fā)展中的重要性[J].科技創(chuàng)新與應(yīng)用,2013(8)
參考文獻(xiàn)
[1]郭愈強(qiáng),樊瑋.數(shù)據(jù)挖掘技術(shù)在民航CRM中的應(yīng)用[J],計(jì)算機(jī)工程,2005(31):169-171.
[2]劉彬,白萬(wàn)民.淺析數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].電子世界,2014,01(17):16-17.
[3]楊虎猛,朱汝岳.金融業(yè)分型CRM系統(tǒng)探索與應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2013,07(30):259-261.
[4]徐國(guó)慶,段春梅.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2012,02(12):38-40.
[5]王一鴻.體檢中心CRM構(gòu)建及數(shù)據(jù)挖掘的應(yīng)用研究[D].華東理工大學(xué),2011.
[6]潘光強(qiáng).基于數(shù)據(jù)挖掘的CRM設(shè)計(jì)與應(yīng)用研究[D].安徽工業(yè)大學(xué),2011.
參考文獻(xiàn):
[1]廖雯.基于客戶(hù)生命周期的CRM策略研究[J].商,2015(17):15-15.
[2]陳杭.電子商務(wù)的營(yíng)銷(xiāo)資源在CRM策略中有效分配探討[J].現(xiàn)代商業(yè),2015(11):42-43.
[3]金子琦.紛享銷(xiāo)客中國(guó)式CRM商業(yè)邏輯大復(fù)盤(pán)[J].創(chuàng)業(yè)邦,2015(10):90-91.
[關(guān)鍵詞]數(shù)據(jù)挖掘 風(fēng)險(xiǎn)評(píng)估 集裝箱
一、引言
隨著我國(guó)對(duì)外貿(mào)易的快速發(fā)展,進(jìn)境箱量顯著增長(zhǎng)?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長(zhǎng)趨勢(shì)。僅2010年度,共受理進(jìn)境集裝箱申報(bào)3699.06萬(wàn)箱,同比增長(zhǎng)14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬(wàn)箱,比去年同期提高了28.20%。進(jìn)境檢出疫情箱數(shù)占查驗(yàn)箱數(shù)的比例(即查驗(yàn)檢出率)為3.26%,同比提高0.43個(gè)百分點(diǎn)。這反映出進(jìn)境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進(jìn)境集裝箱檢疫面臨形勢(shì)十分嚴(yán)峻。
目前,在進(jìn)境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗(yàn)式方法,效率比較低,工作量繁重,經(jīng)驗(yàn)知識(shí)傳承性差。但是在多年來(lái)的實(shí)踐過(guò)程中,我們已經(jīng)積累了大量的經(jīng)驗(yàn)和數(shù)據(jù)。通過(guò)數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識(shí)可以為入境集裝箱風(fēng)險(xiǎn)進(jìn)行評(píng)估,并為檢疫業(yè)務(wù)決策提供輔助支持。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類(lèi)深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應(yīng)用的模式和知識(shí)來(lái)指導(dǎo)檢疫業(yè)務(wù)。
數(shù)據(jù)分類(lèi)(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要分支。從根本上說(shuō),數(shù)據(jù)分類(lèi)就是通過(guò)對(duì)源數(shù)據(jù)的特點(diǎn)進(jìn)行歸納和描述。要進(jìn)行數(shù)據(jù)分類(lèi),必須使用特定的分類(lèi)工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類(lèi)是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應(yīng)用最多,具有非常高的使用價(jià)值。
三、數(shù)據(jù)概念模型
根據(jù)從進(jìn)境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問(wèn)題分為7類(lèi),分別是:①人類(lèi)傳染病和動(dòng)物傳染病病原體;②植物危性病、蟲(chóng)、雜草以及其它有害生物;③嚙齒動(dòng)物、蚊、蠅、蟑螂等病媒生物;④土壤、動(dòng)物尸體等禁止進(jìn)境物;⑤動(dòng)植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問(wèn)題——7類(lèi)問(wèn)題,對(duì)應(yīng)每一類(lèi)問(wèn)題需要建立一個(gè)可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:
(1)7大類(lèi)問(wèn)題集裝箱同諸如:①來(lái)源地;②箱主公司;③承運(yùn)人;④貨運(yùn)方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識(shí),明確對(duì)每類(lèi)問(wèn)題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對(duì)應(yīng)各類(lèi)問(wèn)題集裝箱的風(fēng)險(xiǎn)數(shù)據(jù)字典;
(2)CIQ數(shù)據(jù)庫(kù)中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過(guò)與場(chǎng)站、貨運(yùn)公司的比對(duì)才能獲得。同時(shí),要對(duì)數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。
四、風(fēng)險(xiǎn)評(píng)估模型
對(duì)進(jìn)境集裝箱進(jìn)行風(fēng)險(xiǎn)評(píng)估主要用到數(shù)據(jù)挖掘中的重要分支——分類(lèi)技術(shù),建立和完善風(fēng)險(xiǎn)評(píng)估模型關(guān)系到風(fēng)險(xiǎn)評(píng)估系統(tǒng)研究的成敗,主要研究?jī)?nèi)容如下:
(1)分類(lèi)技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實(shí)際選擇合適的算法進(jìn)行數(shù)據(jù)挖掘,并在實(shí)踐中對(duì)模型進(jìn)行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對(duì)7類(lèi)問(wèn)題集裝箱進(jìn)行逐類(lèi)數(shù)據(jù)挖掘、建模。
五、典型系統(tǒng)應(yīng)用開(kāi)發(fā)
基于上述的研究成果,設(shè)計(jì)實(shí)現(xiàn)一個(gè)基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估管理系統(tǒng),重點(diǎn)關(guān)注下面系統(tǒng),如圖1所示:
(1)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于Web技術(shù)的軟件系統(tǒng),通過(guò)此軟件,檢疫管理人員可以將已有風(fēng)險(xiǎn)評(píng)估模型軟件化,系統(tǒng)接收進(jìn)境集裝箱特征數(shù)據(jù),自動(dòng)對(duì)風(fēng)險(xiǎn)進(jìn)行預(yù)評(píng)估。同時(shí),將用于風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)獨(dú)立于CIQ數(shù)據(jù)庫(kù)存在,為以后進(jìn)一步完善風(fēng)險(xiǎn)評(píng)估模型提供數(shù)據(jù)庫(kù)支持。
(2)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個(gè)軟件終端,考慮到檢疫查驗(yàn)一線(xiàn)人員工作環(huán)境分散、移動(dòng)的特點(diǎn),重點(diǎn)面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動(dòng)終端(如手機(jī)、PDA、iPOD等)展開(kāi)研發(fā)。
圖 基于數(shù)據(jù)挖掘技術(shù)的風(fēng)險(xiǎn)評(píng)估系統(tǒng)
六、結(jié)論
針對(duì)出入境檢驗(yàn)檢疫部門(mén)在對(duì)進(jìn)境集裝箱檢疫查驗(yàn)中盲目性大、工作效率低等客觀(guān)實(shí)際,研究一個(gè)基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估模型,并將其軟件化、實(shí)用化,通過(guò)軟件自動(dòng)對(duì)進(jìn)境集裝箱進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)估,指導(dǎo)日常檢疫查驗(yàn)工作,降低檢驗(yàn)查驗(yàn)的盲目性,提升檢疫查驗(yàn)人員的工作效率,提高把關(guān)成效。
參考文獻(xiàn):
[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類(lèi)管理系統(tǒng)中的應(yīng)用.安徽:安徽大學(xué)碩士論文.2010
[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評(píng)估系統(tǒng)的研究與開(kāi)發(fā).武漢:武漢理工大學(xué)碩士論文.2002
論文摘要:隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來(lái),作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來(lái)發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),從大型的數(shù)據(jù)庫(kù)數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能等問(wèn)題。
數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來(lái)發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),也就是從大型的數(shù)據(jù)庫(kù)數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究?jī)?nèi)容,已經(jīng)開(kāi)始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來(lái),主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的有用信息和知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險(xiǎn)業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場(chǎng)營(yíng)銷(xiāo)等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過(guò)程中所采集到的數(shù)據(jù)可以被廣泛地存儲(chǔ)在不同的數(shù)據(jù)庫(kù)當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來(lái)對(duì)這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會(huì)浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時(shí),盡管智能診斷以及專(zhuān)家系統(tǒng)等方式在故障的診斷過(guò)程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識(shí)瓶頸等一些尚未完全被解決的問(wèn)題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來(lái)解決這些難題,在故障診斷的過(guò)程中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來(lái)看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹(shù)方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法
1.基本原理。在設(shè)備出現(xiàn)故障時(shí)采用數(shù)據(jù)挖掘技術(shù)對(duì)設(shè)備進(jìn)行一系列的故障診斷,也就是說(shuō)根據(jù)這一設(shè)備的運(yùn)行記錄,對(duì)其運(yùn)行的趨勢(shì)進(jìn)行預(yù)測(cè),并對(duì)其可能存在的運(yùn)行狀態(tài)進(jìn)行分類(lèi),故障診斷的實(shí)質(zhì)就是一種模式識(shí)別方式,對(duì)機(jī)器設(shè)備的故障進(jìn)行診斷的過(guò)程也就是該模式匹配和獲取的過(guò)程。
2.對(duì)故障診斷的數(shù)據(jù)挖掘方法建模。針對(duì)機(jī)械故障的診斷來(lái)說(shuō),首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時(shí)的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時(shí)的一些信息數(shù)據(jù),在現(xiàn)場(chǎng)的監(jiān)控系統(tǒng)中往往就會(huì)存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時(shí)的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無(wú)章的信息樣本庫(kù)中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對(duì)故障的模式進(jìn)行劃分時(shí),我們通??梢越柚怕式y(tǒng)計(jì)的方式,在對(duì)故障模式進(jìn)行識(shí)別時(shí)可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類(lèi)所需要用到的一些規(guī)則,從而最終達(dá)到分類(lèi)的目的,依據(jù)這些規(guī)則,就可以對(duì)一些新來(lái)的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對(duì)故障進(jìn)行分類(lèi),找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來(lái)源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個(gè)子站的一個(gè)數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專(zhuān)門(mén)的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫(kù)中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時(shí)又能做到不影響原先分站數(shù)據(jù)庫(kù)的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時(shí),會(huì)從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對(duì)這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)龐大的故障數(shù)據(jù)進(jìn)行分析、分類(lèi)以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對(duì)信息進(jìn)行有效地存儲(chǔ)和分類(lèi)。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢(xún)的功能,可以進(jìn)行不同條件下的查詢(xún),例如按時(shí)間段、報(bào)告類(lèi)型、設(shè)備型號(hào)以及單位等進(jìn)行查詢(xún),實(shí)現(xiàn)查詢(xún)后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫(kù)中所保存的一些整定阻抗值,可以通過(guò)邏輯判斷生產(chǎn)繼電保護(hù)動(dòng)作的分析報(bào)告,主要包括對(duì)故障過(guò)程的簡(jiǎn)述、故障切除情況以及保護(hù)動(dòng)作情況等,可以便于繼電保護(hù)人員直觀(guān)的對(duì)保護(hù)裝置的動(dòng)作情況進(jìn)行分析。
四、結(jié)語(yǔ)
隨著企業(yè)自動(dòng)化程度的不斷提高以及數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測(cè)系統(tǒng),對(duì)設(shè)備運(yùn)行過(guò)程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識(shí)獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。
參考文獻(xiàn):
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[j].電力自動(dòng)化設(shè)備,2011,9
[2]李建業(yè),劉志遠(yuǎn),蔡乾,趙洪波.基于web的故障信息系統(tǒng)[j].電力信息化,2007,s1
>> 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的個(gè)性化電子商務(wù)推薦系統(tǒng)研究 基于大數(shù)據(jù)的社團(tuán)個(gè)性化推薦系統(tǒng) 基于swarm平臺(tái)和社交網(wǎng)絡(luò)的電子商務(wù)個(gè)性化推薦系統(tǒng)仿真模型的理論構(gòu)建 網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化推薦中的應(yīng)用研究 基于個(gè)性化推薦的網(wǎng)絡(luò)營(yíng)銷(xiāo) 基于數(shù)據(jù)挖掘的電子政務(wù)個(gè)性化推薦服務(wù)框架研究 基于數(shù)據(jù)挖掘的個(gè)性化智能推薦系統(tǒng)應(yīng)用研究 基于社交網(wǎng)絡(luò)的個(gè)性化知識(shí)服務(wù)模型研究 基于免疫進(jìn)化的網(wǎng)絡(luò)教學(xué)資源個(gè)性化推薦系統(tǒng)研究 移動(dòng)社會(huì)網(wǎng)絡(luò)中基于位置的個(gè)性化餐館推薦建模研究 基于IPTV的個(gè)性化推薦技術(shù)的研究 個(gè)性化好友推薦系統(tǒng)在社交網(wǎng)站上的應(yīng)用研究 基于社交網(wǎng)絡(luò)的社會(huì)化推薦算法研究 基于個(gè)性化混合推薦算法的網(wǎng)絡(luò)推薦系統(tǒng) 基于數(shù)據(jù)挖掘的個(gè)性化推薦在SNS中的應(yīng)用 基于Web使用數(shù)據(jù)挖掘的個(gè)性化推薦系統(tǒng)設(shè)計(jì) 基于小數(shù)據(jù)的高校圖書(shū)館個(gè)性化推薦 基于個(gè)性化推薦學(xué)習(xí)的網(wǎng)絡(luò)培訓(xùn)教學(xué)課程平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn) 基于網(wǎng)絡(luò)學(xué)習(xí)行為的個(gè)性化評(píng)價(jià)研究 社會(huì)化標(biāo)簽系統(tǒng)中基于本體的個(gè)性化推薦方法研究 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:l
[2]張婷婷. 社會(huì)化網(wǎng)絡(luò)中人際關(guān)系與人際傳播研究[D].長(zhǎng)沙:湖南大學(xué),碩士學(xué)位論文,2012
[3]王萍. 社會(huì)化網(wǎng)絡(luò)的信息擴(kuò)散研究[J]. 情報(bào)雜志,2009,28(10):39-42
南京大學(xué)的周志華教授曾專(zhuān)門(mén)撰文論述了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)以及數(shù)據(jù)庫(kù)之間的關(guān)系,他提出:數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)的交叉,主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來(lái)分析海量數(shù)據(jù),利用數(shù)據(jù)庫(kù)界提供的技術(shù)來(lái)管理海量數(shù)據(jù)。
組成數(shù)據(jù)挖掘的三大支柱包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)領(lǐng)域內(nèi)的研究成果,其他還包含了可視化、信息科學(xué)等內(nèi)容。不同的教材從不同的方面結(jié)合其基礎(chǔ)學(xué)科知識(shí)講述數(shù)據(jù)挖掘技術(shù),不同專(zhuān)業(yè)和技術(shù)背景的學(xué)生或數(shù)據(jù)挖掘研究人員和應(yīng)用人員可以根據(jù)自身的專(zhuān)業(yè)方向選擇不同的數(shù)據(jù)挖掘切入點(diǎn)。下面簡(jiǎn)單歸納目前比較主流的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方面的教材。
數(shù)據(jù)挖掘:概念與技術(shù)
原書(shū)名:Data Mining:Concepts and techniques
作者:Jiawei Han
本書(shū)主要從數(shù)據(jù)庫(kù)的角度(數(shù)據(jù)管理和數(shù)據(jù)計(jì)算的角度)講解數(shù)據(jù)挖掘,作者Jiawei Han現(xiàn)任UIUC CS Dept.教授。本書(shū)第2版在豐富和全面的第1版基礎(chǔ)上進(jìn)行了更新和改進(jìn),并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社會(huì)網(wǎng)絡(luò)和挖掘空間、多媒體和其他復(fù)雜數(shù)據(jù)。本書(shū)對(duì)數(shù)據(jù)挖掘基本概念、算法及其相關(guān)技術(shù)有比較全面的闡述,是國(guó)內(nèi)大多數(shù)高校指定教材,它不要求太高的數(shù)學(xué)基礎(chǔ),非常適合數(shù)學(xué)功底一般的學(xué)生使用。
數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)(原書(shū)第2版)
原書(shū)名:Data Mining: Practical Machine Learning Tools and Techniques
作者:Ian H. Witten, Eibe Frank
本書(shū)主要從機(jī)器學(xué)習(xí)的角度,也有稱(chēng)從數(shù)據(jù)挖掘的應(yīng)用實(shí)現(xiàn)角度來(lái)講解數(shù)據(jù)挖掘,描述了各種算法、模型及其Java實(shí)現(xiàn),重點(diǎn)是以應(yīng)用的觀(guān)點(diǎn)利用案例來(lái)說(shuō)明數(shù)據(jù)挖掘的算法模型,對(duì)于具體算法的原理介紹不是非常詳細(xì)。它對(duì)數(shù)據(jù)挖掘的Java軟件包Weka有比較深的介紹。該書(shū)作者都是Weka項(xiàng)目組主要成員。圖靈獎(jiǎng)獲得者Jim Gray如此評(píng)價(jià):假如你需要對(duì)數(shù)據(jù)進(jìn)行分析和應(yīng)用,本書(shū)以及相關(guān)的Weka工具包是一個(gè)絕佳的起步。
數(shù)據(jù)挖掘原理
原書(shū)名:Principles of Data Mining
作者:David J. Hand
很多學(xué)科都面臨著一個(gè)普遍問(wèn)題,即如何存儲(chǔ)、訪(fǎng)問(wèn)異常龐大的數(shù)據(jù)集,并用模型來(lái)描述和理解它們。這些問(wèn)題使得人們對(duì)數(shù)據(jù)挖掘技術(shù)的興趣不斷增強(qiáng)。長(zhǎng)期以來(lái),很多相互獨(dú)立的不同學(xué)科分別致力于數(shù)據(jù)挖掘的各個(gè)方面。本書(shū)把信息科學(xué)、計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘方面的應(yīng)用融合在一起,是第一本真正跨學(xué)科的教材。主要從統(tǒng)計(jì)學(xué)的角度來(lái)解析數(shù)據(jù)挖掘以及其與統(tǒng)計(jì)的關(guān)系。其中如建模、測(cè)量、評(píng)分函數(shù)、模型等術(shù)語(yǔ)都是從統(tǒng)計(jì)者的角度出發(fā)。書(shū)中并沒(méi)有具體說(shuō)明KDD與DM之間的關(guān)系,比較適于統(tǒng)計(jì)系和數(shù)學(xué)系的學(xué)生采用。
機(jī)器學(xué)習(xí)
原書(shū)名:Machine Learning
作者:Tom Mitchell
本書(shū)是CMU等許多國(guó)際知名大學(xué)機(jī)器學(xué)習(xí)課程的教材。目前發(fā)表的各種機(jī)器學(xué)習(xí)專(zhuān)著或論文基本都會(huì)引用這本書(shū)的內(nèi)容。作者Tom Mitchell是CMU的教授,美國(guó)人工智能協(xié)會(huì)的主席,《機(jī)器學(xué)習(xí)》雜志和“國(guó)際機(jī)器學(xué)習(xí)”年度會(huì)議的創(chuàng)始人,他在ML領(lǐng)域久負(fù)盛名。本書(shū)也是最經(jīng)典和采用率最高的機(jī)器學(xué)習(xí)教材。本書(shū)需要的數(shù)學(xué)基礎(chǔ)也很少,但對(duì)必要的背景介紹相當(dāng)豐富,非常適合初學(xué)者。
模式分類(lèi)(原書(shū)第2版)
原書(shū)名:Pattern classification
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書(shū)采購(gòu);策略;SPSS
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速傳播、知識(shí)飛速更新的今天,圖書(shū)館只有正確合理地進(jìn)行圖書(shū)采購(gòu),才能夠更好地實(shí)現(xiàn)其“在最恰當(dāng)?shù)臅r(shí)機(jī),將最合適的圖書(shū),提供給最需要的讀者”的目標(biāo)。采用目前流行的數(shù)據(jù)挖掘技術(shù),可以很好地對(duì)圖書(shū)館讀者實(shí)際借閱情況進(jìn)行分析,從而得出能夠正確指導(dǎo)圖書(shū)采購(gòu)策略制定的信息,以保證圖書(shū)館能夠更好地為讀者服務(wù)。
1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘是一門(mén)涉及人工智能、數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、可視化、并行計(jì)算等多領(lǐng)域的交叉性新興學(xué)科。數(shù)據(jù)挖掘就是將隱藏在大量數(shù)據(jù)信息中的那些對(duì)用戶(hù)有用的信息提取出來(lái)的過(guò)程,這些信息通常會(huì)以:規(guī)則、概念、規(guī)律以及模式等形式展現(xiàn)出來(lái),而提取的過(guò)程往往要采用一些特殊手段的非平凡過(guò)程,即數(shù)據(jù)挖掘技術(shù)。提取出來(lái)的信息可以幫助決策者分析歷史的和當(dāng)前的數(shù)據(jù),發(fā)現(xiàn)隱藏在其中的聯(lián)系和規(guī)律,從而對(duì)未來(lái)可能發(fā)生的情況進(jìn)行合理地判斷和預(yù)測(cè)[1]。
2 基于數(shù)據(jù)挖掘的圖書(shū)采購(gòu)策略
描述式數(shù)據(jù)挖掘和預(yù)測(cè)式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的兩種形式。描述式數(shù)據(jù)挖掘又稱(chēng)概念描述,是數(shù)據(jù)挖掘的最基本形式,以簡(jiǎn)明扼要的形式來(lái)描述給定的數(shù)據(jù)集,體現(xiàn)了數(shù)據(jù)的特征。我們使用特征化描述方式的數(shù)據(jù)挖掘方法,根據(jù)讀者借書(shū)的歷史記錄,發(fā)現(xiàn)并描述讀者的真正需求。實(shí)現(xiàn)特征化描述主要有準(zhǔn)備數(shù)據(jù)、相關(guān)分析、歸納特征屬性、表示和使用挖掘結(jié)果幾個(gè)基本階段[2]。
圖1 流程圖
2.1 準(zhǔn)備數(shù)據(jù)
獲得有關(guān)數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行初步處理和準(zhǔn)備。具體步驟如下:
(1)獲取主要字段:讀者類(lèi)型、專(zhuān)業(yè)、書(shū)名、主題、編著者、出版社、出版時(shí)間、價(jià)格、索書(shū)號(hào)、條碼等。
(2)整合數(shù)據(jù)歸納成庫(kù),保證相同字段的數(shù)據(jù)在類(lèi)型格式上一致。
(3)拆分“主題”字段,限制1本書(shū)最多包含3個(gè)主題詞,即3個(gè)主題字段,其他忽略。
(4)拆分合并后的數(shù)據(jù)庫(kù),按學(xué)科不同分成各學(xué)科的子庫(kù)(這在數(shù)據(jù)挖掘過(guò)程中稱(chēng)為數(shù)據(jù)分組),對(duì)各個(gè)子庫(kù)分別進(jìn)行處理。
2.2 相關(guān)分析
對(duì)待挖掘數(shù)據(jù)庫(kù)中的字段進(jìn)行分析,剔除掉那些相關(guān)性不足的字段。具體步驟如下:
(1)選用恰當(dāng)?shù)姆椒▽?duì)屬性字段進(jìn)行分析;
(2)將待挖掘數(shù)據(jù)庫(kù)中的相關(guān)性不足字段剔除掉;
(3)整理保留的字段,主要有:讀者類(lèi)型、主題1、主題2、主題3、編著者、出版社。
2.3 歸納特征屬性
根據(jù)實(shí)際情況,只進(jìn)行單因素分析,即只計(jì)算比較單一屬性值域讀者需求的關(guān)聯(lián)程度。
2.4 表示和使用結(jié)果
使用條形圖、曲線(xiàn)圖以及餅分圖等圖表形式將分析結(jié)果表現(xiàn)出來(lái)。用圖書(shū)借閱次數(shù)來(lái)表示圖書(shū)的人氣系數(shù),人氣系數(shù)越高表明該類(lèi)型的圖書(shū)越受讀者歡迎,計(jì)算公式為:
式中P為任一主題總的人氣系數(shù),m為主題在挖掘數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),rj為主題的權(quán)系數(shù),rj∈{3,2,1},Ki為借閱頻率系數(shù)[3]。
3 數(shù)據(jù)挖掘在圖書(shū)采購(gòu)中的應(yīng)用
這里筆者以所在學(xué)院的圖書(shū)館為研究對(duì)象進(jìn)行研究。
3.1 統(tǒng)計(jì)數(shù)據(jù)
為了能夠較真實(shí)地反應(yīng)學(xué)院師生對(duì)圖書(shū)借閱的情況,筆者設(shè)計(jì)了一份調(diào)查問(wèn)卷,對(duì)學(xué)院電氣系和汽車(chē)系的圖書(shū)借閱者進(jìn)行訪(fǎng)問(wèn)。該調(diào)查問(wèn)卷包括單選題和多選題,內(nèi)容涵蓋了職業(yè)、系別、圖書(shū)種類(lèi)等(見(jiàn)表1)。
表1 借閱者借閱圖書(shū)類(lèi)別調(diào)查問(wèn)卷
3.2 定義變量
對(duì)數(shù)據(jù)的定義筆者采用多項(xiàng)選擇的二分法(Multiple dichotomy method),即將所有因素都設(shè)成一個(gè)變量,每個(gè)變量只有“1”和“0”兩個(gè)水平值,代表“是”和“否”。例如用1來(lái)代表教師,0代表學(xué)生;專(zhuān)業(yè)方面用1表示電氣系,0表示汽車(chē)系;圖書(shū)類(lèi)別中用1表示“經(jīng)常借閱”,0表示“不經(jīng)常借閱”。
3.3 分析數(shù)據(jù)
在這里選用SPSS統(tǒng)計(jì)分析軟件對(duì)數(shù)據(jù)進(jìn)行分析。
3.3.1 多重反應(yīng)頻數(shù)分析(見(jiàn)表2和表3)
3.3.2 多重反應(yīng)列聯(lián)表分析(見(jiàn)表4~7)
根據(jù)這些分析結(jié)果,圖書(shū)采購(gòu)人員就能夠很好地制定出恰當(dāng)適用的圖書(shū)采購(gòu)計(jì)劃[4]。
4 結(jié)束語(yǔ)
以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對(duì)實(shí)際圖書(shū)館中讀者的借閱情況進(jìn)行問(wèn)卷調(diào)查,再利用SPSS軟件對(duì)所調(diào)查問(wèn)卷進(jìn)行系統(tǒng)分析,雖然問(wèn)卷數(shù)目較少,但對(duì)圖書(shū)館分析讀者借閱需求指導(dǎo)圖書(shū)采購(gòu)提高服務(wù)能力有一定的幫助。
參考文獻(xiàn)
[1] JiaweiHan, MichelineKamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[2] 吳奕寬.淺論信息在教材圖書(shū)采購(gòu)中的應(yīng)用[J].情報(bào)科學(xué),2002,20(1):28-30.
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:CSCD期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)