前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術分析論文主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:遠程開放教育,數(shù)據(jù)挖掘,應用,智能化
1 前言
現(xiàn)代遠程開放教育的全過程基本上都是通過瀏覽網站的形式進行的,學生在Web上的行為都會產生大量的信息,這些信息在遠程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導遠程教育中的各個環(huán)節(jié),以此來為學生提供個性化的服務內容,增強遠程開放教育的競爭力。利用數(shù)據(jù)庫技術來存儲管理數(shù)據(jù),利用網絡和計算機學習的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術便是最為關鍵的環(huán)節(jié)。論文參考網?;谶h程開放教育將是當前和未來教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術應用于現(xiàn)代遠程開放教育系統(tǒng)中。
2 數(shù)據(jù)挖掘概述
2.1數(shù)據(jù)挖掘(DataMining)定義
數(shù)據(jù)挖掘就是從大量存儲的數(shù)據(jù)中,利用模式識別、統(tǒng)計和數(shù)學的技術,篩選發(fā)現(xiàn)新的有意義的關系、模式和趨勢的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它主要依靠人工智能、機器學習和統(tǒng)計學技術,對數(shù)據(jù)進行歸納推理,從中挖掘出潛在的模式,預測未來趨勢,為決策提供支持。
2.2數(shù)據(jù)挖掘的主要任務
(1)關聯(lián)分析。兩個或兩個以上變量的取值之間存在的規(guī)律性稱為關聯(lián)。數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網。
(2)聚類分析。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。
(3)分類。分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息。
(4)預測。預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預測。
(5)時序模式。時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。
(6)偏差分析。在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
2.3數(shù)據(jù)挖掘對象
根據(jù)信息存儲格式,用于挖掘的對象有關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、異質數(shù)據(jù)庫以及Internet等。
2.4數(shù)據(jù)挖掘技術實施的步驟
(1)確定業(yè)務對象。清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評價,并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識呈現(xiàn)給用戶。
(2)數(shù)據(jù)準備。這個階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預分析和轉換。要對Web服務器上的數(shù)據(jù)進行挖掘,必須研究站點之間異構數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。
(3)數(shù)據(jù)挖掘。這個階段就是利用數(shù)據(jù)挖掘工具對經過轉換的數(shù)據(jù)進行挖掘和發(fā)現(xiàn)知識的過程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當具體使用操作時,也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習慣的影響。數(shù)據(jù)挖掘利用人工智能領域中一些已經成熟的算法和技術。如:人工神經網絡、遺傳算法、決策樹方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來進行數(shù)據(jù)的挖掘。
(4)結果分析。論文參考網。數(shù)據(jù)挖掘的結果由分析人員根據(jù)發(fā)現(xiàn)知識的領域重要性、可信度和支持度等閥值來對發(fā)現(xiàn)結果進行評價,并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識呈現(xiàn)給用戶。通常會用到可視化技術。
(5)知識的同化。將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去。
3 現(xiàn)代遠程開放教育系統(tǒng)簡介
遠程開放教育系統(tǒng)能實現(xiàn)個性化學習、實時教學、實時考試和智能答疑。為每一個接受網絡遠程教育的學習者提供個性化的學習進程。能根據(jù)與當前學習者相類似的學生的學習模式自動地對其后繼知識的學習進行預測以及合理推薦,并對學習者的學習過程進行分階段的評價,依據(jù)其績效信息動態(tài)調整其學習難度、練習與測試內容,對學生提出的問題實現(xiàn)智能化答疑,對該學習者薄弱環(huán)節(jié)進行有效指導,做到因材施教和全天候學習。
遠程開放教育系統(tǒng)由用戶系統(tǒng)、WEB服務器、應用服務器、數(shù)據(jù)服務器、用戶數(shù)據(jù)庫和資源數(shù)據(jù)庫組成。
用戶系統(tǒng)用于實現(xiàn)遠程開放教育系統(tǒng)的顯示功能,其功能是:實現(xiàn)信息的和接受,管理員通過它來實現(xiàn)系統(tǒng)的管理、更新、維護等,主要是通過XML語言和HTTP協(xié)議實現(xiàn)WEB瀏覽器與WEB服務器的鏈接和信息通訊。WEB服務器用于完成遠程開放教育系統(tǒng)的事務處理,用于處理學習過程中的各種事務。應用服務器直接為WEB服務器提供相關服務,處理WEB服務器以及XML文檔組成的用戶的事務請求信息。論文參考網。數(shù)據(jù)庫服務器用于完成數(shù)據(jù)處理,為應用服務器提供相關服務,完成數(shù)據(jù)查詢、修改和更新等服務,并把運行結果反饋給應用服務器。資源數(shù)據(jù)庫中主要由遠程開放教育系統(tǒng)中要使用的課件庫、答疑庫、作業(yè)庫、試題庫和必要的超級鏈接等構成。用戶數(shù)據(jù)庫主要用于存儲遠程開放教育系統(tǒng)中要使用的的注冊檔案、用戶目前的學習內容、學習進展、作業(yè)情況和考試情況等信息。
4 數(shù)據(jù)挖掘技術在遠程開放教育中的應用
現(xiàn)代遠程開放教育是隨著現(xiàn)代信息技術的發(fā)展而產生的一種新型教育形式,其基本特征是利用計算機網絡和多媒體技術,提供豐富的教學資源供學習者選用,教學形式由原來的以教為主變?yōu)橐詫W為主。數(shù)據(jù)挖掘技術在現(xiàn)代遠程開放教育中的應用主要有以下幾方面:
(1)在個性化學習方面的應用
由于每個學習者的知識背景、學習習慣和學習目標都不一樣,故個性化學習在遠程開放教育中就顯得非常重要。為了實現(xiàn)此功能,基于WEB的智能遠程開放教育系統(tǒng)首先要根據(jù)學習者的特點和學習目標來收集學習者的數(shù)據(jù)信息,然后對收集到的信息進行預處理,再應用一種合理的挖掘算法或綜合應用不同的算法,如關聯(lián)規(guī)則分析、聚類和分類技術、統(tǒng)計分析以及時序模式技術等,來處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問模式,但是通過模式挖掘后,生成的規(guī)則數(shù)目大、表達晦澀且不好用,這時就需要用到智能查詢機制、可視化和聯(lián)機分析等技術對模式進行分析評價,經過模式分析和應用技術處理后,選擇一種學習者易于理解和接受的表達方式將知識數(shù)據(jù)顯現(xiàn)出來。利用數(shù)據(jù)挖掘與學習內容綁定的技術,系統(tǒng)就可以以可視化方式來指導學習者學習和個性化發(fā)展,這樣系統(tǒng)就實現(xiàn)了個性化學習功能。
(2)在資源庫建設方面的應用
資源庫建設在整個系統(tǒng)中至關重要,為了建立覆蓋面廣、功能齊全的資源庫,我們就必須編制信息資源目錄,征集種類資源信息,并進行資源、資源信息篩選、資源信息整理和存儲;同時按學科門類建設積件庫。當老師在系統(tǒng)內制作課件,為了有針對性和避免重復,我們可以對所有學習者已選的課程進行聚類,并通過聚類學習算法來自動確定每門課程的類別標記。接著利用數(shù)據(jù)挖掘中的關聯(lián)規(guī)則,估計出一組相關同位類課程,再利用泛化關聯(lián)規(guī)則,找到其上位類課程,或利用序列模式,預測出與之有關的學生未來可能選擇的同級課程,最后圍繞學習者的需求權限進行課程設置。
(3)在實時教學方面的應用
在本系統(tǒng)中,由于引入了互聯(lián)網技術、人工智能技術、數(shù)據(jù)庫技術和知識發(fā)現(xiàn)技術,通過機器學習、統(tǒng)計分析等方法設計出了個性化處理引擎,從大量的數(shù)據(jù)中進行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學生可以通過網絡實現(xiàn)每天24小時的學習,而且本系統(tǒng)可以更多且及時的了解到學生的學習學習進度、需求、能力、興趣愛好等方面的信息,并動態(tài)地根據(jù)這些信息調整學習計劃和進度,讓學生得到針對其“個性”的教育,實現(xiàn)因材施教。
(4)在智能答疑方面的應用
基于WEB的遠程教學系統(tǒng)中的智能答疑系統(tǒng)只要用戶能上網,就可解答學生在學習過程中產生的問題。它能根據(jù)學生用戶訪問日志、問題記錄等數(shù)據(jù)進行數(shù)據(jù)挖掘,用智能抽取的方法實現(xiàn)智能答疑。從用戶訪問日志和提問信息里面可以分析出學生的行為。智能答疑系統(tǒng)后臺存儲了大量的由經驗豐富的教師精心挑選的問題答案,對于用戶提出的問題.系統(tǒng)首先通過對問題的分析自動在數(shù)據(jù)庫中尋找最適合的答案。這樣通過數(shù)據(jù)挖掘,針對學生用戶提問記錄、日志不斷更新和調整學生用戶知識庫,使問題的回答更加精確。
(5)在實時考試方面的應用
本系統(tǒng)的實時考試系統(tǒng)是一個基于數(shù)據(jù)庫和WEB的遠程在線式實時的測試系統(tǒng)。它能考慮個別學習者的能力和特性,按照考試的目的和必要性,提供各種問項信息,如難易程度、辨別程度等。并且還能同步打分,提供成績進展情況,根據(jù)個人特性解釋問題,按個人及科目對考試結果進行各種統(tǒng)計分析和評價,并存入學生用戶數(shù)據(jù)中。這些功能的實現(xiàn)是由于系統(tǒng)采用關聯(lián)規(guī)則、聚類和分類工具對數(shù)據(jù)庫中抽取的數(shù)據(jù)進行處理,分析出學生的特性及其對課程各知識點的掌握程度,并結合學生的考試目的恰當?shù)胤答伣o學生,這樣提高了學生學習的效率。
5 結束語
在現(xiàn)代遠程開放教育網站設計中,基于XML(ExtensibleMarkup Language,可擴展標記語言)的新一代系統(tǒng)設計環(huán)境,可以更好地描述半結構化和結構化的數(shù)據(jù),更有利于進行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務技術,以此為契機開展數(shù)據(jù)挖掘和知識獲取,在現(xiàn)代遠程開放教育網站的設計中以學習者為中心,提供一種基于資源的學習,教學資源可以適應各種學習者的需要和背景進行不同的組合,提供更加優(yōu)良的、個性化的服務。
參考文獻:
[1]李爽,陳麗.國內外網上智能答疑系統(tǒng)比較研究[J].北京,中國電化教育,2003(5)
[2]蘇新寧.數(shù)據(jù)挖掘理論與技術[M].北京:科學技術文獻出版社,2003
[3]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應用[J].現(xiàn)代圖書情報技術,2000,(6)
[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠程教育系統(tǒng)中的的應用[J] .南京:文教資料,2006(10)
1.1數(shù)據(jù)挖掘技術
關聯(lián)分析即找出兩個或以上變量之間同時出現(xiàn)的規(guī)律、因果結構,即通過其他事物可對某個與之相關的事物做出預測。數(shù)據(jù)挖掘關聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關聯(lián)規(guī)則,對于高校圖書館個性化服務而言,即從圖書館數(shù)據(jù)庫中發(fā)現(xiàn)相關的關聯(lián)規(guī)則,針對用戶的信息需求做出準確預測,提高信息推送的針對性,便于用戶獲取所需的信息。聚類即將數(shù)據(jù)庫中的一組個體按照相似性歸結為若干類型,應用于圖書館系統(tǒng)中,就是將相似的文獻集中在一起,用戶在搜索相關文獻時可以查閱更多其他相關內容,便于其總結、歸納;在個性化服務中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識分為高度需求、中度需求及低度需求。在高校圖書館個性化服務中要對用戶的使用規(guī)律做出預測,即根據(jù)用戶歷史查閱記錄對用戶所需的文獻種類、特征等做出預測。時序模式主要是通過時間段對用戶的訪問記錄、檢索過程做出標志,再通過時間序列將重復率較高的內容挖掘出來,以預測其下個信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應用數(shù)據(jù)挖掘的必要性與可行性分析
圖書館應用數(shù)據(jù)挖掘技術的必要性體現(xiàn)在以下幾個方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲于圖書館數(shù)據(jù)庫中,需要利用數(shù)據(jù)挖掘技術將這些海量數(shù)據(jù)轉換為有用的知識信息,以便于館員做出決策。其次,圖書館的管理需求。傳統(tǒng)圖書館系統(tǒng)僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個性化的技術要求,因此要利用數(shù)據(jù)挖掘技術將用戶借閱數(shù)據(jù)中隱含的關聯(lián)性發(fā)掘出來,從中發(fā)現(xiàn)有用的知識信息。最后,用戶服務的需求。數(shù)字化圖書館的發(fā)展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發(fā)掘出對用戶有用的知識信息,僅依靠傳統(tǒng)的圖書館管理系統(tǒng)無法解決這一問題,因此要利用數(shù)據(jù)挖掘技術對用戶的借閱記錄進行分析,從中獲得更多有價值的信息,以提高圖書館的服務質量及館藏利用率。而在圖書館個性化服務中應用數(shù)據(jù)挖掘技術也是可行的,一方面很多圖書館已具備比較好的物質條件及人才條件,這些均是圖書館個性化服務中應用數(shù)據(jù)挖掘技術的必要條件,而且政府在經濟方面、政策方面也為數(shù)據(jù)挖掘的應用提供了更多保障;另一方面,近年來數(shù)據(jù)挖掘技術也有了長足的發(fā)展,其足以為圖書館的個性化服務提供必要的技術支持。圖書館數(shù)字化發(fā)展過程中需要采集、購置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術可以為圖書館資源建設提供指導作用,挖掘圖書館的歷史借閱記錄,可進一步了解用戶的借閱習慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關聯(lián)性進行深入分析,圖書館員根據(jù)這些信息記錄、分析結果等提供指導,可以提高圖書資源分配的合理性,對館藏布局進行優(yōu)化。由此可見,數(shù)字化圖書館個性化服務中應用數(shù)據(jù)挖掘技術十分必要。
2圖書館個性化服務的具體體現(xiàn)
高校圖書館個性化服務是指根據(jù)每個用戶的專業(yè)、愛好、研究方向、探索領域及特殊服務為其提供更具針對性的信息服務,幫助用戶查閱更加完整的信息資料,便于其學習、研究。高校圖書館個性化服務具體體現(xiàn)在以下3個方面:
①用戶可根據(jù)自己的需求定制相關信息,以保證其在圖書館中能夠查閱到相關資料;圖書館利用數(shù)據(jù)挖掘技術發(fā)現(xiàn)用戶的興趣愛好,為其定制個性化的訪問空間。用戶訪問圖書館數(shù)據(jù)庫時會將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時間會較短,停留時間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時間即可將用戶對信息資源的感興趣程度發(fā)掘出來。
②提高圖書館資源利用率。利用數(shù)據(jù)挖掘技術可以識別圖書館網站內頻繁訪問的路徑及用戶訪問次數(shù)較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動推送其所需要的信息資源,提高圖書的利用率。
③優(yōu)化鏈接結構,提高用戶應用的便利性。對Weblog進行挖掘,可以發(fā)現(xiàn)用戶訪問頁面的相關性,增加聯(lián)系比較密切的網頁之間的關聯(lián)性;發(fā)現(xiàn)用戶的期望位置,如果用戶訪問期望位置的頻率高于對實際位置的訪問頻率,則可在二者之間建立導航鏈接,優(yōu)化站點。
④查新服務與定題服務。傳統(tǒng)圖書館主要通過查詢光盤數(shù)據(jù)庫、文獻數(shù)據(jù)庫等進行查新服務,而隨著網絡技術的不斷發(fā)展與應用,外部網絡信息及更新的速度遠遠超過圖書館內部網絡,因此要加強網絡平臺的建設,以保證服務結果的真實性與可靠性。數(shù)字圖書館在進行查新與定題服務過程中,可以利用可視化技術為用戶提供在線即時信息分析。
3圖書館個性化服務中數(shù)據(jù)挖掘技術的應用
圖書館個性化服務數(shù)據(jù)挖掘技術的應用流程如下:建立讀者數(shù)據(jù)倉庫——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結果的顯示——對結果的評價。
3.1建立讀者數(shù)據(jù)倉庫
數(shù)據(jù)挖掘過程中,在確定了挖掘目標后,即開始進行數(shù)據(jù)準備,從大量數(shù)據(jù)中選擇一個與需挖掘目標相關的樣板數(shù)據(jù)子集。此時需要建立一個數(shù)據(jù)倉庫,其主要作用是將所有挖掘目標所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉庫直接進行數(shù)據(jù)挖掘,可能會導致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準備數(shù)據(jù),因此建立數(shù)據(jù)倉庫是一個至關重要的準備工作。高校圖書館個性化服務中應用數(shù)據(jù)挖掘技術,第一步就是建立用戶的興趣庫及圖書館自身的特色資源數(shù)據(jù)庫。用戶使用圖書館的過程中,必然會產生大量的借閱記錄,訪問圖書館網站會留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數(shù)據(jù)收集
在建立用戶興趣庫及特色資源數(shù)據(jù)庫后,必須對這兩個數(shù)據(jù)庫中的數(shù)據(jù)進行分析、調整,以保證原始數(shù)據(jù)的質量,從而保證數(shù)據(jù)挖掘結果的質量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉換等3個步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標相關的數(shù)據(jù)信息搜索出來;數(shù)據(jù)清洗則是對數(shù)據(jù)進行噪聲消除、重復記錄的消除及推導計算缺值數(shù)據(jù)等。圖書館每天會產生大量的用戶相關的數(shù)據(jù),并非所有的數(shù)據(jù)均對整個挖掘處理過程有正面作用,有些數(shù)據(jù)可能會對挖掘效果產生負面影響,因此剔除這些無用的數(shù)據(jù)十分必要。數(shù)據(jù)轉換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過數(shù)據(jù)轉換可有效減少數(shù)據(jù)挖掘時需要考慮的變量數(shù)。
3.3選擇算法及建立模型
數(shù)據(jù)挖掘過程中不同的算法可能會實現(xiàn)同一個任務,但過程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點、實際運行系統(tǒng)的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識,有些用戶則希望獲取預測型知識,因此要針對不同的用戶選擇對應的算法,之后就要進行數(shù)據(jù)挖掘模型的建立。通過對用戶分類、聚類及時間序列的分析,將每類用戶的普遍性需求及個性化需求抽象出來,從而建立一系列的關聯(lián)規(guī)則模型。一個模型完成后不一定可以立刻解決問題,需要對其進行反復驗證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進行修改、調整,或者選擇新算法,建立新模型,對不同的模型進行全面考察。
3.4結果解釋與知識表示
在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時所用的算法規(guī)則進行運算,即可產生數(shù)據(jù)挖掘結果,圖書館只需對挖掘結果進行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結果,圖書館決策者及管理者即可根據(jù)可視化的挖掘結果進行決策。比如圖書館新引進了一批考古專業(yè)的學術論文,由數(shù)據(jù)挖掘模型分析結果可知,該批論文的查閱者90%均為考古專業(yè)的老師與學生,其他專業(yè)的師生查閱率不到10%,根據(jù)這一結果,即可將論文信息傳遞給考古專業(yè)的相關用戶,以提高信息推送的針對性。
3.5結果的驗證、應用及評價
產生挖掘結果后需要進一步實踐,以驗證結果的有效性與可用性,及對模型的實用性進行評價,并且挖掘結果還具備預測未來數(shù)據(jù)的功能。上一步的結果解釋經過實踐后,可對應用過程進行跟蹤了解,獲得用戶的反饋信息,對結果的實用性進行驗證。需要注意一點,即一個數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個時間節(jié)點均適用于同一個數(shù)據(jù)挖掘模型,因此要對挖掘結果做出評價,如經過用戶的反饋,數(shù)據(jù)挖掘出來的結果可以解決問題,實現(xiàn)了最初的挖掘目標,滿足了用戶需求,則可判定該模型是合理的。挖掘結果可以滿足用戶的要求,用戶就會做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實施,完成該階段后,圖書館就基本上實現(xiàn)了以用戶為中心的個性化服務的數(shù)據(jù)挖掘過程。不過某些情況下模型的評價結果可能不盡如人意,即數(shù)據(jù)挖掘的結果無法滿足用戶的要求,這種情況就要由系統(tǒng)進行重新處理,重復上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉換方法、設定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見,數(shù)據(jù)挖掘的過程是一個不斷反饋的過程,體現(xiàn)出反復性的特點。
4結語
論文摘要:隨著數(shù)據(jù)庫技術和人工智能技術的不斷進步,數(shù)據(jù)挖掘技術逐步發(fā)展起來,作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,本文主要講了數(shù)據(jù)挖掘技術的概念、數(shù)據(jù)挖掘技術在保護設備故障信息中的實現(xiàn)方法以及數(shù)據(jù)挖掘技術保護設備故障信息管理的基本功能等問題。
數(shù)據(jù)挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術也是現(xiàn)在智能理論系統(tǒng)的重要研究內容,已經開始被應用于行政管理、醫(yī)學、金融、商業(yè)、工業(yè)等不同的領域當中,在保護設備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術的概念
隨著數(shù)據(jù)庫技術和人工智能技術的不斷進步,數(shù)據(jù)挖掘技術逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當前數(shù)據(jù)挖掘技術已經逐漸被應用于了醫(yī)藥業(yè)、保險業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領域,隨著計算技術、網絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲在不同的數(shù)據(jù)庫當中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對這些海量的信息數(shù)據(jù)進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數(shù)據(jù),同時,盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨特的優(yōu)勢。從不同的角度進行分析,數(shù)據(jù)挖掘技術可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術方法主要有遺傳算法、粗集方法、神經網絡方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術在保護設備故障信息中的實現(xiàn)方法
1.基本原理。在設備出現(xiàn)故障時采用數(shù)據(jù)挖掘技術對設備進行一系列的故障診斷,也就是說根據(jù)這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態(tài)進行分類,故障診斷的實質就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數(shù)據(jù)挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數(shù),既要包括機器在正常運行以及平穩(wěn)工作時的信息數(shù)據(jù),也應當包括機器在出現(xiàn)故障時的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會存在著相應的正常工作狀態(tài)下以及出現(xiàn)故障時的不同運行參數(shù),而數(shù)據(jù)挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內在規(guī)律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通??梢越柚怕式y(tǒng)計的方式,在對故障模式進行識別時可以采用較為成熟的關聯(lián)規(guī)則理論,實現(xiàn)變量之間的關聯(lián)關系,并最終得到分類所需要用到的一些規(guī)則,從而最終達到分類的目的,依據(jù)這些規(guī)則,就可以對一些新來的數(shù)據(jù)進行判斷,而且可以準確地對故障進行分類,找出故障所產生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術保護設備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術保護設備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個子站的一個數(shù)據(jù)匯總,而保護設備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進行數(shù)據(jù)的處理時又能做到不影響原先分站數(shù)據(jù)庫的正常運行,并且具備抗干擾能力強、計算效率高的優(yōu)點。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運行時,會從故障信息子站或者是分站采集相關的數(shù)據(jù)并且對這些采集到的數(shù)據(jù)進行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術對龐大的故障數(shù)據(jù)進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數(shù)據(jù)挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現(xiàn)查詢后的備份轉存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業(yè)自動化程度的不斷提高以及數(shù)據(jù)庫技術的迅速發(fā)展,很多企業(yè)在一些重要的設備方面都安裝了監(jiān)測系統(tǒng),對設備運行過程中的一些重要參數(shù)和數(shù)據(jù)進行采集,采用數(shù)據(jù)挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實證明,將數(shù)據(jù)挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術的保護設備故障信息管理與分析系統(tǒng)[J].電力自動化設備,2011,9
[2]李建業(yè),劉志遠,蔡乾,趙洪波.基于Web的故障信息系統(tǒng)[J].電力信息化,2007,S1
關鍵詞 情報學;碩士論文;關鍵詞
中圖分類號G251 文獻標識碼A 文章編號 1674-6708(2014)114-0013-02
當前,世界各國的許多高等院校和科學研究機構都在加強對圖書情報的研究,許多世界一流院校,比如Harvard University(哈佛大學)、Princeton University(普林斯頓大學)、Yale University(耶魯大學)、Massachusetts Inst. of Technology(麻省理工學院)等都建立了比較完善的情報學教育體系。而比較而言,在我國高等院校與科研院所對圖書情報學的相關研究,明顯要相對落后,近年來隨著改革開放的深入推進,有關情報學的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長態(tài)勢,然而由于研究內容相對較為高深,而且研究的靶場顯得較為前沿化與多元化?;陉P鍵詞對學位論文進行統(tǒng)計、研究與分析是文獻計量學的范疇,是圖書情報學研究的重要內容。即以學位文獻或學位文獻的某些特點為標的,以聚集梳理一定數(shù)量文獻為基礎,由此展開對某一時域某一領域科學技術基本狀況與基本特征的研究,并由此論述和預測該領域科學技術在今后一段時期的研究趨勢與特點規(guī)律態(tài)勢?;讵毺仃P鍵詞進行圖書情報領域的碩士學位論文進行分析,是情報學研究的一項重要方法,是一種將文獻資料中的眾多核心要素關聯(lián)起來,進行統(tǒng)計分析的引證分析方法,其可以較為科學地評價文獻所研究與發(fā)展的現(xiàn)狀和趨勢,揭示學科當時研究的熱點,較為準確地評價文獻所代表的學術水平。
1 研究對象數(shù)據(jù)來源
本文研究的對象定位于對國內圖書情報領域這一總體框架,并于此基礎上將“靶向”集中于碩士學位論文的統(tǒng)計、分析與研究,將“靶標”聚集到碩士學位論文的研究熱點、趨勢、重點、前沿以及其變化情況,從而更加清晰地梳理出我國情報學研究的發(fā)展脈絡,從而為我國情報學教育發(fā)展提供參考。研究的主要數(shù)據(jù)來源集中于國內著名的學位論文收集庫――中國知網CNKI學術文獻總庫、維普期刊資源整合服務平臺與萬方數(shù)據(jù)知識服務平臺“三大論文數(shù)據(jù)庫”,以及國內高等院校圖書館自建特色數(shù)據(jù)庫。其中,中國知網CNKI和萬方數(shù)據(jù)庫是國內收錄學位論文最為全面的數(shù)據(jù)庫,因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來自該兩個數(shù)據(jù)庫,著重定位于“學科專業(yè)名稱”、“學科專業(yè)分類”選項進行檢索,而檢索的時間區(qū)域定位于近10年,對于兩個數(shù)據(jù)庫檢索出來的文獻,對于相同的通過采用SQL 語句進行篩選,剔除重復的以及不符合的。
由此,以“情報學”作為檢索詞,從中國知網CNKI數(shù)據(jù)庫獲得1640篇碩士論文,從萬方數(shù)據(jù)庫中獲致1315篇碩士論文,通過SQL篩選剔除重復的以及不符合的795篇,總共獲得有效國內圖書情報領域碩士論文2160篇。
2 基于高頻關鍵詞的國內圖書情報領域碩士學位論文特點
通過對獲取到的2160篇國內圖書情報領域碩士論文進行研究,綜合統(tǒng)計論文的關鍵詞,累計關鍵詞有13976個,經過分析研究,去除不能表達論文主題概念的關鍵詞3645個,共得10331個,平均每篇碩士文獻關鍵詞數(shù)為4.78個,由此可說明該統(tǒng)計是科學的,與國外科文獻資料對關鍵詞的標引規(guī)則相符(國內外科技期刊要求的每篇關鍵詞應標出 3-8 個),接著對關鍵詞的詞頻進行統(tǒng)計分析,將關鍵詞的頻度大于60作為標準,將其定義為“高頻詞”,通過對“高頻詞”的統(tǒng)計分析,可以非常清晰地看出,有關“知識管理”這一主題的頻次最高,多達126次。無疑,這也證實了近些年來,學術界對知識管理這個方向的研究熱點。此外,“電子商務”為121次、“信息化”為118次、“信息技術”為112次、“競爭情報”為102次、“信息服務”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書”為84次、“信息資源”為79次、“電子政務”為75次、 “知識服務”為71次、“知識共享”為68次、“數(shù)據(jù)倉庫”為63次,從中也反映了我國對信息化建設、知識服務、數(shù)字化建設等關注在日益提升,也驗證了我國國務院學位委員會重新頒布的《授予博士、碩士學位和培養(yǎng)研究生的學科、專業(yè)目錄》中“圖書館、情報與檔案管理”的實效,表明了情報學與管理學之間滲透和結合日益加強,也可以折射出當前研究的重點、熱點仍然集中在情報學基礎領域,并預示著今后情報學研究的一個重點將是對網絡信息資源的開發(fā)、整合與利用。
3 基于聚類共詞的國內圖書情報領域碩士學位論文特點
通常來說,僅僅通過孤獨地察看論文的某一關鍵詞,通常是難以有充足的理由說明該論文所研究的主題,然而通過關注兩個或者兩個以上的關鍵詞,將可以給予人們更加充分的信息去把握論文的大致內容和論文的主題脈絡。通過采取計算機數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關鍵詞進行“聚類性”分析,統(tǒng)計在同一論文中兩兩同時出現(xiàn)的關鍵詞,從而構建出60 × 60的“聚類共詞矩陣”,通過這一矩陣的研究,非常清晰地顯示出“聚類共詞矩陣”是一個對稱矩陣,其中位于矩陣對角線上的數(shù)據(jù)顯示的是某關鍵詞自身一同出現(xiàn)的頻次,這個一同出現(xiàn)的現(xiàn)象就實質來說,就是論文之間的相關度,對于非對角線上的數(shù)據(jù),則表示不同關鍵詞之間的共現(xiàn)頻次。通過這個矩陣可以從另一個側反題出,關鍵詞分布既有交叉、相互滲透又具有群組分布的獨立性。通過Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識管理”為124次,“電子商務”為106次,“競爭情報”為101次,“高校圖書館”為98次,“信息服務”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學圖書館”為83次,“信息資源”為81次,“電子政務”為79次,“知識共享”為72次,“數(shù)據(jù)倉庫”為66次。由此可以看出,在國內圖書情報領域碩士學位論文的研究主題中,當前基于數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)挖掘是個熱點,同時也說明我國情報學教育研究的領域在不斷拓寬。
綜合以上,關注獨特關鍵詞下國內圖書情報領域碩士學位論文研究的學科結構特點,獲得了基于高頻關鍵詞的國內圖書情報領域碩士學位論文特點,以及基于聚類共詞的國內圖書情報領域碩士學位論文特點,通過對研究結果的比較分析,得出了一些有較為充足理由支撐的結論,那就是從中可以較為清晰地得出,當前以及今后一段時期國內圖書情報領域碩士學位論文研究的側重點在于“數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)信息挖掘”。
參考文獻
[1]曾學喜.網絡輿情突發(fā)事件預警指標體系構建[J].情報理論與實踐,2013(11).
[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).
【關鍵詞】葉貝斯分類 數(shù)據(jù)挖掘 個性化學習 學習風格
網絡環(huán)境下的個性化學習是以學生作為教育系統(tǒng)的中心與教育服務主體。在個性化的教育系統(tǒng)中我們在營造數(shù)字學習氛圍的同時要強調并堅持學生的主體地位,開展個性化學習,把它看作是一種探索式性、實踐性、創(chuàng)造性的學習。實現(xiàn)網絡個性化學習的關鍵在于根據(jù)學習者的信息數(shù)據(jù)分析提取個性化特征,進而實現(xiàn)對學習者的個性化推薦或教學指導。
本文針對目前網絡學習系統(tǒng)中存在的個性化單一與實現(xiàn)難度大的問題,利用葉貝斯分類算法解決學習風格分類問題,讓學生更深入的了解自己的學習模式與需求,實現(xiàn)真正自主式、個性化學習。
1 數(shù)據(jù)挖掘與分類
1995年,美國計算機學會(Association for Computing Machinery ,簡稱ACM)組織提出了數(shù)據(jù)挖掘(Data Mining)概念。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先未知的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中知識挖掘(Knowledge Discovery in Databases)、知識提?。↘nowledge Extraction)、數(shù)據(jù)采礦等。
數(shù)據(jù)挖掘是一個跨學科技術領域,它是數(shù)據(jù)庫技術、統(tǒng)計學、人工智能、數(shù)據(jù)可視化、信息提取、并行計算和分布式計算等多個學科結合的產物。發(fā)現(xiàn)潛在未知的規(guī)則,是數(shù)據(jù)挖掘的重要特征也是它的目標,它與數(shù)據(jù)分析的差別在于數(shù)據(jù)分析通常從一個假設出發(fā),通過建立方程、模型來驗證假設是否成立,而數(shù)據(jù)挖掘則是直接挖掘信息之中隱藏的規(guī)律,發(fā)現(xiàn)新的知識。
分類是常用的數(shù)據(jù)挖掘手段之一。它是將一組組個體分門別類的歸入預先設定的幾個類中。分類的目的是建立一個分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到類別中的某一個類別。常用的分類方法有:決策樹分類方法、貝葉斯分類方法和規(guī)則歸納方法。
2 應用葉貝斯分類算法判定學習風格
學習風格是指學習者一貫持續(xù)的帶有個性特征的學習方式,它是學習傾向和學習策略的總和。學習風格是個體在長期的學習過程中逐漸形成的,受特定的家庭、教育和社會文化的影響,通過個體自身長期的學習活動而形成,具有鮮明的個性特征。心理學認為人有七種學習風格:Linguistic(語言)、Logical(邏輯)、Visual(視覺)、Musical(音樂)、Kinesthetic(動覺)、Intrapersonal(內?。┡cInterpersonal(人際)。使用葉貝斯分類算法我們可以通過分析學習記錄,獲得學生的學習風格。 葉貝斯分類算法基于貝葉斯定理,應用于文本分類時,通過計算文本屬于每個類別的概率.將該文本歸為概率最大的一類中。
2.1 樸素貝葉斯分類和貝葉斯網絡
貝葉斯定理是關于隨機事件A和B的條件概率和邊緣概率的一則定理。
P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)
其中P(A|B)表示在B發(fā)生的情況下A發(fā)生的可能性。其中P(A)是A的先驗概率或邊緣概率。(A|B)是已知B發(fā)生后A的條件概率, P(B|A)是已知A發(fā)生后B的條件概率, P(B)是B的先驗概率或邊緣概率,也作標準化常量。由此,貝葉斯定理可表述為:
后驗概率 = (相似度*先驗概率)/標準化常量
由于,比例P(B|A)/P(B)也有時被稱作標準相似度,所以貝葉斯定理又可表述為:
后驗概率 = 標準相似度*先驗概率
貝葉斯分類方法是基于貝葉斯定理的,樸素貝葉斯(Naive Bayes)和貝葉斯網絡(Bayesian Networks)看作是兩種不同情形下的分類方法。
2.1.1 樸素貝葉斯分類
樸素貝葉斯分類方法是一個基于概率的分類方法,它通過計算后驗證概率的方法來確定所屬類別的概率。
Vj屬于V集合, 其中Vmap是給定一個example,得到的最可能的目標值。其中a1...an是這個example里面的屬性。這里面,Vmap目標值,就是后面計算得出的概率最大的一個.所以用max 來表示。
樸素貝葉斯分類默認基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。因此,該假定說明給定實力的目標值情況下。觀察到聯(lián)合的a1,a2...an的概率正好是對每個通過概率計算,從待分類的樣本數(shù)據(jù)的屬性 a1,a2,...,an 中求出最可能的分類目標值,即計算各類 Vj∈ V對于這組屬性的條件概率 P(Vj|al,a2,...,an),其中j=1,2,...m(類別標識數(shù)),并輸出條件概率最大的類別標識作為該樣本數(shù)據(jù)的所屬類別。這個假設是樸素貝葉斯不同于貝葉斯網絡等其它貝葉斯分類算法的根本,也是樸素貝葉斯這個名稱的由來。
2.1.2 貝葉斯網絡
在實際應用中,大多數(shù)情況下不支持樸素貝葉斯的假設,即各特征并非彼此獨立,此情況下可以使用貝葉斯網絡進行分類。
貝葉斯網絡是根據(jù)變量之間的依賴關系,使用圖論方法表示變量集合的聯(lián)合概率分布的圖形模型,它引入了一個有向無環(huán)圖(Directed Acyclic Graph)和一個條件概率表集合。DAG的結點v包括隨機變量(類別和特征),有向連接E(A->B)表示結點A是結點B的parent,且B與A是有依賴關系的。同時引入了一個條件性獨立(conditional independence)概念:即圖中任意結點v在給定v的parent結點的情況下,與圖中其它結點都是獨立的,也就是說P(v|par(v),x1,x2...,xn) = P(v|par(v))。這里par(v)表示v的parent結點集,x1,x2,...,xn表示圖中其它結點。如果已知所有聯(lián)合概率值(joint distribution),那么就可以解決任何形式的概率問題。但現(xiàn)實中的特征集合數(shù)量過多(>10),幾乎無法通過統(tǒng)計得到。所以,這個問題要通過條件獨立的概念來對各條件概率值進行優(yōu)化來解決。貝葉斯網絡的建模有兩個步驟:創(chuàng)建網格結構與估計每一個結點的概率表中的概率值。
2.2 貝葉斯分類過程
在本學習系統(tǒng)中,主要使用樸素貝葉斯分類方法對網絡學習某一體育課程的學習者的學習風格進行分類。
2.2.1 建立樣本數(shù)據(jù)
根據(jù)體育學科的學習特點,我們可以把學習者的學習風格簡要概括為視覺型(V)、語言型(L)和動覺型(K)。把每一個學習者看作一個矢量 S,學習者的每一次學習記錄作為屬性 Ai,學習者的風格(視覺型、聽覺型和動覺型)作為可能的類別 C,對于隨機分類向量S={a1,a2,…,an},由此知道 s對每個類別的概率P( Ci|S)分布,其中P( Ci|S) 由貝葉斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 計算得到,概率最大的那個就是 s的預測類別。
當學生登入系統(tǒng)時,系統(tǒng)首先根據(jù)學號查看學習風格數(shù)據(jù)庫中是否有該生的學習風格類型記錄,如果有,系統(tǒng)則推薦學生適合其風格的學習內容,如果無,則系統(tǒng)將學習者這次學習的學習記錄保存在學生學習記錄庫的學習過程數(shù)據(jù)表中。
經過數(shù)據(jù)預處理,我們可以確保建模的數(shù)據(jù)是正確有效的。分析處理中我們需要得到分類模型需要的訓練樣本集的相關屬性,包括文本學習次數(shù)(T)、視頻學習次數(shù)(V)、活動次數(shù)(A)、文本學習平均成績(TS)、視頻學習平均成績(VS)、活動成績(AS)、學習風格類型(S)。當學生登錄次數(shù)達到某值時,系統(tǒng)自動將這些屬性值計算并存儲。在分析訓練樣本時我們把學習次數(shù)屬性值分為10 三個區(qū)間,將成績分為 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。樸素貝葉斯分類法對于學習次數(shù)和學習成績這類連續(xù)屬性的類條件概率計算,一是把連續(xù)的屬性用相應的離散區(qū)間替換進而離散化,或是通過訓練數(shù)據(jù)估計分布的參數(shù)。
2.2.2 建立學習風格建模
根據(jù)貝葉斯的最大后驗準則,對任一未知樣本 s={a1,a2,…,an},確定后驗概率 P(Cj| a1,a2,…,an),把最大的類確定為該樣本的學習風格。具體步驟為:
(1)計算得到每一種學習風格類型的先驗概率P(Ci )。
(2)相對于每個類別的概率 P(aj|ci),訓練樣本集計算得出各屬性的所有取值。
(3)計算出未知樣本對三種類別的概率,選取概率最大的類別為學生的學習風格類型。
其中,建立學習風格分類模型最關鍵的步驟就是建立訓練樣本集。見表2-1。
2.2.3 建立算法
根據(jù)上述分析,設計算法如下:
初始化訓練集D;計算每個學習風格類型的先驗概率
由上述算法得出概率最大的類別為學生的學習風格類型。
3 結論
本文將葉貝斯算法應用在判定學習者的學習風格中,發(fā)現(xiàn)了學生的學習成績、學習興趣與學習風格之間的潛在聯(lián)系。經過實際應用發(fā)現(xiàn)當樸素貝葉斯分類的假定條件成立時,它是一種非常精確的分類方法。 使用貝葉斯分類對系統(tǒng)中的學習者的學習風格進行分類,其特點主要有:
(1)它結合了概率與貝葉斯網絡的分類方法,可以利用領域知識和其它先驗信息,計算假設概率。
(2)可以把所有的屬性都參與分類。
(3)針對離散屬性的對象進行分析。
(4)數(shù)據(jù)樣本可以增加也可以減少,這樣可以進行增量學習。
(5)利用有向圖的表示方式非常直觀,弧表示變量之間的關系。
參考文獻
[1]田文詩.基于學習者行為的序列模式挖掘算法研究與實現(xiàn)[D].碩士學位論文,吉林:吉林大學,2011(05).
[2]鄧暉、徐梅林.網絡學習環(huán)境之個性化屬性調查及啟示[J].現(xiàn)代教育技術,2003.13(1):49-54.
[3]凌江榮.在e_Learning中建立自適應學習路徑的研究[D].碩士學位論文,湖南:湘潭大學,2007.
[4]田曉輝.基于Web的個性化學習系統(tǒng)在遠程教育中的應用研究[D].碩士學位論文,西安:陜西師范大學,2007.
[5]史春秀.基于數(shù)據(jù)挖掘的個性化學習系統(tǒng)的研究[D].碩士學位論文,天津:天津大學,2007.
[6]王志平.基于數(shù)據(jù)挖掘技術的個性化學習系統(tǒng)的研究[D].碩士學位論文,重慶:重慶大學,2007.
作者單位
>> 基于網絡數(shù)據(jù)挖掘的個性化電子商務推薦系統(tǒng)研究 基于大數(shù)據(jù)的社團個性化推薦系統(tǒng) 基于swarm平臺和社交網絡的電子商務個性化推薦系統(tǒng)仿真模型的理論構建 網絡數(shù)據(jù)挖掘在圖書館個性化推薦中的應用研究 基于個性化推薦的網絡營銷 基于數(shù)據(jù)挖掘的電子政務個性化推薦服務框架研究 基于數(shù)據(jù)挖掘的個性化智能推薦系統(tǒng)應用研究 基于社交網絡的個性化知識服務模型研究 基于免疫進化的網絡教學資源個性化推薦系統(tǒng)研究 移動社會網絡中基于位置的個性化餐館推薦建模研究 基于IPTV的個性化推薦技術的研究 個性化好友推薦系統(tǒng)在社交網站上的應用研究 基于社交網絡的社會化推薦算法研究 基于個性化混合推薦算法的網絡推薦系統(tǒng) 基于數(shù)據(jù)挖掘的個性化推薦在SNS中的應用 基于Web使用數(shù)據(jù)挖掘的個性化推薦系統(tǒng)設計 基于小數(shù)據(jù)的高校圖書館個性化推薦 基于個性化推薦學習的網絡培訓教學課程平臺的設計與實現(xiàn) 基于網絡學習行為的個性化評價研究 社會化標簽系統(tǒng)中基于本體的個性化推薦方法研究 常見問題解答 當前所在位置:l
[2]張婷婷. 社會化網絡中人際關系與人際傳播研究[D].長沙:湖南大學,碩士學位論文,2012
[3]王萍. 社會化網絡的信息擴散研究[J]. 情報雜志,2009,28(10):39-42
Abstract: With the increasingly fierce market competition and the rapid development of computer technology, application of data mining technology in the coal trade management system is particularly important. In this paper, combining today's more popular data mining techniques, using linear regression and the weighted moving average algorithm ,sales were predicted.
關鍵詞: 煤炭貿易管理系統(tǒng);數(shù)據(jù)挖掘;線性回歸;加權移動平均
Key words: coal trade management systems;data mining; linear regression;weighted moving average
中圖分類號:TP311 文獻標識碼:A文章編號:1006-4311(2010)08-0123-02
0引言
當前國內開發(fā)的大多數(shù)煤炭管理系統(tǒng)是為公司管理煤炭業(yè)務而開發(fā),只能實現(xiàn)數(shù)據(jù)錄入、分類查詢信息、匯總信息、定時發(fā)送短信息等功能。決策結果只能是基于決策者的直覺而不是數(shù)據(jù)庫中豐富的信息。為此數(shù)據(jù)挖掘技術的應用基于此而產生。國內將數(shù)據(jù)挖掘應用于煤炭貿易的例子并不多見。本文將分別利用線性回歸和加權一次移動平均算法對煤炭年度銷售進行預測。
1數(shù)據(jù)挖掘技術簡述
1.1 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們預先不知道的、但又是潛在有用的信息和知識的過程。
1.2 數(shù)據(jù)挖掘的方法
1.2.1 分類法分類就是找出一個類別的概念描述,并用這種描述來構造模型,一般用規(guī)則或決策樹模式表示(該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個)。
1.2.2 關聯(lián)分析法關聯(lián)分析是指在數(shù)據(jù)庫中尋找值的相似性,一般用支持度和可信度兩個閾值來度量關聯(lián)規(guī)則的相關性。
1.2.3 聚類分析法我們將數(shù)據(jù)庫中的數(shù)據(jù)分組成為由類似的數(shù)據(jù)組成的多個類的過程稱為聚類,由聚類生成的每個類是一組數(shù)據(jù)的集合,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。
1.2.4 預測法預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預測。典型的預測方法是回歸分析,即用大量的歷史數(shù)據(jù),以時間為變量建立回歸方程。
1.2.5 時序模式法時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式,與回歸一樣,它也是用已知的數(shù)據(jù)預測未來的值。
2二元線性回歸法應用研究
基本過程是先建立數(shù)據(jù)倉庫,提取分析要用的數(shù)據(jù)源,進行數(shù)據(jù)處理后,利用大量數(shù)據(jù),建立線性回歸模型,得出銷售量與顧客購買頻率和年份影響因素之間的聯(lián)系,然后通過找出的規(guī)律可以預測煤炭在下個年度銷售量,從而保證供應。下面我們以二元線性回歸分析預測法為例,說明多元線性回歸分析預測法的應用。
二元線性回歸分析預測法,是根據(jù)兩上自變量與一個因變量相關關系進行預測的方法。二元線性回歸方程的公式為:=a+bx+bx
式(1)中::因變量;x、x:兩個不同自變量,即與因變量有緊密聯(lián)系的影響因素。
a、b、b:是線性回歸方程的參數(shù)。a、b、b是通過解下列的方程組來得到。
∑y=na+b∑x+b∑x
∑xy=a∑x+b∑x+b∑xx
∑xy=a∑x+b∑xx+b∑x
本文主要通過公司運營時間預測顧客購買頻率分,進而找出方法來發(fā)展客戶群,再根據(jù)年份和顧客購買頻率分預測年度銷售量,若預計2007年煤炭銷售量,首先用一元回歸分析預測法預測2007年顧客購買頻率分,再用二元回歸分析預測法預測2007年煤炭銷售量。
從表1中可以看出煤炭銷售量同年份和顧客購買頻率有一定關系,可試用二元線性回歸預測法進行預測。其具體過程如下:
Y:煤炭銷售總量;(單位:噸)x1:年份(單位:年) ;x2:顧客購買頻率(單位:分)
2.1 解下列方程組,求a、b、b參數(shù) ,把有關數(shù)據(jù)代入上面方程組,解方程組得:a=13.4517,b=-0.0186,c=1.3101
由此建立的二元線性回歸方程為:
=a+bx+bx=13.4517-0.0186x+1.3101x
這個回歸方程必須經過檢驗才能作為預測模型。
2.2求相關系數(shù),二元線性回歸方程的相關系數(shù)公式如下:
γ=
為了計算相關系數(shù)γ,需列表計算∑(Y-)和∑(Y-)
===84.21把表2、3有關數(shù)據(jù)代入式
γ===0.987
相關系數(shù)為0.987,說明自變量X1、X2與因變量Y之間有高度相關關系。
2.3 作回歸標準差檢驗
S===9.32、==0.01106=11.06%
由此說明二元線性回歸方程=13.4517-0.0186x1+1.3101x2用于預測,有較高的精確度。
2.4 計算預測值當年份為2007年,采用一元回歸分析預測法預測顧客購買頻率分,用最小二乘法求解α,β;β=15.32,α=13.385,由此建立的一元線性回歸方程為:=α+βx=13.385+15.32x;
當2007年公司運營時間為9年時,預測顧客購買頻率分為151。依據(jù)題意,x1=2007,x2=151,將它們代入二元線性回歸方程。
=13.4517-0.0186×2007+1.3101×151=173.9466
因此該年度煤炭需求預測值為173.9466萬噸。
3加權一次移動平均預測法的應用研究及改進
設{yt}為時間序列,取移動平均的項數(shù)為n,設yt是第t期的實際值,則第t+1期的預測值的計算公式為:
=
說明:項數(shù)n的取值應該根據(jù)時間序列的特點而定, n大:降低移動平均數(shù)的敏感性,影響預測的準確性,n小:移動平均數(shù)易受隨機變動影響,難以反映實際趨勢, 一般:n的大小能包含季節(jié)變動和周期變動的時期較好。
針對煤炭銷售的歷史數(shù)據(jù)特點,數(shù)據(jù)是逐漸遞增的規(guī)律,經過反復訓練使n=1合理,也就是說結果只與上個周期有關。
Wi表示權重。如何選擇權數(shù)Wi?
M=S-S1=646.08 S為前8年總銷售量,S1為1999年銷售量;N=S-S2=518.38 S為前8年總銷售量,S2為2006年銷售量;W1=M:N=1.2463
針對煤炭企業(yè)數(shù)據(jù)特點對原始模型進行改進后如下:
=W1Y2006
因此2007年銷售量為Y2007=WY2006=1.2463×155.3=193.5504,由于此預測模型只和銷售序列有關,沒有考慮其他影響因素,此預測模型的誤差較大,所以不如二元線性回歸分析法應用效果好。但對于不同的煤炭企業(yè)不同的階段的銷售預測有著不同的參考價值。
由于國家能源產業(yè)政策和宏觀調控的影響,煤炭銷售情況受各種因素影響,并不是十分穩(wěn)定,因此本文介紹的二元線性回歸分析法和加權一次移動平均預測法的數(shù)據(jù)挖掘技術應用方法僅供煤炭貿易集團和公司參考,同時也可為煤炭企業(yè)保證煤炭供應起到決策的輔助作用。
參考文獻:
[1]馮勤.基于回歸數(shù)據(jù)挖掘預測系統(tǒng)的分析與研究:[碩士學位論文].天津:天津大學電子信息工程學院,2005.
有關計量經濟學期末論文范文一:我國企業(yè)經濟統(tǒng)計的現(xiàn)狀與改革創(chuàng)新分析
在知識經濟時展背景下,企業(yè)經濟統(tǒng)計工作也迎來了新一輪的發(fā)展機遇和挑戰(zhàn)。傳統(tǒng)的思維模式不僅無法滿足實際經濟統(tǒng)計工作的需要,也阻礙著我國社會經濟的進一步發(fā)展。所以必須要針對當前的經濟統(tǒng)計工作現(xiàn)狀,進行不斷的改革與創(chuàng)新,從而更好的適應經濟時代的發(fā)展。
一、企業(yè)經濟統(tǒng)計創(chuàng)新的重要性。
現(xiàn)代企業(yè)制度的確立,為我國企業(yè)發(fā)展迎來了新一輪發(fā)展機遇和挑戰(zhàn),也對企業(yè)管理工作提出更高的要求。企業(yè)經濟統(tǒng)計作為企業(yè)發(fā)展與進步的重要輔助手段,不僅為企業(yè)管理者提供精準的信息和決策依據(jù),也為企業(yè)生產經營活動的順利進行提供了有利的保障。企業(yè)管理水平的不斷提高,也為企業(yè)信息化建設帶來了一定的難度,而企業(yè)經濟統(tǒng)計工作包含了豐富的信息化活動內容,這就要求統(tǒng)計人員要不斷優(yōu)化企業(yè)經濟統(tǒng)計信息網絡的功能,促進企業(yè)信息化建設得到充分的完善。企業(yè)發(fā)展詐略的制定和管理工作的順利開展,也需要經濟統(tǒng)計人員設置出更加科學合理的統(tǒng)計指標體系,從而統(tǒng)計出更加精準、完整的數(shù)據(jù)內容,同時也為企業(yè)生產經營提供更加精準的評估,從而促進企業(yè)的全面發(fā)展。因此,經濟統(tǒng)計的創(chuàng)新對企業(yè)的建設和發(fā)展有著至關重要的作用。
二、當前企業(yè)經濟統(tǒng)計現(xiàn)狀。
一是很多企業(yè)統(tǒng)計制度不健全。當前,很多企業(yè)都沒有建立起一套完整、統(tǒng)一的經濟統(tǒng)計工作制度,使得企業(yè)工作人員無法得到精準、完整的統(tǒng)一報表,統(tǒng)計臺賬和原始記錄也比較凌亂,企業(yè)管理者在制定發(fā)展戰(zhàn)略和決策時也無法得到高質量的統(tǒng)計數(shù)據(jù)。同時,一些新興的企業(yè)也在隨著市場經濟的發(fā)展在不斷壯大,在這些企業(yè)中,很大一部分都沒有建立起標準的企業(yè)統(tǒng)計制度,相應的統(tǒng)計部門與人員也沒有進行標準的劃分和合理的配置,統(tǒng)計報表也沒有專業(yè)的統(tǒng)計人員進行報送,職員也沒有按照相應的統(tǒng)計制度去開展統(tǒng)計工作,進行報表的計算和統(tǒng)計。
二是企業(yè)經統(tǒng)計人員缺乏法制理念。在開展統(tǒng)計工作過程中常常會遇到一些法律方面的問題,但是很多企業(yè)的統(tǒng)計人員都沒有樹立正確的法制觀念,在統(tǒng)計中常常會為了自身利益,制造一些虛假數(shù)據(jù),甚至還有一部分企業(yè)為了逃避稅收而瞞報一些重要數(shù)據(jù),嚴重影響了數(shù)據(jù)的真實性和完整性,這樣的數(shù)據(jù)不僅無法得到人們的認可和接受,也會給統(tǒng)計工作帶來一些不良影響。
三是相關企業(yè)統(tǒng)計人員的整體素質有待提升。目前,很多企業(yè)都沒有重視起統(tǒng)計工作的重要性,統(tǒng)計人員也缺乏相應的專業(yè)知識和統(tǒng)計經驗,企業(yè)也沒有對相關統(tǒng)計人員進行定期培訓,造成人員的知識結構和思維模式無法得到及時的更新和優(yōu)化。而在開展實際工作時,由于統(tǒng)計人員的專業(yè)素質和工作水平一直無法得到顯著的提升,運用的統(tǒng)計方法也難以符合企業(yè)發(fā)展要求,統(tǒng)計工作也難以順利進行,導致企業(yè)統(tǒng)計信息不斷弱化,也使得企業(yè)統(tǒng)計工作無法發(fā)揮最大限度的積極作用。
四是企業(yè)統(tǒng)計工作手段缺乏創(chuàng)新性。隨著信息經濟時代的發(fā)展,對統(tǒng)計信息的時效性、準確的要求也在不斷提高,但是目前很多企業(yè)的統(tǒng)計手段都沒有得到及時的優(yōu)化,企業(yè)也沒有為統(tǒng)計部門配備符合工作要求的辦公設備,不僅使統(tǒng)計部門提供的數(shù)據(jù)的時效性和準確性無法得到應有的保障,也導致企業(yè)經濟統(tǒng)計工作的質量和效率一直無法取得顯著的提高。
同時,還有很多企業(yè)沒有正確認識到統(tǒng)計工作的積極作用,認為經濟統(tǒng)計只是對一些數(shù)據(jù)進行簡單的整理,如數(shù)據(jù)報表的制作和填寫等這種簡單的統(tǒng)計工作,造成企業(yè)經濟統(tǒng)計工作常常缺乏真實和完整性,也有很多企業(yè)由于嚴重缺乏統(tǒng)計方面的人才,也沒有設立專門的統(tǒng)計部門,使得很多企業(yè)逐漸忽略了統(tǒng)計部門和開展統(tǒng)計工作的重要性。
三、企業(yè)經濟統(tǒng)計創(chuàng)新的內容分析。
(一)統(tǒng)計思維理念方面的創(chuàng)新。
傳統(tǒng)的統(tǒng)計理念早已無法適應信息時代背景下企業(yè)的發(fā)展需求,因此,企業(yè)必須要樹立正確的科學發(fā)展理念,并將其作為開展企業(yè)經濟統(tǒng)計工作的重要理論依據(jù),而我們也必須要正視經濟統(tǒng)計工作中的種種問題,并分析總結出問題的成因,通過定期的專業(yè)培訓,使統(tǒng)計人員的專業(yè)素質和統(tǒng)計水平得到不斷提升,還要制定出一套完整的工作規(guī)范,并要求統(tǒng)計人員嚴格按照制度規(guī)范開展統(tǒng)計工作,同時還要根據(jù)實際統(tǒng)計工作情況,建立其合理的獎懲機制,從而充分調動起統(tǒng)計人員工作的積極性和責任心,多為職員提供學習和實踐的機會,促進統(tǒng)計人員的全面發(fā)展,也確保統(tǒng)計工作能夠順利進行。
(二)統(tǒng)計內容方面的創(chuàng)新。
統(tǒng)計內容方面的創(chuàng)新,主要體現(xiàn)在企業(yè)活動條件、企業(yè)投入和產出統(tǒng)計等方面的基本內容的補充和拓展,同時還要將一些已經過時的、沒有實質價值的原始憑證,以及一些與實際情況不符的數(shù)據(jù),進行適當?shù)娜∩?,同時還要將信息化、網絡化的企業(yè)虛擬運作統(tǒng)計真實的呈現(xiàn)出來,使統(tǒng)計人員的工作創(chuàng)造力得到充分的發(fā)揮,也將人本主義的企業(yè)文化統(tǒng)計充分反映出來。
(三)統(tǒng)計功能和方法方面的創(chuàng)新。
企業(yè)經濟統(tǒng)計方面的創(chuàng)新主要體現(xiàn)在完整的企業(yè)統(tǒng)計指標體系的建立。評價功能的創(chuàng)新,其功能主要是對企業(yè)生產經營過程進行詳細分析和評估,并且能夠為企業(yè)的發(fā)展戰(zhàn)略和重要決策的制定提供更加精準的判斷標準與評估數(shù)據(jù),其積極作用主要體現(xiàn)在企業(yè)生產經營活動過程中。分析功能的創(chuàng)新,主要是指企業(yè)經濟統(tǒng)計人員能夠利用先進的統(tǒng)計軟件,以及科學有效的統(tǒng)計手段,對企業(yè)經濟的發(fā)展現(xiàn)狀和未來的發(fā)展趨勢進行合理的分析和評估。而企業(yè)統(tǒng)計方法的創(chuàng)新則要求統(tǒng)計人員,要充分整合先進的科學技術,如:信息技術、網絡技術等,通過這些技術的應用,使統(tǒng)計工作質量和效率能夠得到不斷的提高,不斷完善企業(yè)業(yè)務流程,提升企業(yè)核心競爭力。
(四)統(tǒng)計人員管理方面的創(chuàng)新。
對于企業(yè)經濟統(tǒng)計人員的管理,要不斷結合企業(yè)的實際發(fā)展狀況,設置出能夠被更多統(tǒng)計人員所接受和認可的管理機制,從而更好的適應現(xiàn)代化企業(yè)發(fā)展的實際要求,同時也要為人員提供更多實踐學習的機會,并對其進行定期培訓,從而使其能夠及時的掌握最新的統(tǒng)計理念和手段,知識結構和統(tǒng)計水平也得到不斷的優(yōu)化和提高,同時也要給予統(tǒng)計人員更多展示自己的平臺,使其自身的優(yōu)勢和潛力能夠得到充分的體現(xiàn)和發(fā)倔,并探索和創(chuàng)新出更多科學有效的統(tǒng)計手段。
經濟統(tǒng)計是一項復雜的工作,對企業(yè)和社會經濟的發(fā)展有著重要意義,必須給予充分的重視。但是目前很多企業(yè)開展的經濟統(tǒng)計工作還存在一些有待解決的問題,使得統(tǒng)計工作質量和效率也無法得到顯著的提升。因此,統(tǒng)計人員必須要深入分析和總結不同階段統(tǒng)計工作中的問題,采取有效的解決對策,實行創(chuàng)新性統(tǒng)計,從而使經濟統(tǒng)計工作的適應性和靈活性得到不斷的提升,從而更好地為企業(yè)發(fā)展服務,提升企業(yè)的競爭力。
參考文獻:
[1] 吳東晟,李曉明。我國企業(yè)經濟統(tǒng)計創(chuàng)新問題研究[J].生產力研究,2009,12(20):25-32.
[2] 牟鐘捷。探討我國企業(yè)經濟統(tǒng)計的創(chuàng)新問題[J].城市建設理論研究(電子版),2013,23(36):12-14.
[3] 王小紅。關于我國企業(yè)經濟統(tǒng)計創(chuàng)新問題探究[J].經濟視野,2014,15(21):77-78.
[4] 林琳。我國企業(yè)經濟統(tǒng)計創(chuàng)新問題分析[J].商場現(xiàn)代化,2012,25(20):23-25.
有關計量經濟學期末論文范文二:經濟統(tǒng)計中數(shù)據(jù)挖掘技術的使用分析
伴隨著經濟統(tǒng)計發(fā)展,經濟統(tǒng)計的經驗累積,目前的經濟統(tǒng)計所需要統(tǒng)計的數(shù)據(jù)已經非常龐大,數(shù)據(jù)統(tǒng)計者在進行數(shù)據(jù)統(tǒng)計時,如果僅適用數(shù)理知識的采集,并不會對數(shù)據(jù)進行深入挖掘,造統(tǒng)計結果不準確。統(tǒng)計數(shù)據(jù)的數(shù)量逐漸增多,數(shù)據(jù)類別也同樣增加,對此,如果僅僅是使用以往的數(shù)據(jù)統(tǒng)計方式,并不能準確、全面的實現(xiàn)數(shù)據(jù)分析并統(tǒng)計的工作。數(shù)據(jù)挖掘技術是目前全新的統(tǒng)計方式,其具備良好的數(shù)據(jù)統(tǒng)計方式,能夠橫向的對數(shù)據(jù)進行挖掘,進而更好的對經濟數(shù)據(jù)進行統(tǒng)計,更好的滿足社會對經濟統(tǒng)計數(shù)據(jù)的需求。
一、數(shù)據(jù)挖掘技術概論。
數(shù)據(jù)挖掘技術簡單的說就是對數(shù)據(jù)信息進行深入挖掘的一種技術,在實際的使用過程中,能夠將復雜的數(shù)據(jù)庫變得更加的簡化,進而從中發(fā)現(xiàn)能夠利用的數(shù)據(jù)信息,并加以分析和整理,進而達到龐大且散亂的數(shù)據(jù)得到充分的利用。目前我國的經濟數(shù)據(jù)統(tǒng)計信息量非常龐大,并且還帶有數(shù)據(jù)不完整、隨機性強的特點,這些都造成常規(guī)的數(shù)據(jù)統(tǒng)計方式和系統(tǒng)無法充分的分析并統(tǒng)計經濟數(shù)據(jù)。數(shù)據(jù)挖掘技術能夠將這些具備隨機性強、完整性低的原始數(shù)據(jù)進行分析和統(tǒng)計,最終形成一套能夠合理利用的統(tǒng)計數(shù)據(jù)形態(tài),以便于數(shù)據(jù)使用者更好的對數(shù)據(jù)進行應用和提取。這樣能夠將數(shù)據(jù)進行更準確、更全面的收集、分析和加工的技術被稱為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘的特點是能夠自動的將有價值的數(shù)據(jù)發(fā)現(xiàn)并收集,然后對其進行處理、加工,將大量的信息處理、加工之后對其進行分析和統(tǒng)計,進而實現(xiàn)數(shù)據(jù)的有效性、準確性和實用性。
二、數(shù)據(jù)挖掘技術在經濟統(tǒng)計中的應用效果。
1.綜合性應用能力較強。數(shù)據(jù)挖掘技術已經被許多的統(tǒng)計工作所合理應用,并且發(fā)揮著至關重要的作用,其中也包括經濟統(tǒng)計。數(shù)據(jù)挖掘技術不僅僅是一種數(shù)據(jù)挖掘能力強、具備統(tǒng)計能力的技術,還能夠根據(jù)數(shù)據(jù)使用者的要求將數(shù)據(jù)進行分類和統(tǒng)計。因此,數(shù)據(jù)挖掘技術在經濟統(tǒng)計中,能夠有效地將數(shù)據(jù)進行開發(fā)、整理和分類,給統(tǒng)計數(shù)據(jù)的使用者提供更好的便利服務。
2.較強的有效性。數(shù)據(jù)挖掘技術目前在我國應用的實踐并不長,但是其在經濟統(tǒng)計的工作中的實際應用效果非常好,并且還具備穩(wěn)定的工作性能,不僅僅是能夠對經濟數(shù)據(jù)進行整理、分析和統(tǒng)計,還能夠更加有效的對挖掘出更多有價值的信息,在實際的應用中能夠表現(xiàn)出較高的有效性。
3.數(shù)據(jù)挖掘技術能夠更有效的應用于宏觀型的數(shù)據(jù)庫。目前,我國的經濟統(tǒng)計多數(shù)還是使用的傳統(tǒng)的經濟統(tǒng)計方式,收集和統(tǒng)計的數(shù)據(jù)信息并不能形成一個有機整體,在進行數(shù)據(jù)的管理時,仍然會出現(xiàn)許多的問題。對此,就需要利用新技術來提升經濟統(tǒng)計的有效性。宏觀經濟統(tǒng)計數(shù)據(jù)庫能夠給數(shù)據(jù)挖掘技術提供相當合適的統(tǒng)計平臺。對于經濟統(tǒng)計來說,其統(tǒng)計的數(shù)據(jù)必須要準確無誤,這就需要有大量且可靠的數(shù)據(jù)資源,宏觀經濟統(tǒng)計數(shù)據(jù)庫的特點便在于此,所以數(shù)據(jù)挖掘技術能夠更有效的應用于宏觀型的數(shù)據(jù)庫。
三、數(shù)據(jù)挖掘技術的數(shù)據(jù)挖掘流程。
數(shù)據(jù)額挖掘的整個流程主要為在數(shù)據(jù)庫中中利用數(shù)據(jù)挖掘算法收集相關的數(shù)據(jù),然后圍繞著數(shù)據(jù)挖掘進行的預處理,進行多次重復的對數(shù)據(jù)進行統(tǒng)計和處理。整個數(shù)據(jù)發(fā)掘過程是由多個挖掘步驟所組成的,數(shù)據(jù)挖掘僅僅是整個挖掘技術的一個主要步驟。數(shù)據(jù)挖掘收集的主要步驟有以下四個。(1)定義目標階段。根據(jù)數(shù)據(jù)統(tǒng)計者的要求定義數(shù)據(jù)挖掘目標。定義目標的適配度會直接影響數(shù)據(jù)挖掘的最終效果,對此,就需要具有應用領域知識的專家和數(shù)據(jù)挖掘經驗的技術人員共同寫作對目標進行定義。一方面需要對各種算法進行對比,最終確定最行之有效的算法之一,另一方面確定數(shù)據(jù)挖掘能夠充分的滿足實際工作要求。(2)數(shù)據(jù)準備階段。數(shù)據(jù)準備階段是數(shù)據(jù)挖掘技術中最為重要且過程最長的階段。這個階段主要分為三個步驟:數(shù)據(jù)挑選,數(shù)據(jù)處理和數(shù)據(jù)變化。數(shù)據(jù)挑選主要是指從數(shù)據(jù)倉庫或數(shù)據(jù)庫中挑選所有相關的數(shù)據(jù),將這些數(shù)據(jù)定義為目標數(shù)據(jù)。數(shù)據(jù)處理是指對目標數(shù)據(jù)進行初步的處理,然后挑選出挖掘出符合要求的數(shù)據(jù)。數(shù)據(jù)變換是指對挖掘出服務要求的數(shù)據(jù)進行精簡,即從數(shù)據(jù)處理中挖掘出的數(shù)據(jù)進行更深層次的挑選,最終挑選出完全符合數(shù)據(jù)統(tǒng)計要求的數(shù)據(jù)。(3)數(shù)據(jù)挖掘階段。這一階段是主要的數(shù)據(jù)挖掘階段。首先是預定算法,換而言之就是采用怎樣的條件挑選數(shù)據(jù),并進行挖掘。
然后針對算法完成數(shù)據(jù)挖掘工作。在完成之后,便可以進行數(shù)據(jù)挖掘模塊的計算。這個階段是相關領域專家和數(shù)據(jù)挖掘分析者最為關注的一步,也能夠被稱為實際上的數(shù)據(jù)挖掘。(4)評估階段和結果顯示。根據(jù)數(shù)據(jù)使用者的要求將數(shù)據(jù)進行分析并將結果顯示,將有價值意義的數(shù)據(jù)顯示出來,并且將挖掘出的數(shù)據(jù)進行價值評估,對于無意義的或存在重復的數(shù)據(jù)刪除。如果最終挖掘出的數(shù)據(jù)無法滿足數(shù)據(jù)使用者的要求則返回到上一步,重新篩選。
四、數(shù)據(jù)挖掘在經濟統(tǒng)計中的發(fā)展方向。
目前數(shù)據(jù)挖掘的發(fā)展方向可以從多個方面展開:(1)根據(jù)數(shù)據(jù)使用者的要求開發(fā)出各種數(shù)據(jù)挖掘系統(tǒng)。具備較強功能性的數(shù)據(jù)挖掘系統(tǒng)仍然難以處理各種數(shù)據(jù),對此就需要針對要求制定出各式各樣的數(shù)據(jù)挖掘系統(tǒng),例如空間數(shù)據(jù)庫挖掘和關系數(shù)據(jù)庫挖掘等。(2)提升數(shù)據(jù)挖掘顯示結果的確定性、可表達性和有效性。需要已經挖掘出來的數(shù)據(jù)能夠充分表明數(shù)據(jù)庫的主要內容,并且能夠運用于實際的相關領域當中。對具備缺陷的數(shù)據(jù)需要進行分析,以相似的數(shù)據(jù)或者有規(guī)律數(shù)據(jù)的形式展現(xiàn)出來。(3)數(shù)據(jù)挖掘結果簡化。挖掘出的數(shù)據(jù)最終使用者并非是數(shù)據(jù)挖掘的專家,所以挖掘結果一定要簡化。
(4)交互式、多抽象層數(shù)據(jù)挖掘。交互式數(shù)據(jù)挖掘能夠準許用戶對數(shù)據(jù)進行精確挖掘,數(shù)據(jù)的焦點具備動態(tài)改變的特點,從多個角度多個抽象的層次靈活的收集數(shù)據(jù)、挖掘數(shù)據(jù)。(5)數(shù)據(jù)挖掘的保密性和安全性。因為最終的經濟統(tǒng)計結果需要一定的安全性和保密性。對此,就需要加強數(shù)據(jù)挖掘結果的保密性和安全性,以免數(shù)據(jù)造成泄漏,隱私被別人侵犯。
五、結語。
經濟統(tǒng)計工作對我國的經濟發(fā)展有著至關重要的作用,伴隨著挖掘技術在經濟統(tǒng)計中的應用,對數(shù)據(jù)統(tǒng)計的分析也更顯高標準化和高質量化。對此,提升數(shù)據(jù)挖掘技術的應用效果,能夠有效的提升統(tǒng)計工作的統(tǒng)計結果質量,讓其具備可靠、真實的特點,進而給政府提供指定社會戰(zhàn)略發(fā)展目標的有力證據(jù),幫助工業(yè)企業(yè)確定經濟發(fā)展目標。數(shù)據(jù)挖掘技術在經濟統(tǒng)計中具備巨大的社會效益和經濟效益。
參考文獻:
[1]夏昌華。統(tǒng)計分析的新模式-數(shù)據(jù)挖掘技術[J].統(tǒng)計與咨詢,2012,14(2):269 -270.
[2]張宗峰,姚猛,藤立臣等。數(shù)據(jù)額挖掘及英在官方統(tǒng)計中的應用前景[J].江蘇統(tǒng)計,2010,28(10):832.
[3]鄭建國?;诮y(tǒng)計的數(shù)據(jù)挖掘技術在CRM系統(tǒng)中的應用統(tǒng)計[J].河北工業(yè)大學。2010,10(03):11-13.
[4]王福根。數(shù)據(jù)挖掘技術在建模、優(yōu)化和故障診斷中的應用[J].紅外與激光工程。2013,35(10):621-629.
關鍵詞:數(shù)據(jù)挖掘技術;成績管理
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一個涉及多學科交叉的研究領域,綜合了人工智能、機器學習、數(shù)理統(tǒng)計等學科,它把對數(shù)據(jù)的應用從較低層次的簡單的查詢提升到從數(shù)據(jù)中挖掘知識。簡單的說,數(shù)據(jù)挖掘就是從數(shù)據(jù)中獲取知識。從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘應該更正確地命名為“從數(shù)據(jù)中挖掘知識”。
二、數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘過程大概可以概括為三部分:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果的表達和解釋。如圖1-1。
三、數(shù)據(jù)挖掘的特點
數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息具有事先未知、有效、實用三個特征;用戶不必提出明確的要求,系統(tǒng)能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動地挖掘數(shù)據(jù)潛在的模式,或通過分析建立新的業(yè)務模型,幫助決策者調整市場策略,這有利于發(fā)現(xiàn)未知的事物。因此,它是由數(shù)據(jù)驅動的一種真正的知識發(fā)現(xiàn)方法。
四、學生成績管理的現(xiàn)狀
隨著高校招生規(guī)模的擴大使成績管理處理的數(shù)據(jù)量急劇增加,存放在數(shù)據(jù)庫中的大量的成績數(shù)據(jù),對于一般的查詢過程是有效的,管理人員能夠通過簡單的統(tǒng)計或排序等功能獲得一些表面的信息,但隨著數(shù)據(jù)庫中存儲的數(shù)據(jù)量的增大,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)管理和處理功能就不能滿足現(xiàn)實的需要,因為無論是查詢、排序還是方差,其處理方式都是對指定的數(shù)據(jù)進行簡單的數(shù)字處理,對于學生成績管理方面,往往只能做一些簡單的功能,由于大量數(shù)據(jù)以不同的形式存儲在不同的計算機上,從而使隱藏在其中的大量有用信息無法得到有效的利用,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關聯(lián)和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。上述問題直接導致教學管理部門無法進行有效的評估,任課教師無法進行有效的教學方法改進。而如何將這些數(shù)據(jù)信息轉化為知識表示,為學校管理者提供決策依據(jù),科學指導教學,提高教學管理水平,將是高校需要迫切解決的問題。
五、將數(shù)據(jù)挖掘技術在成績管理中的應用
1、學生成績分析方面
學生的學習成績是評估學生表現(xiàn)好壞的重要依據(jù),也是學生是否掌握好所學知識的重要標志,目前高校使用的成績管理系統(tǒng)大部分只能做一些簡單的數(shù)據(jù)管理和處理,例如:學生的平時成績輸入、考試成績輸入、畢業(yè)設計成績登記,進行各類統(tǒng)計報表和信息查詢、分析某一個班學生學習成績分布的情況等。目前大量的成績數(shù)據(jù)只是簡單地存儲在數(shù)據(jù)庫中,隱藏在這些數(shù)據(jù)中的潛在信息被閑置,沒能被充分利用。在數(shù)據(jù)庫中學生成績分析從定性的角度考慮不是很精確,而數(shù)據(jù)挖掘是從定量的角度精確地分析學生成績分析的各個方面數(shù)據(jù)。
2、在考試方面
考試是對教師教學效果和學生學習效果的一個檢驗,是教學中必不可少的環(huán)節(jié),雖然按考試成績可以總體評價在一定時期內學生取得的成績,但這并不能有效地說明成績的高低與哪些因素有關,無法知道教師教學環(huán)節(jié)中的成功與不足之處,對教師教學方法的改進和學生學習成績的提高都沒有實際意義上的幫助,而且,學生考試成績的高低也與試題的質量有著很大的關系,因此探索有效的方法來評價試題的質量如試題難易度,知識點全面度等在實際的教學過程中同樣具有重要的意義。將數(shù)據(jù)挖掘技術應用于試卷分析數(shù)據(jù)庫中,然后根據(jù)學生得分情況分析出每道題的難易度、區(qū)分度、相關度等指標,那么據(jù)此,教師可以對試題的質量作出比較準確的評價,進而可以用來檢查自己的教學情況及學生的掌握情況,并為今后的教學提供指導。
2、在教學評價方面
教學評價是教學中的一個重要環(huán)節(jié),是引導教育、培養(yǎng)高素質人才,幫助社會充分利用教育成果和促進教育健康發(fā)展的保證。傳統(tǒng)的教學評價大多是參考相關評價指標體系和調查問卷等方式實施的,而且更是注重評價的結果,以作為教師晉升、學生評優(yōu)等的依據(jù).高校每學期都要搞課堂教學評價調查,積累了大量的教學信息數(shù)據(jù),利用數(shù)據(jù)挖掘技術,從教學評價數(shù)據(jù)中進行數(shù)據(jù)挖掘,探討教學效果的好壞與教師的年齡、職稱之間有無必然的聯(lián)系,課堂教學效果與教師整體素質關系如何,合理配備班級的上課教師,使學生能夠較好的保持良好的學習態(tài)度,從而為教學部門提供了決策支持信息,促使更好地開展教學工作,提高教學質量。
3、選擇教師的教學方法方面
在教學過程中,教師可以采用多種方法來完成自己的教學任務,比如講授法、多媒體演示、分組討論法、課程實習法等,在通常情況下,一般可以采取一種或幾種方法進行.據(jù)此可用數(shù)據(jù)挖掘的方法來挖掘數(shù)據(jù)庫中的數(shù)據(jù),判定下一步應采取什么樣的教學方法,以滿足教學的需要,更有利于學生對知識的吸收。
4、課程的合理設置方面
在學校,學生的課堂學習是循序漸進的,而且課程之間有一定的關聯(lián)與前后順序關系,在學一門較高級課程之前必須先修一些先行課程,如果先行課程沒有學好,勢必會影響后續(xù)課程的學習,此外,每一學期安排課程的多少,也會影響學生的學習效果。利用學校教務管理系統(tǒng)中存放的歷屆學生各門學科的考試成績,結合數(shù)據(jù)挖掘技術的相關功能,得出一些有價值的規(guī)則和信息,最終找到影響學生成績的原因,在些基礎上,對課程設置做出合理安排。
六、結束語
隨著我國各高校管理信息化的不斷推進,各類學校的數(shù)據(jù)庫建設不斷完善,在學校平時的教育教學管理中累積了大量的數(shù)據(jù)。在這些海量的數(shù)據(jù)中,隱藏著大量有用的知識,如果利用好這些知識,將能夠對學校的教育教學工作起到積極的指導作用。數(shù)據(jù)挖掘技術正是為了解決如何從海量數(shù)據(jù)中挖掘出有用的知識,因此,將數(shù)據(jù)挖掘技術應用到高校的教育教學中去是非常有必要的。
參考文獻:
【1】吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術及其應用.南京師大學報(自然科學版),2000,23(2):25-27
【2】李慶香.數(shù)據(jù)挖掘技術在高校學生成績分析中的應用研究:碩士學位論文.重慶:西南大學教育技術系,2009