公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)探討論文范文

數(shù)據(jù)挖掘技術(shù)探討論文精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)探討論文主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術(shù)探討論文

第1篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

【關(guān)鍵詞】信息資源管理;研究生教學(xué);財經(jīng)院校

【中圖分類號】G642 【文獻(xiàn)標(biāo)識碼】B 【論文編號】1009―8097 (2008) 09―0125―03

信息資源管理(IRM)是為了確保信息資源的有效利用、以現(xiàn)代信息技術(shù)為手段,對信息資源實施計劃、預(yù)算、組織、指揮、控制、協(xié)調(diào)的一種管理活動[1]。信息資源管理的理論和實踐活動及以后信息資源管理類學(xué)科之間的集成和整合的需要,導(dǎo)致了一門滲透性很強(qiáng)的橫斷學(xué)科――信息資源管理學(xué)產(chǎn)生[2],其內(nèi)容涉及信息科學(xué)、管理科學(xué)、數(shù)據(jù)處理、通信、計算機(jī)科學(xué)、文獻(xiàn)情報學(xué)等各個方面。隨著全球信息化基礎(chǔ)設(shè)施建設(shè)的熱潮,信息資源管理也成為國內(nèi)外高校開設(shè)的一門重要課程。

一 國內(nèi)外高校同類課程現(xiàn)狀

信息資源管理作為一門新興邊緣學(xué)科,打破了原有學(xué)科界限,具有鮮明的時代特征,作為檔案學(xué)、圖書館情報學(xué)和情報學(xué)的一個分支領(lǐng)域,多學(xué)科綜合性、交叉性等特點(diǎn)是其典型特征[2]。在國外大學(xué),IRM課程多設(shè)置在信息科學(xué)專業(yè),如美國東北大學(xué),或者圖書館學(xué)專業(yè),如威斯康星大學(xué)。根據(jù)學(xué)科專業(yè)不同,課程側(cè)重點(diǎn)也有所不同,主要可分為三大方向:信息系統(tǒng)學(xué)派、記錄管理學(xué)派、信息管理學(xué)派。

90年代初,中國學(xué)者孟廣均和盧泰宏等人系統(tǒng)地引入了信息資源管理理論[3]。目前,國內(nèi)很多高校信息管理專業(yè)和圖書館情報學(xué)專業(yè)都開設(shè)了信息資源管理課程,大多都設(shè)置在本科專業(yè),也有一些設(shè)立了碩士和博士研究方向。大部分還是以傳統(tǒng)的信息管理為主線,以理論教育為主導(dǎo),和企業(yè)應(yīng)用及時代特點(diǎn)結(jié)合的較少,教學(xué)重點(diǎn)也依專業(yè)有所不同。

二 課程教學(xué)探討

1 課程定位

我校自2001年開始開設(shè)此課程作為信息學(xué)院碩士研究生必修課程。不同于其他高校的信息管理專業(yè)和圖書館情報學(xué)專業(yè),我校是財經(jīng)類院校,信息學(xué)院碩士方向主要為電子商務(wù)、供應(yīng)鏈管理、信息管理,是以管理學(xué)、經(jīng)濟(jì)學(xué)為主、信息技術(shù)為輔助實現(xiàn)手段的交叉學(xué)科,因此我們的IRM課程定位也是多學(xué)科交叉,側(cè)重從管理思維及企業(yè)應(yīng)用而不是技術(shù)角度,結(jié)合當(dāng)前知識經(jīng)濟(jì)時代特征組織課程內(nèi)容體系、分析講解問題,和企業(yè)市場對具有復(fù)合型知識結(jié)構(gòu)人才的需求緊密結(jié)合。

2 體系結(jié)構(gòu)

本課程自開設(shè)以來,一直由作者承擔(dān)此課程的教學(xué)及相關(guān)研究工作。作者在對當(dāng)前國內(nèi)IRM教材著作、教學(xué)內(nèi)容深入研究及6年教學(xué)實踐體驗的基礎(chǔ)上,結(jié)合在美國威斯康星大學(xué)圖書館和信息科學(xué)學(xué)院的交流學(xué)習(xí)經(jīng)驗,提出了適合本專業(yè)方向和學(xué)生特點(diǎn)的創(chuàng)新課程體系結(jié)構(gòu),經(jīng)過多次教學(xué)實踐,得到學(xué)生的認(rèn)可。我們的課程體系遵循系統(tǒng)性和創(chuàng)新性原則,在保證教學(xué)內(nèi)容所包含的知識是具有內(nèi)在邏輯聯(lián)系的完整知識體系前提下,區(qū)別于以傳統(tǒng)信息系統(tǒng)管理為主線的內(nèi)容體系,采用符合知識經(jīng)濟(jì)時代特征的體系結(jié)構(gòu),反映學(xué)科領(lǐng)域最新成果,在這里提出來供大家探討。

(1) 信息資源管理概述:作為整個課程的基礎(chǔ),這部分主要包括數(shù)據(jù)、信息、信息資源、信息化、信息產(chǎn)業(yè)、知識、知識經(jīng)濟(jì)、知識管理等概念及其關(guān)聯(lián),目的是使學(xué)生掌握信息資源從產(chǎn)生到利用到再創(chuàng)造的過程。

(2) 知識管理:知識是從相關(guān)信息中過濾、提煉、經(jīng)過人腦加工得到的有用信息,知識管理是現(xiàn)代信息資源(知識資源)管理的核心。這部分主要介紹知識的生命周期;企業(yè)知識管理的原因、目的、工具和手段;知識管理的企業(yè)實施和應(yīng)用;知識管理系統(tǒng)方案和技術(shù)平臺;北京移動、三星等企業(yè)知識管理案例分析。

(3) 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從海量數(shù)據(jù)中抽取出潛在的、有價值的信息、知識,是針對目前企業(yè)面對大量雜亂數(shù)據(jù)無法辨別有價值的資源進(jìn)行管理,而提出的方法。本部分主要介紹數(shù)據(jù)挖掘的特點(diǎn)、原由、過程、人員、環(huán)境、相關(guān)技術(shù);數(shù)據(jù)挖掘的商業(yè)應(yīng)用;相關(guān)軟件(重點(diǎn)SPSS系統(tǒng));數(shù)據(jù)挖掘與CRM;數(shù)據(jù)挖掘在證券行業(yè)、網(wǎng)絡(luò)應(yīng)用、遠(yuǎn)程教育等方面的應(yīng)用案例分析。不同于介紹技術(shù)和算法為主的數(shù)據(jù)挖掘課程,本課程重點(diǎn)在于數(shù)據(jù)挖掘的商業(yè)應(yīng)用,側(cè)重于分析、管理和應(yīng)用。

(4) 信息資源規(guī)劃(IRP):IRP是完全中國特色的信息資源管理內(nèi)容,是指對企事業(yè)單位或政府部門所需要的信息資源,從采集、處理、傳輸?shù)绞褂玫娜嬉?guī)劃,是針對于國內(nèi)信息化建設(shè)的總體規(guī)劃。主要內(nèi)容包括:信息資源管理基礎(chǔ)標(biāo)準(zhǔn)的講解及應(yīng)用;信息資源網(wǎng);IRP在大型企事業(yè)單位的實施(四一三三原則);IRP與ERP;IRP2000系統(tǒng)軟件介紹;政府信息資源規(guī)劃案例。

(5) 首席信息執(zhí)行官(CIO):CIO在企業(yè)的角色主要就是對企業(yè)的信息資源進(jìn)行總體規(guī)劃、協(xié)調(diào)、管理,因此這部分主要介紹IRM與CIO;中國CIO面臨的挑戰(zhàn)和機(jī)遇;CIO與IRP的工程化方法;CIO與本組織信息化整體解決方案(IT服務(wù)鏈)。

(6) 網(wǎng)絡(luò)信息資源管理:適應(yīng)當(dāng)前網(wǎng)絡(luò)發(fā)展,介紹通過網(wǎng)絡(luò)如何對信息資源進(jìn)行更好的組織和管理。主要包括網(wǎng)絡(luò)信息資源及信息結(jié)構(gòu);網(wǎng)絡(luò)信息資源組織;信息結(jié)構(gòu)(導(dǎo)航、標(biāo)志、檢索等系統(tǒng))設(shè)計;網(wǎng)站資源設(shè)計原則;案例分析。

(7) 信息資源安全管理:在信息資源的開發(fā)、管理和利用過程中,安全問題是一個十分重要的問題,因此本部分主要從管理和技術(shù)兩方面對信息資源管理中的安全風(fēng)險及應(yīng)對措施進(jìn)行分析,并結(jié)合案例介紹對系統(tǒng)進(jìn)行審計和評價的方法。

3 教學(xué)資源

教師注重將所講授內(nèi)容體現(xiàn)在教學(xué)實踐本身,隨時隨處體現(xiàn)“信息資源管理”觀點(diǎn)和方法:利用知識管理理念,整合各方面知識資源,包括各種教材著作、專家渠道、國內(nèi)外最新研究論文、案例資源等內(nèi)容,形成資源庫。

自課程開設(shè)以來,先后使用參考過科學(xué)出版社出版孟廣均等著的《信息資源管理導(dǎo)論》,高等教育出版社王景光主編的《信息資源管理》,武漢大學(xué)馬費(fèi)成編著的《信息資源開發(fā)利用》,北京理工大學(xué)甘仞初主編的《信息資源管理》,電子工業(yè)出版社肖明編著的《信息資源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等國外著作。已有教材都對信息管理學(xué)科進(jìn)行了全面系統(tǒng)的論述,但內(nèi)容大都比較抽象,理論性較強(qiáng),多以信息系統(tǒng)論為核心,和現(xiàn)實企業(yè)應(yīng)用及我們專業(yè)特點(diǎn)結(jié)合不足。因此,教師在教學(xué)中,指定其中兩本為參考教材,而圍繞課程體系的內(nèi)容主要來自于教師對國內(nèi)外研究資料收集整理加工后形成的教案、講義,資料來源大都為排名行業(yè)前列的學(xué)術(shù)刊物、數(shù)據(jù)庫、著名專家。除了理論知識,資源庫還納入不同企業(yè)的案例,以及知識案例獲取的各種專家渠道。

4 教學(xué)方法

結(jié)合課程和中國學(xué)生特點(diǎn),教師在教學(xué)中注重創(chuàng)新性,借鑒國內(nèi)外同行的經(jīng)驗,及時引入先進(jìn)的教學(xué)理念和方法手段,采用整合的教學(xué)方式“課堂講授+案例分析+Leading Discussion+小組討論/作業(yè)”相結(jié)合,目的在于盡量激發(fā)學(xué)生主動學(xué)習(xí)的愿望和能力,區(qū)別于以往“高級本科生”似的研究生教育方式。

(1) 教師的課堂講授主要在于讓學(xué)生了解知識課程體系結(jié)構(gòu)及關(guān)鍵知識點(diǎn),特別是重點(diǎn)和難點(diǎn),引導(dǎo)學(xué)生把點(diǎn)串成線,配合閱讀資料和案例,進(jìn)而使知識面立體化。

(2) 案例分析,主要是教師通過企業(yè)渠道獲得并整理內(nèi)容詳實的企業(yè)案例,把理論知識融入到企業(yè)實際應(yīng)用中,加深學(xué)生對理論和實踐如何結(jié)合起來的理解,彌補(bǔ)學(xué)生由于條件所限無法親自參與重要的企業(yè)實踐環(huán)節(jié)的缺口。

(3) Leading Discussion是教師借鑒美國大學(xué)研究生課程教學(xué)方法所得,培養(yǎng)學(xué)生獨(dú)立深度研究分析能力。由于課程內(nèi)容比現(xiàn)有教材更新,涉及范圍更廣,僅靠教材難以獲取足夠知識。教師定期提供國際上較新的研究論文,課下每位同學(xué)獨(dú)立閱讀并總結(jié)出不超過一頁紙的summary,提出2-3個針對性問題。課堂上每次輪流由不同學(xué)生主持leading discussion對論文進(jìn)行分析討論,并回答問題。這種方式有助于學(xué)生開拓視野,了解國際最新動向,督促其主動學(xué)習(xí)、思考、溝通能力(這正是中國學(xué)生普遍缺乏的),還能提高專業(yè)英語閱讀理解歸納能力和閱讀速度。

(4) 小組討論/作業(yè)主要是教師提供案例內(nèi)容框架及引導(dǎo)問題,學(xué)生分組討論不同案例(課堂或課下,視時間而定),鼓勵brain storming,以PPT形式進(jìn)行課堂演示,實現(xiàn)知識資源共享。最后教師對各組案例分析就行評價總結(jié)。

全程采用多媒體教學(xué),教學(xué)中始終貫穿著啟發(fā)式、引導(dǎo)性和參與性的理念。啟發(fā)式教學(xué):啟發(fā)學(xué)生通過以上各種方式實現(xiàn)自我學(xué)習(xí)、自我教育,克服教師滿堂貫、填鴨式的教學(xué)方式,注重研究生教育和本科教育的區(qū)別。引導(dǎo)性:教師在教學(xué)中先引入問題,積極啟發(fā)學(xué)生主動思考,而不是被動接受灌輸;引導(dǎo)學(xué)生探索性閱讀,進(jìn)入學(xué)術(shù)研究領(lǐng)域。參與性:鼓勵學(xué)生主動參與教學(xué)環(huán)節(jié),師生互動、教學(xué)相長,調(diào)動學(xué)生學(xué)習(xí)的積極性和主動性。

5 考核

為體現(xiàn)課程的多學(xué)科交叉性、復(fù)合型知識能力特點(diǎn),課程采用多形式考核方式,重在考察學(xué)生對企業(yè)實際問題分析、提出解決方案的能力,以及此過程中對現(xiàn)代IRM管理理念和知識的理解應(yīng)用和滲透。在強(qiáng)調(diào)“開卷+閉卷”傳統(tǒng)考試形式基礎(chǔ)之上,將參與討論、案例分析、Leading Discussion、論文撰寫、企業(yè)調(diào)研、小組作業(yè)等綜合起來全面考察學(xué)生學(xué)習(xí)情況,這種“非概念記憶”的能力考核方式進(jìn)一步調(diào)動了學(xué)生主動學(xué)習(xí)的積極性和創(chuàng)造力。

三 結(jié)言

經(jīng)過多次教學(xué)實踐不斷改進(jìn),教學(xué)內(nèi)容體系和方式方法得到了專家及學(xué)生的一致認(rèn)可:普遍認(rèn)為課程內(nèi)容新穎全面,反映信息資源管理領(lǐng)域的最新發(fā)展和趨勢;國外資源豐富,與國際學(xué)科發(fā)展接軌;高質(zhì)量案例的引入恰當(dāng)充分,和實際企業(yè)應(yīng)用相聯(lián)系。教師在講授中補(bǔ)充很多專業(yè)領(lǐng)域最新的知識,擴(kuò)展學(xué)生知識面;注重關(guān)鍵知識點(diǎn)的掌握,培養(yǎng)學(xué)生獨(dú)立思考和判斷、分析、解決問題的能力,非常適合財經(jīng)類院校研究生階段教學(xué)的特點(diǎn)。

在教學(xué)中,我們也注意及時發(fā)現(xiàn)總結(jié)問題,充分意識到不足和需要改進(jìn)之處:

1 教學(xué)中很多內(nèi)容都超出現(xiàn)有參考教材,因此需要將教學(xué)內(nèi)容資源整合成更加系統(tǒng)全面的教材,供學(xué)生參考。

2 對于一些最新的較為抽象的內(nèi)容,以及一些專業(yè)術(shù)語,還需進(jìn)一步增加關(guān)聯(lián)性更強(qiáng)的實例,更加深入淺出的進(jìn)行講解,讓學(xué)生更容易理解。

3 信息和網(wǎng)絡(luò)時代,知識及企業(yè)應(yīng)用的更新頻率都在加速,需要及時更新資源庫以和現(xiàn)實世界發(fā)展保持同步,如何追蹤最新的知識資源、企業(yè)實踐和專家渠道是很大的挑戰(zhàn)。

信息資源管理課程是知識經(jīng)濟(jì)時代新興的一門重要課程,教學(xué)體系、方法發(fā)展還不完善。在北京召開的北京高校信息資源管理專業(yè)高級研討會上,大家也一致認(rèn)為信息資源管理這門課程的教材的內(nèi)容和教學(xué)方法需要進(jìn)一步改革。本文提出了適合財經(jīng)類院校研究生的教學(xué)內(nèi)容體系和教學(xué)方法設(shè)計,供開設(shè)此課程的高校教師探討,并希望能有一定的啟發(fā)借鑒作用。

參考文獻(xiàn)

[1] 王景光.信息資源管理[M].高等教育出版,2002.12.

第2篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

[作者簡介]王會金(1962― ),男,浙江東陽人,南京審計學(xué)院副校長,教授,博士,從事信息系統(tǒng)審計研究。

[摘 要]當(dāng)前,我國急需一套完善的中觀信息系統(tǒng)審計風(fēng)險控制體系。這是因為我國的中觀經(jīng)濟(jì)主體在控制信息系統(tǒng)審計風(fēng)險時需要一套成熟的管理流程,且國家有關(guān)部門在制定信息系統(tǒng)審計風(fēng)險防范標(biāo)準(zhǔn)方面也需要完善的控制體系作為支撐。在闡述COBIT與數(shù)據(jù)挖掘基本理論的基礎(chǔ)上,借鑒COBIT框架,構(gòu)建中觀信息系統(tǒng)審計風(fēng)險的明細(xì)控制框架,利用數(shù)據(jù)挖掘技術(shù)有針對性地探索每一個明細(xì)標(biāo)準(zhǔn)的數(shù)據(jù)挖掘路徑,創(chuàng)建挖掘流程,建立適用于我國中觀經(jīng)濟(jì)特色的信息系統(tǒng)審計風(fēng)險控制體系。

[關(guān)鍵詞]中觀信息系統(tǒng)審計;COBIT框架;數(shù)據(jù)挖掘;風(fēng)險控制;中觀審計

[中圖分類號]F239.4 [文獻(xiàn)標(biāo)識碼]A [文章編號]10044833(2012)01001608

中觀信息系統(tǒng)審計是中觀審計的重要組成部分,它從屬于中觀審計與信息系統(tǒng)審計的交叉領(lǐng)域。中觀信息系統(tǒng)審計是指IT審計師依據(jù)特定的規(guī)范,運(yùn)用科學(xué)系統(tǒng)的程序方法,對中觀經(jīng)濟(jì)主體信息系統(tǒng)的運(yùn)行規(guī)程與應(yīng)用政策所實施的一種監(jiān)督活動,旨在增強(qiáng)中觀經(jīng)濟(jì)主體特定信息網(wǎng)絡(luò)的有效性、安全性、機(jī)密性與一致性[1]。與微觀信息系統(tǒng)相比,中觀信息系統(tǒng)功能更為復(fù)雜,且區(qū)域內(nèi)紛亂的個體間存在契約關(guān)系。中觀信息系統(tǒng)的復(fù)雜性主要體現(xiàn)在跨越單個信息系統(tǒng)邊界,參與者之間在信息技術(shù)基礎(chǔ)設(shè)施水平、信息化程度和能力上存在差異,參與者遵循一定的契約規(guī)則,依賴通信網(wǎng)絡(luò)支持,對安全性的要求程度很高等方面。中觀信息系統(tǒng)審計風(fēng)險是指IT審計師在對中觀信息系統(tǒng)進(jìn)行審計的過程中,由于受到某些不確定性因素的影響,而使審計結(jié)論與經(jīng)濟(jì)事實不符,從而受到相關(guān)關(guān)系人指控或媒體披露并遭受經(jīng)濟(jì)損失以及聲譽(yù)損失的可能性。中觀信息系統(tǒng)審計風(fēng)險控制的研究成果能為我國大型企業(yè)集團(tuán)、特殊的經(jīng)濟(jì)聯(lián)合體等中觀經(jīng)濟(jì)主體保持信息系統(tǒng)安全提供強(qiáng)有力的理論支持與實踐指導(dǎo)。

一、 相關(guān)理論概述與回顧

(一) COBIT

信息及相關(guān)技術(shù)的控制目標(biāo)(簡稱COBIT)由美國信息系統(tǒng)審計與控制協(xié)會(簡稱ISACA)頒布,是最先進(jìn)、最權(quán)威的安全與信息技術(shù)管理和控制的規(guī)范體系。COBIT將IT過程、IT資源及信息與企業(yè)的策略及目標(biāo)聯(lián)系于一體,形成一個三維的體系框架。COBIT框架主要由執(zhí)行工具集、管理指南、控制目標(biāo)和審計指南四個部分組成,它主要是為管理層提供信息技術(shù)的應(yīng)用構(gòu)架。COBIT對信息及相關(guān)資源進(jìn)行規(guī)劃與處理,從信息技術(shù)的規(guī)劃與組織、采集與實施、交付與支持以及監(jiān)控等四個方面確定了34個信息技術(shù)處理過程。

ISACA自1976年COBIT1.0版以來,陸續(xù)頒布了很多版本,最近ISACA即將COBIT5.0版。ISACA對COBIT理論的研究已趨于成熟,其思路逐步由IT審計師的審計工具轉(zhuǎn)向IT內(nèi)部控制框架,再轉(zhuǎn)向從高管層角度來思考IT治理。大多數(shù)國際組織在采納COSO框架時,都同時使用COBIT控制標(biāo)準(zhǔn)。升陽電腦公司等大型國際組織成功應(yīng)用COBIT優(yōu)化IT投資。2005年,歐盟也選擇將COBIT作為其審計準(zhǔn)則。國內(nèi)學(xué)者對COBIT理論的研究則以借鑒為主,如陽杰、張文秀等學(xué)者解讀了COBIT基本理論及其評價與應(yīng)用方法[23];謝羽霄、黃溶冰等學(xué)者嘗試將COBIT理論應(yīng)用于銀行、會計、電信等不同的信息系統(tǒng)領(lǐng)域[45]。我國信息系統(tǒng)審計的研究目前正處于起步階段,因而將COBIT理論應(yīng)用于信息系統(tǒng)的研究也不夠深入。王會金、劉國城研究了COBIT理論在中觀信息系統(tǒng)重大錯報風(fēng)險評估中的運(yùn)用,金文、張金城研究了信息系統(tǒng)控制與審計的模型[1,6]。

(二) 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)出現(xiàn)于20世紀(jì)80年代,該技術(shù)引出了數(shù)據(jù)庫的知識發(fā)現(xiàn)理論,因此,數(shù)據(jù)挖掘又被稱為“基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)”。1995年,在加拿大蒙特利爾召開的首屆KDD & Date Mining 國際學(xué)術(shù)會議上,學(xué)者們首次正式提出數(shù)據(jù)挖掘理論[7]。當(dāng)前,數(shù)據(jù)挖掘的定義有很多,但較為公認(rèn)的一種表述是:“從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表現(xiàn)為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問題就是在龐大的數(shù)據(jù)庫中尋找有價值的隱藏事件,加以分析,并將有意義的信息歸納成結(jié)構(gòu)模式,供有關(guān)部門在進(jìn)行決策時參考?!盵7]1995年至2010年,KDD國際會議已經(jīng)舉辦16次;1997年至2010年,亞太PAKDD會議已經(jīng)舉辦14次,眾多會議對數(shù)據(jù)挖掘的探討主要圍繞理論、技術(shù)與應(yīng)用三個方面展開。

目前國內(nèi)外學(xué)者對數(shù)據(jù)挖掘的理論研究已趨于成熟。亞太PAKDD會議主辦方出版的論文集顯示,2001年至2007年僅7年時間共有32個國家與地區(qū)的593篇會議論文被論文集收錄。我國學(xué)者在數(shù)據(jù)挖掘理論的研究中取得了豐碩的成果,具體表現(xiàn)在兩個方面:一是挖掘算法的縱深研究。李也白、唐輝探索了頻繁模式挖掘進(jìn)展,鄧勇、王汝傳研究了基于網(wǎng)絡(luò)服務(wù)的分布式數(shù)據(jù)挖掘,肖偉平、何宏研究了基于遺傳算法的數(shù)據(jù)挖掘方法[810]。二是數(shù)據(jù)挖掘的應(yīng)用研究。我國學(xué)者對于數(shù)據(jù)挖掘的應(yīng)用研究也積累了豐富的成果,并嘗試將數(shù)據(jù)挖掘技術(shù)應(yīng)用于醫(yī)學(xué)、通訊、電力、圖書館、電子商務(wù)等諸多領(lǐng)域。2008年以來,僅在中國知網(wǎng)查到的關(guān)于數(shù)據(jù)挖掘應(yīng)用研究的核心期刊論文就多達(dá)476篇。近年來,國際軟件公司也紛紛開發(fā)數(shù)據(jù)挖掘工具,如SPSS Clementine等。同時,我國也開發(fā)出數(shù)據(jù)挖掘軟件,如上海復(fù)旦德門公司開發(fā)的Dminer,東北大學(xué)軟件中心開發(fā)的Open Miner等。2000年以來,我國學(xué)者將數(shù)據(jù)挖掘應(yīng)用于審計的研究成果很多,但將數(shù)據(jù)挖掘應(yīng)用于信息系統(tǒng)審計的研究成果不多,且主要集中于安全審計領(lǐng)域具體數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究。

二、 中觀信息系統(tǒng)審計風(fēng)險控制體系的構(gòu)想

本文將中觀信息系統(tǒng)審計風(fēng)險控制體系(圖1)劃分為以下三個層次。

(一) 第一層次:設(shè)計中觀信息系統(tǒng)審計風(fēng)險的控制框架與明細(xì)控制標(biāo)準(zhǔn)

中觀信息系統(tǒng)審計的對象包括信息安全、數(shù)據(jù)中心運(yùn)營、技術(shù)支持服務(wù)、災(zāi)難恢復(fù)與業(yè)務(wù)持續(xù)、績效與容量、基礎(chǔ)設(shè)施、硬件管理、軟件管理、數(shù)據(jù)庫管理、系統(tǒng)開發(fā)、變革管理、問題管理、網(wǎng)絡(luò)管理、中觀系統(tǒng)通信協(xié)議與契約規(guī)則等共計14個主要方面[11]。中觀信息系統(tǒng)審計風(fēng)險控制體系的第一層次是根據(jù)COBIT三維控制框架設(shè)計的。這一層次需要構(gòu)架兩項內(nèi)容:(1)中觀信息系統(tǒng)審計風(fēng)險的控制框架。該控制框架需要完全融合COBIT理論的精髓,并需要考慮COBIT理論的每一原則、標(biāo)準(zhǔn)、解釋及說明。該控制框架由14項風(fēng)險防范因子組成,這14個因子必須與中觀信息系統(tǒng)審計的14個具體對象相對應(yīng)??蚣苤械拿恳粋€因子也應(yīng)該形成與自身相配套的風(fēng)險控制子系統(tǒng),且子系統(tǒng)應(yīng)該包含控制的要素、結(jié)構(gòu)、種類、目標(biāo)、遵循的原則、執(zhí)行概要等內(nèi)容。(2)中觀信息系統(tǒng)審計風(fēng)險的明細(xì)控制標(biāo)準(zhǔn)。控制框架中的14項風(fēng)險防范因子需要具備與自身相對應(yīng)的審計風(fēng)險明細(xì)控制規(guī)則,IT審計師只有具備相應(yīng)的明細(xì)規(guī)范,才能在中觀信息系統(tǒng)審計實施過程中擁有可供參考的審計標(biāo)準(zhǔn)。每個因子的風(fēng)險控制標(biāo)準(zhǔn)的設(shè)計需要以COBIT三維控制框架為平臺,以4個域、34個高層控制目標(biāo)、318個明細(xì)控制目標(biāo)為準(zhǔn)繩。

(二) 第二層次:確定風(fēng)險控制框架下的具體挖掘流程以及風(fēng)險控制的原型系統(tǒng)

第一層次構(gòu)建出了中觀信息系統(tǒng)審計風(fēng)險控制的明細(xì)標(biāo)準(zhǔn)Xi(i∈1n)。在第一層次的基礎(chǔ)上,第二層次需要借助于數(shù)據(jù)挖掘技術(shù),完成兩個方面的工作。一是針對Xi,設(shè)計適用于Xi自身特性的數(shù)據(jù)挖掘流程。這一過程的完成需要數(shù)據(jù)資料庫的支持,因而,中觀經(jīng)濟(jì)主體在研討Xi明細(xì)控制標(biāo)準(zhǔn)下的數(shù)據(jù)挖掘流程時,必須以多年積累的信息系統(tǒng)控制與審計的經(jīng)歷為平臺,建立適用于Xi的主題數(shù)據(jù)庫。針對明細(xì)標(biāo)準(zhǔn)Xi的內(nèi)在要求以及主題數(shù)據(jù)庫的特點(diǎn),我們就可以選擇數(shù)據(jù)概化、統(tǒng)計分析、聚類分析等眾多數(shù)據(jù)挖掘方法中的一種或若干種,合理選取特征字段,分層次、多角度地進(jìn)行明細(xì)標(biāo)準(zhǔn)Xi下的數(shù)據(jù)挖掘?qū)嶒灒偨Y(jié)挖掘規(guī)律,梳理挖掘流程。二是將適用于Xi的n個數(shù)據(jù)挖掘流程體系完善與融合,開發(fā)針對本行業(yè)的中觀信息系統(tǒng)審計風(fēng)險控制的原型系統(tǒng)。原型系統(tǒng)是指系統(tǒng)生命期開始階段建立的,可運(yùn)行的最小化系統(tǒng)模型。此過程通過對n個有關(guān)Xi的數(shù)據(jù)挖掘流程的融合,形成體系模型,并配以詳細(xì)的說明與解釋。對該模型要反復(fù)驗證,多方面關(guān)注IT審計師對該原型系統(tǒng)的實際需求,盡可能與IT審計師一道對該原型系統(tǒng)達(dá)成一致理解。

(三) 第三層次:整合前兩個步驟,構(gòu)建中觀信息系統(tǒng)風(fēng)險控制體系

第三層次是對第一層次與第二層次的整合。第三層次所形成的中觀信息系統(tǒng)風(fēng)險控制體系包括四部分內(nèi)容:(1)中觀信息系統(tǒng)審計風(fēng)險控制框架;(2)中觀信息系統(tǒng)審計風(fēng)險控制參照標(biāo)準(zhǔn);(3)中觀信息系統(tǒng)審計風(fēng)險控制明細(xì)標(biāo)準(zhǔn)所對應(yīng)的數(shù)據(jù)挖掘流程集;(4)目標(biāo)行業(yè)的中觀信息系統(tǒng)審計風(fēng)險控制的原型系統(tǒng)。在此過程中,對前三部分內(nèi)容,需要?dú)w納、驗證、總結(jié),并形成具有普遍性的中觀審計風(fēng)險控制的書面成果;對第四部分內(nèi)容,需要在對原型系統(tǒng)進(jìn)行反復(fù)調(diào)試的基礎(chǔ)上將其開發(fā)成軟件,以形成適用于目標(biāo)行業(yè)不同組織單位的“軟性”成果。在設(shè)計中觀信息系統(tǒng)風(fēng)險控制體系的最后階段,需要遵循控制體系的前三部分內(nèi)容與第四部分內(nèi)容相互一致、相互補(bǔ)充的原則。相互一致表現(xiàn)在控制體系中的框架、明細(xì)控制標(biāo)準(zhǔn)、相關(guān)控制流程與原型系統(tǒng)中的設(shè)計規(guī)劃、屬項特征、挖掘原則相協(xié)調(diào);相互補(bǔ)充表現(xiàn)在控制體系中的框架、明細(xì)控制標(biāo)準(zhǔn)及相關(guān)控制流程是IT審計師在中觀信息系統(tǒng)審計中所參照的一般理念,而原型系統(tǒng)可為IT審計師提供審計結(jié)論測試、理念指導(dǎo)測試以及驗證結(jié)論。 三、 COBIT框架對中觀信息系統(tǒng)審計風(fēng)險控制的貢獻(xiàn)

(一) COBIT框架與中觀信息系統(tǒng)審計風(fēng)險控制的契合分析

現(xiàn)代審計風(fēng)險由重大錯報風(fēng)險與檢查風(fēng)險兩個方面組成,與傳統(tǒng)審計風(fēng)險相比,現(xiàn)代審計風(fēng)險拓展了風(fēng)險評估的范圍,要求考慮審計客體所處的行業(yè)風(fēng)險。但從微觀層面看,傳統(tǒng)審計風(fēng)險與現(xiàn)代審計風(fēng)險的主要內(nèi)容都包括固有風(fēng)險、控制風(fēng)險與檢查風(fēng)險。COBIT框架與中觀信息系統(tǒng)審計風(fēng)險控制的契合面就是中觀信息系統(tǒng)的固有風(fēng)險與控制風(fēng)險。中觀信息系統(tǒng)的固有風(fēng)險是指“假定不存在內(nèi)部控制情況下,中觀信息系統(tǒng)存在嚴(yán)重錯誤或不法行為的可能性”;中觀信息系統(tǒng)的控制風(fēng)險是指“內(nèi)部控制體系未能及時預(yù)防某些錯誤或不法行為,以致使中觀信息系統(tǒng)依然存在嚴(yán)重錯誤或不法行為的可能性”;中觀信息系統(tǒng)的檢查風(fēng)險是指“因IT審計師使用不恰當(dāng)?shù)膶徲嫵绦?,未能發(fā)現(xiàn)已經(jīng)存在重大錯誤的可能性”。IT審計師若想控制中觀信息系統(tǒng)的審計風(fēng)險,必須從三個方面著手:(1)對不存在內(nèi)部控制的方面,能夠辨別和合理評價被審系統(tǒng)的固有風(fēng)險;(2)對存在內(nèi)部控制的方面,能夠確認(rèn)內(nèi)部控制制度的科學(xué)性、有效性、健全性,合理評價控制風(fēng)險;(3)IT審計師在中觀信息系統(tǒng)審計過程中,能夠更大程度地挖掘出被審系統(tǒng)“已經(jīng)存在”的重大錯誤。我國信息系統(tǒng)審計的理論研究起步較晚,IT審計師在分辨被審系統(tǒng)固有風(fēng)險,確認(rèn)控制風(fēng)險,將檢查風(fēng)險降低至可接受水平三個方面缺乏成熟的標(biāo)準(zhǔn)加以規(guī)范,因此我國的中觀信息系統(tǒng)審計還急需一套完備的流程與指南 當(dāng)前我國有四項信息系統(tǒng)審計標(biāo)準(zhǔn),具體為《審計機(jī)關(guān)計算機(jī)輔助審計辦法》、《獨(dú)立審計具體準(zhǔn)則第20號――計算機(jī)信息系統(tǒng)環(huán)境下的審計》、《關(guān)于利用計算機(jī)信息系統(tǒng)開展審計工作有關(guān)問題的通知》(88號文件)以及《內(nèi)部審計具體準(zhǔn)則第28號――信息系統(tǒng)審計》。。

圖2 中觀信息系統(tǒng)審計風(fēng)險的控制框架與控制標(biāo)準(zhǔn)的設(shè)計思路

COBIT框架能夠滿足IT審計師的中觀信息系統(tǒng)審計需求,其三維控制體系,4個控制域、34個高層控制目標(biāo)、318個明細(xì)控制目標(biāo)為IT審計師辨別固有風(fēng)險,分析控制風(fēng)險,降低檢查風(fēng)險提供了絕佳的參照樣板與實施指南。COBIT控制框架的管理理念、一般原則完全可以與中觀信息系統(tǒng)審計風(fēng)險的控制實現(xiàn)完美契合。通過對COBIT框架與中觀信息系統(tǒng)審計的分析,筆者認(rèn)為COBIT框架對中觀信息系統(tǒng)審計風(fēng)險控制的貢獻(xiàn)表現(xiàn)在三個方面(見圖2):(1)由COBIT的管理指南,虛擬中觀信息系統(tǒng)的管理指南,進(jìn)而評價中觀主體對自身信息系統(tǒng)的管理程度。COBIT的管理指南由四部分組成,其中成熟度模型用來確定每一控制階段是否符合行業(yè)與國際標(biāo)準(zhǔn),關(guān)鍵成功因素用來確定IT程序中最需要控制的活動,關(guān)鍵目標(biāo)指標(biāo)用來定義IT控制的目標(biāo)績效水準(zhǔn),關(guān)鍵績效指標(biāo)用來測量IT控制程序是否達(dá)到目標(biāo)。依據(jù)COBIT的管理指南,IT審計師可以探尋被審特定系統(tǒng)的行業(yè)與國際標(biāo)準(zhǔn)、IT控制活動的重要性層次、IT控制活動的目標(biāo)績效水平以及評價IT控制活動成效的指標(biāo),科學(xué)地擬定被審系統(tǒng)的管理指南。(2)由COBIT的控制目標(biāo),構(gòu)建中觀信息系統(tǒng)的控制目標(biāo)體系,進(jìn)而評價中觀信息系統(tǒng)的固有風(fēng)險與檢查風(fēng)險。COBIT的控制目標(biāo)包括高層域控制、中層過程控制、下層任務(wù)活動控制三個方面,其中,高層域控制由規(guī)劃與組織、獲取與實施、交付與支持以及監(jiān)控四部分組成,中層控制過程由“定義IT戰(zhàn)略規(guī)劃”在內(nèi)的34個高層控制目標(biāo)組成,下層任務(wù)活動控制由318個明細(xì)控制目標(biāo)組成。COBIT的控制目標(biāo)融合了“IT標(biāo)準(zhǔn)”、“IT資源”以及被審系統(tǒng)的“商業(yè)目標(biāo)”,為IT審計師實施中觀信息系統(tǒng)審計風(fēng)險控制提供了層級控制體系與明細(xì)控制目標(biāo)。IT審計師可以直接套用COBIT的控制層級與目標(biāo)擬定中觀信息系統(tǒng)管理與控制的層級控制體系以及明細(xì)控制目標(biāo),然后再進(jìn)一步以所擬定的明細(xì)控制目標(biāo)作為參照樣板,合理評判中觀信息系統(tǒng)的固有風(fēng)險與控制風(fēng)險。中觀信息系統(tǒng)中“域”、“高層”、“明細(xì)”控制目標(biāo)的三層結(jié)構(gòu)加強(qiáng)了IT審計師審計風(fēng)險控制的可操作性。(3)由COBIT的審計指南,設(shè)計IT審計師操作指南,進(jìn)而降低中觀信息系統(tǒng)審計的檢查風(fēng)險。COBIT的審計指南由基本準(zhǔn)則、具體準(zhǔn)則、執(zhí)業(yè)指南三個部分組成。基本準(zhǔn)則規(guī)定了信息系統(tǒng)審計行為和審計報告必須達(dá)到的基本要求,為IT審計師制定一般審計規(guī)范、具體審計計劃提供基本依據(jù)。具體準(zhǔn)則對如何遵循IT審計的基本標(biāo)準(zhǔn),提供詳細(xì)的規(guī)定、具體說明和解釋,為IT審計師如何把握、評價中觀經(jīng)濟(jì)主體對自身系統(tǒng)的控制情況提供指導(dǎo)。執(zhí)業(yè)指南是根據(jù)基本標(biāo)準(zhǔn)與具體準(zhǔn)則制定的,是系統(tǒng)審計的操作規(guī)程和方法,為IT審計師提供了審計流程與操作指南。

(二) 中觀信息系統(tǒng)審計風(fēng)險控制體系建設(shè)舉例――構(gòu)建“設(shè)備管理”控制目標(biāo)體系

前文所述,中觀信息系統(tǒng)審計的對象包括“信息安全”等14項內(nèi)容,本文以“硬件管理”為例,運(yùn)用COBIT的控制目標(biāo),構(gòu)建“硬件管理”的控制目標(biāo)體系,以利于IT審計師科學(xué)評價“硬件管理”存在的固有風(fēng)險與控制風(fēng)險?!霸O(shè)備管理”控制目標(biāo)體系的構(gòu)建思路參見表1。

注:IT標(biāo)準(zhǔn)對IT過程的影響中P表示直接且主要的,S表示間接且次要的;IT過程所涉及的IT資源中C表示涉及;空白表示關(guān)聯(lián)微小。

表1以“設(shè)備管理”為研究對象,結(jié)合COBIT控制框架,并將COBIT框架中與“設(shè)備管理”不相關(guān)的中層控制過程剔除,最終構(gòu)建出“設(shè)備管理”控制的目標(biāo)體系。該體系由4個域控制目標(biāo)、21個中層過程控制目標(biāo)、149個明細(xì)控制目標(biāo)三個層級構(gòu)成,各個層級的關(guān)系見表1。(1)第一層級是域控制,由“P.設(shè)備管理的組織規(guī)劃目標(biāo)”、“A.設(shè)備管理的獲取與實施目標(biāo)”、“DS.設(shè)備管理的交付與支持目標(biāo)”以及“M.設(shè)備管理的監(jiān)控目標(biāo)”構(gòu)成;(2)第二層級是中層過程控制,由21個目標(biāo)構(gòu)成,其中歸屬于P的目標(biāo)5個,歸屬于A的目標(biāo)3個,歸屬于D的目標(biāo)9個,歸屬于M的目標(biāo)4個;(3)第三層級是下層任務(wù)活動控制,由149個明細(xì)目標(biāo)構(gòu)成,該明細(xì)目標(biāo)體系是中層過程控制目標(biāo)(P、A、DS、M)針對“IT標(biāo)準(zhǔn)”與“IT資源”的進(jìn)一步細(xì)分。IT標(biāo)準(zhǔn)是指信息系統(tǒng)在運(yùn)營過程中所應(yīng)盡可能實現(xiàn)的規(guī)則,具體包括有效性、效率性、機(jī)密性等7項;IT資源是指信息系統(tǒng)在運(yùn)營過程中所要求的基本要素,具體有人員、應(yīng)用等5項。根據(jù)表1中“有效性”、“人員”等“IT標(biāo)準(zhǔn)”與“IT資源”合計的12個屬項,每個具體中層控制目標(biāo)都會衍生出多個明細(xì)控制目標(biāo)。例如,中層控制目標(biāo)“DS13.運(yùn)營管理”基于“IT標(biāo)準(zhǔn)”與“IT資源”的特點(diǎn)具體能夠演繹出6項明細(xì)控制目標(biāo),此7項可表述為“DS13-01.利用各項設(shè)備,充分保證硬件設(shè)備業(yè)務(wù)處理與數(shù)據(jù)存取的及時、正確與有效”,“DS13-02.充分保證硬件設(shè)備運(yùn)營的經(jīng)濟(jì)性與效率性,在硬件設(shè)備投入成本一定的情況下,相對加大硬件設(shè)備運(yùn)營所產(chǎn)生的潛在收益”,“DS13-03.硬件設(shè)備保持正常的運(yùn)營狀態(tài),未經(jīng)授權(quán),不可以改變硬件的狀態(tài)、使用范圍與運(yùn)營特性,保證設(shè)備運(yùn)營的完整性”,“DS13-04.設(shè)備應(yīng)該在規(guī)定條件下和規(guī)定時間內(nèi)完成規(guī)定的功能與任務(wù),保證設(shè)備的可用性”,“DS13-05.硬件設(shè)備運(yùn)營的參與人員必須具備較高的專業(yè)素質(zhì),工作中遵循相應(yīng)的行為規(guī)范”以及“DS13-06.工作人員在使用各項硬件設(shè)備時,嚴(yán)格遵循科學(xué)的操作規(guī)程,工作中注意對硬件設(shè)備的保護(hù),禁止惡意損壞設(shè)備”。上述三個層級組成了完整的“硬件設(shè)備”控制目標(biāo)體系,若將中觀信息系統(tǒng)審計的14個對象都建立相應(yīng)的控制目標(biāo)體系,并將其融合為一體,則將會形成完備的中觀信息系統(tǒng)審計風(fēng)險控制的整體目標(biāo)體系。

四、 數(shù)據(jù)挖掘技術(shù)對中觀信息系統(tǒng)審計風(fēng)險控制的貢獻(xiàn)

(一) 數(shù)據(jù)挖掘技術(shù)與中觀信息系統(tǒng)審計風(fēng)險控制的融合分析

中觀信息系統(tǒng)是由兩個或兩個以上微觀個體所構(gòu)成的中觀經(jīng)濟(jì)主體所屬個體的信息資源,在整體核心控制臺的統(tǒng)一控制下,以Internet為依托,按照一定的契約規(guī)則實施共享的網(wǎng)狀結(jié)構(gòu)式的有機(jī)系統(tǒng)。與微觀信息系統(tǒng)比較,中觀信息系統(tǒng)運(yùn)行復(fù)雜,日志數(shù)據(jù)、用戶操作數(shù)據(jù)、監(jiān)控數(shù)據(jù)的數(shù)量相對龐雜。因而,面對系統(tǒng)海量的數(shù)據(jù)信息,IT審計師針對前文所構(gòu)建的明細(xì)控制目標(biāo)Xi下的審計證據(jù)獲取工作將面臨很多問題,如數(shù)據(jù)信息的消化與吸收、數(shù)據(jù)信息的真假難辨等。而數(shù)據(jù)挖掘可以幫助決策者尋找數(shù)據(jù)間潛在的知識與規(guī)律,并通過關(guān)聯(lián)規(guī)則實現(xiàn)對異常、敏感數(shù)據(jù)的查詢、提取、統(tǒng)計與分析,支持決策者在現(xiàn)有的數(shù)據(jù)信息基礎(chǔ)上進(jìn)行決策[12]。數(shù)據(jù)挖掘滿足了中觀信息系統(tǒng)審計的需求,當(dāng)IT審計師對繁雜的系統(tǒng)數(shù)據(jù)一籌莫展時,數(shù)據(jù)挖掘理論中的聚類分析、關(guān)聯(lián)規(guī)則等技術(shù)卻能為中觀信息系統(tǒng)審計的方法提供創(chuàng)新之路。筆者認(rèn)為,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于前文所述的明細(xì)控制目標(biāo)Xi下審計證據(jù)篩選流程的構(gòu)建是完全可行的。恰當(dāng)?shù)臄?shù)據(jù)挖掘具體技術(shù),科學(xué)的特征字段選取,對敏感與異常數(shù)據(jù)的精準(zhǔn)調(diào)取,將會提高中觀信息系統(tǒng)審計的效率與效果,進(jìn)而降低審計風(fēng)險。

(二) 中觀信息系統(tǒng)審計風(fēng)險控制目標(biāo)Xi下數(shù)據(jù)挖掘流程的規(guī)劃

數(shù)據(jù)挖掘技術(shù)在中觀信息系統(tǒng)審計風(fēng)險控制中的應(yīng)用思路見圖3。

注:數(shù)據(jù)倉庫具體為目標(biāo)行業(yè)特定中觀經(jīng)濟(jì)主體的信息系統(tǒng)數(shù)據(jù)庫

中觀信息系統(tǒng)審計明細(xì)控制目標(biāo)Xi下數(shù)據(jù)挖掘流程設(shè)計具體可分為六個過程:(1)闡明問題與假設(shè)。本部分的研究是在一個特定的應(yīng)用領(lǐng)域中完成的,以“中觀信息系統(tǒng)審計風(fēng)險明細(xì)控制目標(biāo)Xi”為主旨,闡明相關(guān)問題、評估“控制目標(biāo)Xi”所處的挖掘環(huán)境、詳盡的描述條件假設(shè)、合理確定挖掘的目標(biāo)與成功標(biāo)準(zhǔn),這些將是實現(xiàn)“控制目標(biāo)Xi下”挖掘任務(wù)的關(guān)鍵。(2)數(shù)據(jù)收集。圖3顯示,本過程需要從原始數(shù)據(jù)、Web記錄與日志文件等處作為數(shù)據(jù)源采集數(shù)據(jù)信息,采集后,還需要進(jìn)一步描述數(shù)據(jù)特征與檢驗數(shù)據(jù)質(zhì)量。所采集數(shù)據(jù)的特征描述主要包括數(shù)據(jù)格式、關(guān)鍵字段、數(shù)據(jù)屬性、一致性,所采集數(shù)據(jù)的質(zhì)量檢驗主要考慮是否滿足“控制目標(biāo)Xi”下數(shù)據(jù)挖掘的需求,數(shù)據(jù)是否完整,是否存有錯誤,錯誤是否普遍等。(3)數(shù)據(jù)預(yù)處理。該過程是在圖3的“N.異構(gòu)數(shù)據(jù)匯聚數(shù)據(jù)庫”與“U.全局/局部數(shù)據(jù)倉庫”兩個模塊下完成的。N模塊執(zhí)行了整合異構(gòu)數(shù)據(jù)的任務(wù),這是因為N中的異構(gòu)數(shù)據(jù)庫由不同性質(zhì)的異構(gòu)數(shù)據(jù)組合而成,數(shù)據(jù)屬性、數(shù)據(jù)一致性彼此間可能存在矛盾,故N模塊需要通過數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)透明訪問實現(xiàn)異構(gòu)數(shù)據(jù)的共享。U模塊承載著實現(xiàn)數(shù)據(jù)清理、數(shù)據(jù)集成與數(shù)據(jù)格式化的功能?!翱刂颇繕?biāo)Xi”下的數(shù)據(jù)挖掘技術(shù)實施前,IT審計師需要事先完成清理與挖掘目標(biāo)相關(guān)程度低的數(shù)據(jù),將特征字段中的錯誤值剔除以及將缺省值補(bǔ)齊,將不同記錄的數(shù)據(jù)合并為新的記錄值以及對數(shù)據(jù)進(jìn)行語法修改形成適用于挖掘技術(shù)的統(tǒng)一格式數(shù)據(jù)等系列工作。(4)模型建立。在“V.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)”過程中,選擇與應(yīng)用多種不同的挖掘技術(shù),校準(zhǔn)挖掘參數(shù),實現(xiàn)最優(yōu)化挖掘?!翱刂颇繕?biāo)Xi”下的數(shù)據(jù)挖掘技術(shù)可以將分類與聚類分析、關(guān)聯(lián)規(guī)則、統(tǒng)計推斷、決策樹分析、離散點(diǎn)分析、孤立點(diǎn)檢測等技術(shù)相結(jié)合,用多種挖掘技術(shù)檢查同一個“控制目標(biāo)Xi”的完成程度[12]。選擇挖掘技術(shù)后,選取少部分?jǐn)?shù)據(jù)對目標(biāo)挖掘技術(shù)的實用性與有效性進(jìn)行驗證,并以此為基礎(chǔ),以參數(shù)設(shè)計、模型設(shè)定、模型描述等方式對U模塊數(shù)據(jù)倉庫中的數(shù)據(jù)開展數(shù)據(jù)挖掘與進(jìn)行知識發(fā)現(xiàn)。(5)解釋模型。此過程在模塊“W.模式解釋與評價”中完成,中觀信息系統(tǒng)審計風(fēng)險領(lǐng)域?qū)<遗c數(shù)據(jù)挖掘工程師需要依據(jù)各自的領(lǐng)域知識、數(shù)據(jù)挖掘成功標(biāo)準(zhǔn)共同解釋模塊V,審計領(lǐng)域?qū)<覐臉I(yè)務(wù)角度討論模型結(jié)果,數(shù)據(jù)挖掘工程師從技術(shù)角度驗證模型結(jié)果。(6)歸納結(jié)論。在“Z.挖掘規(guī)律與挖掘路徑歸納”中,以W模塊為基礎(chǔ),整理上述挖掘?qū)嵤┻^程,歸納“控制目標(biāo)Xi”下的挖掘規(guī)律,探究“控制目標(biāo)Xi”下的挖掘流程,整合“控制目標(biāo)Xi”(i∈1n)的數(shù)據(jù)挖掘流程體系,并開發(fā)原型系統(tǒng)。

(三) 數(shù)據(jù)挖掘流程應(yīng)用舉例――“訪問控制”下挖掘思路的設(shè)計

如前所述,中觀信息系統(tǒng)審計包括14個對象,其中“網(wǎng)絡(luò)管理”對象包含“訪問管理”等多個方面。結(jié)合COBIT框架下“M1.過程監(jiān)控”與“IT標(biāo)準(zhǔn)-機(jī)密性”,“訪問管理”可以將“M1-i.用戶訪問網(wǎng)絡(luò)必須通過授權(quán),拒絕非授權(quán)用戶的訪問”作為其控制目標(biāo)之一?!癕1-i”數(shù)據(jù)挖掘的數(shù)據(jù)來源主要有日志等,本部分截取網(wǎng)絡(luò)日志對“M1-i”下數(shù)據(jù)挖掘流程的設(shè)計進(jìn)行舉例分析。

假設(shè)某中觀信息系統(tǒng)在2011年4月20日18時至22時有如下一段日志記錄。

(1) “Sep 20 19:23:06 UNIX login[1015]:FAILED LOGIN 3 FROM(null) FOR wanghua”

(2) “Sep 20 19:51:57 UNIX―zhangli[1016]:LOGIN ON Pts/1 BY zhangli FROM 172.161.11.49”

(3) “Sep 20 20:01:19 UNIX login[1017]:FAILED LOGIN 1 FROM(null) FOR wanghua”

(4) “Sep 20 20:17:23 UNIX―wanyu [1018]:LOGIN ON Pts/2 BY wanyu FROM 172.161.11.342”

(5) “Sep 20 21:33:20 UNIX―wanghua [1019]:LOGIN ON Pts/5 BY wanghua FROM 191.34.25.17”

(6) “Sep 20 21:34:39 UNIX su(pam――unix)[1020]:session opened for user root by wanghua (uid=5856)”

… … …

選取上述日志作為數(shù)據(jù)庫,以前文“控制目標(biāo)Xi”下數(shù)據(jù)挖掘的6個過程為范本,可以設(shè)計“M1-i.用戶訪問網(wǎng)絡(luò)必須通過授權(quán),拒絕非授權(quán)用戶的訪問”下的審計證據(jù)挖掘流程。該挖掘流程的設(shè)計至少包括如下思路:a.選取“授權(quán)用戶”作為挖掘的“特征字段”,篩選出“非授權(quán)用戶”的日志數(shù)據(jù);b.以a為基礎(chǔ),以“LOGIN ON Pts BY 非授權(quán)用戶”作為 “特征字段”進(jìn)行挖掘;c.以a為基礎(chǔ),選取“opened … by …”作為“特征字段”實施挖掘。假如日志庫中只有wanghua為非授權(quán)用戶,則a將會挖出(1)(3)(5)(6),b會挖出(5),c將會挖掘出(6)。通過對(5)與(6)嫌疑日志的分析以及“M1-i”挖掘流程的建立,IT審計師就能夠得出被審系統(tǒng)的“訪問控制”存在固有風(fēng)險,且wanghua已經(jīng)享有了授權(quán)用戶權(quán)限的結(jié)論。

參考文獻(xiàn):

[1]王會金,劉國城.COBIT及在中觀經(jīng)濟(jì)主體信息系統(tǒng)審計的應(yīng)用[J].審計研究,2009(1):5862.

[2]陽杰,莊明來,陶黎娟.基于COBIT的會計業(yè)務(wù)流程控制[J].審計與經(jīng)濟(jì)研究,2009(2):7886.

[3]張文秀,齊興利.基于COBIT的信息系統(tǒng)審計框架研究[J].南京審計學(xué)院學(xué)報,2010(5):2934.

[4]謝羽霄,邱晨旭.基于COBIT的電信企業(yè)信息技術(shù)內(nèi)部控制研究[J].電信科學(xué),2009(7):3035.

[5]黃溶冰,王躍堂.商業(yè)銀行信息化進(jìn)程中審計風(fēng)險與控制[J].經(jīng)濟(jì)問題探索,2008(2):134137.

[6]金文,張金城.基于COBIT的信息系統(tǒng)控制管理與審計[J].審計研究,2005(4):7579.

[7]陳安,陳寧.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:科學(xué)工業(yè)出版社,2006.

[8]李也白,唐輝.基于改進(jìn)的PE-tree的頻繁模式挖掘算法[J].計算機(jī)應(yīng)用,2011(1):101104.

[9]鄧勇,王汝傳.基于網(wǎng)格服務(wù)的分布式數(shù)據(jù)挖掘[J].計算機(jī)工程與應(yīng)用,2010(8):610.

[10]肖偉平,何宏.基于遺傳算法的數(shù)據(jù)挖掘方法及應(yīng)用[J].湖南科技大學(xué)學(xué)報,2009(9):8286.

[11]孫強(qiáng).信息系統(tǒng)審計[M].北京:機(jī)械工業(yè)出版社,2003.

[12]蘇新寧,楊建林.數(shù)據(jù)挖掘理論與技術(shù)[M]. 北京:科學(xué)技術(shù)出版社,2003.

Risk Control System of MesoInformation System Audit:From the Perspective of COBIT Framework of Date Mining Technology

WANG Huijin

(Nanjing Audit University, Nanjing 211815, China)

第3篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

我們在教學(xué)的過程中,也比較比較注重案例教學(xué)。例如,在講授神經(jīng)網(wǎng)絡(luò)時,我們可以用上海證券交易所中股市中股票隨時間變化的數(shù)據(jù)為例,讓學(xué)生討論如何應(yīng)用神經(jīng)網(wǎng)絡(luò)對股票價格進(jìn)行預(yù)測。人工神經(jīng)網(wǎng)絡(luò)是一種模仿自然界動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,能夠較好地處理具有一定復(fù)雜性的數(shù)據(jù),在預(yù)測、擬合等方面取得了很好的應(yīng)用效果。讓學(xué)生采用神經(jīng)網(wǎng)絡(luò)進(jìn)行實際數(shù)據(jù)分析和處理,可以增強(qiáng)他們學(xué)習(xí)的積極性,更主動地投入到學(xué)習(xí)中去。我們也要求他們使用回歸分析的方法對股票價格進(jìn)行預(yù)測,然后和神經(jīng)網(wǎng)絡(luò)預(yù)測的結(jié)果進(jìn)行比較。通過這個過程,可以使學(xué)生們不但了解了神經(jīng)網(wǎng)絡(luò)與回歸分析算法的異同,加深他們對神經(jīng)網(wǎng)絡(luò)的認(rèn)識。

加強(qiáng)實驗教學(xué),增強(qiáng)學(xué)生動手能力

信息與計算科學(xué)專業(yè)是以信息領(lǐng)域為背景,數(shù)學(xué)與信息、管理相結(jié)合的交叉學(xué)科專業(yè)。該專業(yè)培養(yǎng)的學(xué)生具有良好的數(shù)學(xué)基礎(chǔ),能熟練地使用計算機(jī),初步具備在信息與計算科學(xué)領(lǐng)域的某個方向上從事科學(xué)研究,解決實際問題,設(shè)計開發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門、高等院校、行政管理和經(jīng)濟(jì)管理部門,從事科研、教學(xué)和計算機(jī)應(yīng)用軟件的開發(fā)和管理工作,也可以繼續(xù)攻讀信息與計算科學(xué)及相關(guān)學(xué)科的碩士學(xué)位。從信息與計算科學(xué)專業(yè)的培養(yǎng)目標(biāo)可以看出信息與計算科學(xué)專業(yè)的本科生不但需要掌握理論知識,還需要具有將所學(xué)知識用來解決實際問題的能力。數(shù)據(jù)挖掘作為一門應(yīng)用性較強(qiáng)的課程,需要學(xué)生能夠運(yùn)用數(shù)據(jù)挖掘知識分析和解決實際問題,要求學(xué)生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計,以便在將來的就業(yè)中具有更好的適應(yīng)性,因此實驗環(huán)節(jié)的教學(xué)有著其必要性。基于這些原因,我們在這門課中引入實驗環(huán)節(jié),并將其納入考核要求。我們實驗所用的基本軟件是SAS統(tǒng)計分析軟件。SAS軟件是一個集統(tǒng)計分析、報表圖形、信息系統(tǒng)開發(fā)和大型數(shù)據(jù)庫管理等多種強(qiáng)大功能為一體的大型軟件系統(tǒng),是目前國際上主流的統(tǒng)計分析軟件之一。我們信息專業(yè)在大三時開設(shè)這門課程,之前已經(jīng)學(xué)過C語言和JAVA等程序設(shè)計方法,有了一定的編程基礎(chǔ),因此學(xué)習(xí)使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學(xué)們的使用。我們在平時的學(xué)習(xí)中,將一些SAS軟件的基本程序設(shè)計基礎(chǔ)知識先發(fā)給同學(xué)們,讓他們利用課后時間自己在個人電腦上進(jìn)行熟悉,從而使得他們熟悉基本SAS程序設(shè)計方法,這樣可以在實驗課上直接運(yùn)用SAS軟件進(jìn)行數(shù)據(jù)挖掘程序的編寫。在實驗課上,我們主要將要實驗的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學(xué),要求同學(xué)自己用數(shù)據(jù)挖掘的知識和SAS軟件進(jìn)行編程實現(xiàn),并寫出實驗分析和小結(jié)。另外,在實驗中,我們也要求學(xué)生盡可能將一些實驗結(jié)果用圖表的形式如崖底碎石圖等表示出來,以利于進(jìn)一步分析。對于少部分學(xué)有余力的同學(xué),我們也引導(dǎo)他們自編相關(guān)的程序。比如說在SAS軟件中進(jìn)行K-均值聚類用fastclus這個函數(shù)就可以了,但是學(xué)生對程序具體實現(xiàn)過程可能不是很清楚。如果學(xué)生能夠?qū)⒊绦騅-均值聚類詳細(xì)程序步驟自己編寫出來,就可以表明學(xué)生對所K-均值聚類算法也有了較清楚的認(rèn)識。另外,對于屬于數(shù)學(xué)建模協(xié)會的同學(xué),我們也引導(dǎo)他們將數(shù)據(jù)挖掘的知識和數(shù)學(xué)建模中某些問題相結(jié)合起來,對于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識分析的問題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識對其進(jìn)行分析和求解,通過這樣的方式,可以這樣拓展這些同學(xué)的思路,也為數(shù)學(xué)建模培養(yǎng)了人才。

靈活的課后作業(yè)形式,提高學(xué)生的綜合能力

第4篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

作者簡介:舒忠梅,中山大學(xué)教育學(xué)院講師,博士;屈瓊斐,中山大學(xué)教育學(xué)院副教授,副院長,社會學(xué)博士;郭清順,中山大學(xué)科技發(fā)展研究院副主任,研究員,博士。(廣州/510275)

*本文系國家自然科學(xué)基金“ITS中基于有向超圖的個性化的學(xué)習(xí)過程及其支持資源的優(yōu)化”(61202345)的成果之一。 摘要:高等教育機(jī)構(gòu)正處于數(shù)據(jù)爆炸的信息時代,高校多年來積累的大量辦學(xué)數(shù)據(jù)為學(xué)校的科學(xué)管理帶來了挑戰(zhàn)與機(jī)遇?,F(xiàn)代大學(xué)的科學(xué)管理亟待加強(qiáng)數(shù)據(jù)的有效利用,從信息技術(shù)的利用與高等學(xué)校的管理效益出發(fā),分析國內(nèi)外高等教育機(jī)構(gòu)應(yīng)用商業(yè)智能技術(shù)進(jìn)行教育管理和研究的狀況,探索基于商業(yè)智能技術(shù)搭建高校教育管理平臺的實踐應(yīng)用,對平臺體系架構(gòu)、數(shù)據(jù)挖掘技術(shù)在大學(xué)生學(xué)習(xí)成果預(yù)測的應(yīng)用案例等方面進(jìn)行探討。

關(guān)鍵詞:高校管理;數(shù)據(jù)分析;商業(yè)智能《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》提出:“信息技術(shù)對教育發(fā)展具有革命性的影響,必須予以高度重視。”[1]信息技術(shù)的高速發(fā)展,為高等學(xué)校的教育教學(xué)及其服務(wù)管理提供了新的手段和豐富的資源。[2]隨著高等教育的發(fā)展和教育體制的改革,高校積極進(jìn)行管理信息化建設(shè),實施數(shù)字化校園或智慧校園等舉措,積累了大量的教育數(shù)據(jù)。國際數(shù)據(jù)公司IDC研究表明,數(shù)字大學(xué)僅2007年創(chuàng)建或采集2.25×1021 位數(shù)據(jù),并預(yù)計將以每年60%的增速持續(xù),海量的數(shù)據(jù)時代已經(jīng)來臨。[3]針對海量教育數(shù)據(jù)的挑戰(zhàn)與機(jī)遇,本文從信息技術(shù)的利用與高等學(xué)校的管理效益出發(fā),探討如何通過商業(yè)智能技術(shù)有效利用當(dāng)前高校管理產(chǎn)生的大量教育數(shù)據(jù)。

一、國內(nèi)外高校管理中的數(shù)據(jù)利用概況

高校管理產(chǎn)生和存儲的教育數(shù)據(jù)其實是高校的重要財富之一,充分利用可以有效提高高校的管理效益。同時,高校面臨著海量數(shù)據(jù)帶來的巨大挑戰(zhàn),如何管理并利用好海量數(shù)據(jù),如何從大量的教育數(shù)據(jù)中獲得有用的信息,提高高校管理系統(tǒng)的效率,是現(xiàn)代大學(xué)管理所面臨的新挑戰(zhàn)。

(一)現(xiàn)代大學(xué)的科學(xué)管理亟待數(shù)據(jù)有效利用的加強(qiáng)

在教育競爭日益激烈的今天,數(shù)據(jù)資源的管理和應(yīng)用是現(xiàn)代大學(xué)取得競爭優(yōu)勢的重要工作之一。數(shù)據(jù)記錄著學(xué)校的有形資源及其歷史演變,導(dǎo)致高校數(shù)據(jù)量巨大,而其中真正有價值的信息卻不多。數(shù)據(jù)能否帶來價值和轉(zhuǎn)化為決策效益不僅僅取決于量的多少,更重要的是取決于數(shù)據(jù)的可用性和對其合理的使用。[4]

目前,大多數(shù)高校為滿足日常工作需求,建立了校務(wù)辦公信息系統(tǒng),但這些系統(tǒng)基本上屬于聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng),無法直接提供各種綜合程度的數(shù)據(jù)采集并加以綜合利用的功能。同時,這些信息系統(tǒng)產(chǎn)生的大量數(shù)據(jù)也不能進(jìn)一步提煉升華為知識,及時提供給決策部門,讓淹沒在眾多信息系統(tǒng)中的海量數(shù)據(jù)能夠“說話”已成為重要課題。

另一方面,在我國高校管理系統(tǒng)中,高等教育研究一直較少開展對高校管理信息有關(guān)的定量和綜合研究。而在國外大學(xué)的管理系統(tǒng)中,一個完整的院校研究部門是必不可少的,其基本功能就是對信息的管理和分析。對數(shù)據(jù)展開研究,是增強(qiáng)高校管理系統(tǒng)職能的一個重要環(huán)節(jié)。而且,隨著國家逐漸放給大學(xué)越來越多的辦學(xué)自的發(fā)展趨勢,高校管理系統(tǒng)將因重視信息的管理和分析而衍生出一個新的功能,或者吸引高等教育研究人員深入關(guān)注信息管理與分析問題,從而更加實際地支持高校管理提升,是已萌芽并可預(yù)見的發(fā)展趨勢。[5]

(二)國內(nèi)外高校管理中的商業(yè)智能應(yīng)用

隨著云計算和云存儲的推廣,可以收集和利用越來越多的數(shù)據(jù)。為了高效地處理和有效地利用各種形式的海量數(shù)據(jù),以數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、聯(lián)機(jī)分析處理等為核心的商業(yè)智能(Business Intelligence, BI)技術(shù)應(yīng)運(yùn)而生。商業(yè)智能這一概念由加特納·格魯派于1989年提出,可將商業(yè)智能理解為一種能夠?qū)C(jī)構(gòu)現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助機(jī)構(gòu)通過基于事實和電腦化系統(tǒng),做出科學(xué)業(yè)務(wù)決策的工具。商業(yè)智能技術(shù)已成功地應(yīng)用于銀行、電信、保險、制造業(yè)和零售業(yè)等行業(yè)。[6]從全球范圍來看,商業(yè)智能已經(jīng)成為最具有前景的信息化領(lǐng)域。

通過調(diào)查了解世界各地的高等教育部門采用商業(yè)智能技術(shù)的狀況發(fā)現(xiàn),高等教育已明顯落后于其它行業(yè)。然而,Dave Wells在文獻(xiàn)中指出,越來越多的高校正在關(guān)注商業(yè)智能應(yīng)用這一主題,高等教育在技術(shù)方面已經(jīng)到了應(yīng)用商業(yè)智能的時候了。[7]

例如,北美高等教育界較早關(guān)注商業(yè)智能應(yīng)用的重要性,美國部分高校已經(jīng)采用或正開始采用商業(yè)智能技術(shù),對學(xué)校的教育數(shù)據(jù)進(jìn)行整合分析,為學(xué)校的科學(xué)決策與管理提供信息支持。如賓州州立大學(xué)、密執(zhí)根大學(xué)均于2005年提出建設(shè)BI項目的倡議,弗羅里達(dá)州立大學(xué)、華盛頓大學(xué)分別于2007年、2008年開始利用BI項目分析學(xué)校整合數(shù)據(jù)進(jìn)行決策支持,普渡大學(xué)于2008-2014年期間建設(shè)學(xué)校新的協(xié)同集成系統(tǒng),印第安納大學(xué)2009年提出BI建設(shè)路線圖,斯坦福大學(xué)商業(yè)智能中心2009年提交的BI架構(gòu)及方案獲批準(zhǔn)、2010年正式啟動項目建設(shè),加州大學(xué)(總部)建設(shè)StatFinder系統(tǒng),伊利諾斯大學(xué)建立學(xué)校決策支持?jǐn)?shù)據(jù)倉庫,亞利桑那州立大學(xué)為支持科學(xué)決策建設(shè)了儀表盤(dashboard)等。

·教育管理· 基于商業(yè)智能構(gòu)建高校教育管理平臺的實踐探討 在歐洲、亞洲等地區(qū)的高等教育體系中,商業(yè)智能技術(shù)的應(yīng)用才剛剛起步。我國少數(shù)高校也開始邁出了建設(shè)BI系統(tǒng)的步伐,如中山大學(xué)2010年開始提出學(xué)校BI系統(tǒng)建設(shè)倡議,現(xiàn)已初步完成BI系統(tǒng)的數(shù)據(jù)倉庫建設(shè),上海交通大學(xué)2011年推出BI項目的子系統(tǒng)——財務(wù)管理駕駛艙系統(tǒng),復(fù)旦大學(xué)為學(xué)校師生在校生命周期實現(xiàn)管理信息化“全覆蓋”,中國人民大學(xué)推出綜合數(shù)據(jù)填報、數(shù)據(jù)存儲、數(shù)據(jù)管理和數(shù)據(jù)展示等四大功能的數(shù)據(jù)平臺,浙江大學(xué)為優(yōu)化資源配置建設(shè)共享數(shù)據(jù)中心進(jìn)行數(shù)據(jù)集成,上海財經(jīng)大學(xué)建設(shè)校務(wù)決策支持系統(tǒng),常熟理工學(xué)院建立高校決策支持系統(tǒng)等等。

同時,基于商業(yè)智能技術(shù)產(chǎn)出的數(shù)據(jù),也形成一批對高等教育和高校自身進(jìn)行深入分析的研究報告。如美國教育研究的主要組織院校研究學(xué)會,年會報告除了涵蓋數(shù)據(jù)管理、數(shù)據(jù)倉庫等關(guān)于計算機(jī)技術(shù)本身的報告之外,關(guān)于評估、資源、學(xué)生、合作和分析的報告,較多地來自于商業(yè)智能系統(tǒng)數(shù)據(jù)的研究結(jié)果。[8]

二、數(shù)據(jù)驅(qū)動的高校教育管理智能平臺架構(gòu)在海量教育數(shù)據(jù)亟待有效利用的驅(qū)動下,為提高高校管理效益,將商業(yè)智能技術(shù)應(yīng)用到高校教育管理中,對高校產(chǎn)生的大量數(shù)據(jù)用數(shù)據(jù)挖掘等商業(yè)智能技術(shù)進(jìn)行分析研究與處理,可以幫助高校決策者做出對學(xué)校發(fā)展更為有利的科學(xué)決策。其關(guān)鍵是建立綜合層面上的、能反映高校整體教育教學(xué)管理的信息集成系統(tǒng)平臺(下文簡稱高校BI系統(tǒng)平臺)。高校BI系統(tǒng)平臺體系架構(gòu)由數(shù)據(jù)源、數(shù)據(jù)存儲與管理層、數(shù)據(jù)分析層和用戶接口層組成,如圖1所示。

圖1高校BI系統(tǒng)體系架構(gòu)

(一)數(shù)據(jù)源

數(shù)據(jù)源是整個系統(tǒng)的基礎(chǔ),包括高校各類業(yè)務(wù)管理信息系統(tǒng)的內(nèi)部數(shù)據(jù)和其他外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括存放于操作型數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)和辦公自動化系統(tǒng)包含的各類文檔數(shù)據(jù),如學(xué)校財務(wù)處、人事處、教務(wù)處、科研處、設(shè)備處等部門數(shù)據(jù)庫中業(yè)務(wù)數(shù)據(jù);外部信息包括各類教育信息、外部統(tǒng)計和調(diào)研數(shù)據(jù)及文檔等。

(二)數(shù)據(jù)存儲與管理

數(shù)據(jù)存儲與管理層是整個系統(tǒng)的核心,包括ETL管理工具、公共數(shù)據(jù)集、元數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)據(jù)集市。高校BI系統(tǒng)平臺建設(shè)采用數(shù)據(jù)驅(qū)動設(shè)計方法,從學(xué)校原有的各個部門的業(yè)務(wù)處理系統(tǒng)和外部數(shù)據(jù)源中經(jīng)過ETL提取數(shù)據(jù),并根據(jù)常見的分析和統(tǒng)計主題,建設(shè)校級數(shù)據(jù)倉庫以及人才培養(yǎng)、師資隊伍、科學(xué)研究、辦學(xué)資源、交流合作等主題的數(shù)據(jù)集市。

(三)數(shù)據(jù)查詢與分析

高校決策者常常希望從不同的角度審視教育數(shù)據(jù),比如從時間、區(qū)域、學(xué)科、教學(xué)或科研成果、課程建設(shè)、學(xué)生層次、交流合作、辦學(xué)資源等維度全面了解學(xué)校的教育質(zhì)量和狀態(tài)。高校BI系統(tǒng)平臺的數(shù)據(jù)分析層利用商業(yè)智能技術(shù)為高校管理主要提供固定報表、即席查詢、統(tǒng)計分析、多維分析、預(yù)警功能、預(yù)測分析、數(shù)據(jù)挖掘建模分析及優(yōu)化分析等,根據(jù)學(xué)校現(xiàn)有學(xué)生、教師、資源、科研和人才培養(yǎng)等狀況,有助于高校決策者全面地對學(xué)校資源配置進(jìn)行調(diào)控、對學(xué)校整體辦學(xué)信息的內(nèi)部結(jié)構(gòu)進(jìn)行調(diào)整等,做出對學(xué)校發(fā)展更為有利的科學(xué)決策。

(四)用戶接口

用戶接口層根據(jù)高校用戶訪問需求和角色訪問授權(quán)機(jī)制,提供強(qiáng)大的多用戶數(shù)據(jù)查詢操作,并以儀表盤或表格、直方圖、餅圖等直觀方式將查詢結(jié)果或決策信息呈現(xiàn)給用戶。

三、應(yīng)用案例

下面以高校BI系統(tǒng)平臺中的調(diào)研數(shù)據(jù)為商業(yè)智能技術(shù)應(yīng)用案例,利用回歸方法對大學(xué)生學(xué)習(xí)成果進(jìn)行數(shù)據(jù)挖掘分析。

(一)數(shù)據(jù)來源

案例分析的數(shù)據(jù)來源于高校BI系統(tǒng)平臺中“中山大學(xué)學(xué)生學(xué)習(xí)狀況調(diào)查”項目于2012在中山大學(xué)全校范圍內(nèi)開展的在線調(diào)研數(shù)據(jù)。[13]調(diào)查覆蓋全校36個學(xué)院(系),調(diào)查總體約為3.3萬名本科生。讓學(xué)生在無壓力的情況下答題,共回收問卷7051份,回收率約為21.2%,與國際上通用的問卷回收率相當(dāng)。案例分析聚焦于本科樣本,全部回收的問卷根據(jù)答題時長、問卷質(zhì)量標(biāo)準(zhǔn)等原則,篩選出有效問卷數(shù)據(jù)6673份,有效率為94.6%。

本研究從學(xué)生學(xué)習(xí)經(jīng)歷角度,在“生源-學(xué)習(xí)-成果”的邏輯框架中,考察分析學(xué)校因素和學(xué)生因素對于學(xué)生學(xué)習(xí)成果的影響機(jī)制。調(diào)查把學(xué)生學(xué)習(xí)經(jīng)歷和成果分解為生源情況、學(xué)校學(xué)習(xí)資源供給、學(xué)生與學(xué)校的融合、學(xué)生學(xué)習(xí)投入、學(xué)生成果、學(xué)校成果6 大維度,各維度下題目的內(nèi)部一致性均達(dá)到0.9以上,具有較高的信度。

(二)數(shù)據(jù)分析

逐步回歸提供了一種識別與學(xué)生學(xué)習(xí)成果相關(guān)的具體經(jīng)歷的方法,對于學(xué)生學(xué)習(xí)狀況調(diào)查中的227項進(jìn)行相似項合并,用向前和向后逐步回歸確定與學(xué)習(xí)成果相關(guān)的項目,對殘差圖和診斷法的徹底審查,最后確定17個獨(dú)立變量出現(xiàn)在多元回歸模型中(如表2所示),其中,相關(guān)系數(shù)R為0.994,校正判定系數(shù)R2為0.988,因變量變化中有98.8%左右的信息可以由預(yù)測變量解釋,說明模型的擬合優(yōu)度較好;Durbin-Watson為1.937,接近最佳理想值,如表1所示。

表2顯示的是回歸系數(shù)的相關(guān)統(tǒng)計量,可以看出,這17個獨(dú)立變量的顯著性概率Sig.都小于0.05,說明其系數(shù)顯著不為0,這17個變量均與學(xué)生學(xué)習(xí)成果顯著相關(guān)。

分析表2中的數(shù)據(jù)可以看出,學(xué)生學(xué)習(xí)經(jīng)歷中的學(xué)校學(xué)習(xí)資源提供、學(xué)生學(xué)習(xí)投入和校園文化及學(xué)校成果等四大維度的17個變量均為影響學(xué)生學(xué)習(xí)成果的重要預(yù)測變量,包括課程作業(yè)評價、專業(yè)學(xué)習(xí)經(jīng)歷評價、學(xué)術(shù)規(guī)范指導(dǎo)、平等文化、多元能力的培養(yǎng)氛圍等學(xué)校因素變量,以及朋輩交流情況、自主學(xué)習(xí)情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關(guān)注的內(nèi)容情況、師生交流、課業(yè)活動及個人閑暇活動時間分配等學(xué)生因素變量。同時,在校經(jīng)歷滿意度、綜合滿意度和能力培養(yǎng)滿意度等融合學(xué)校因素和學(xué)生因素的學(xué)校成果也對學(xué)生學(xué)習(xí)成果具有一定的影響。

通過標(biāo)準(zhǔn)系數(shù)可以看出,朋輩交流情況、自主學(xué)習(xí)情況和討論關(guān)注的內(nèi)容情況分別是第一、第二和第三重要的預(yù)測變量,而性別、年級、所在校區(qū)等人口學(xué)變量并未出現(xiàn)在該回歸分析模型中,對學(xué)生學(xué)習(xí)成果的影響不顯著。

進(jìn)一步分析朋輩交流情況和自主學(xué)習(xí)情況調(diào)查指標(biāo)應(yīng)答概況,如表3所示,“有時”、“時?!被颉邦l繁”進(jìn)行朋輩交流的比例為63.7%~97.7%,自主學(xué)習(xí)的比例為52.5%~92.9%,朋輩交流和自主學(xué)習(xí)的平均比例相當(dāng)高(81.8%)?!坝袝r”、“時?!被颉邦l繁”地進(jìn)行朋輩交流方面的主要比例情況為:“與家庭背景(社會、經(jīng)濟(jì)的)不同的同學(xué)交流”為97.7%、“與興趣不同的同學(xué)交流”為95.6%、“在與同學(xué)的談話中得到啟發(fā),改變自己的想法”為94.4%、“與世界觀、價值觀不同的同學(xué)交流”為93%、“與不同專業(yè)的同學(xué)交流”為92.6%、“同學(xué)與你談話后,表示受到了你的啟發(fā)”為90.8%?!坝袝r”、“時?!被颉邦l繁”地進(jìn)行自主學(xué)習(xí)的主要比例情況為:“利用圖書館、網(wǎng)絡(luò)等資源豐富自己的學(xué)識”為92.9%、“根據(jù)課程安排,做課堂展示”為91.3%、“努力掌握對自己而言較難的課程內(nèi)容”為91.3%、“隨著學(xué)習(xí)經(jīng)歷的豐富不斷整合、梳理自己的知識系統(tǒng)”為88.4%,“因課程設(shè)置和教師的要求具有挑戰(zhàn)性而更加努力地學(xué)習(xí)”為85.9%。

上述情形符合Vincent Tinto在研究大學(xué)生退學(xué)問題時提出的理論模型:學(xué)生取得較好的學(xué)習(xí)成果,依賴于他們在學(xué)習(xí)經(jīng)歷中能否將自身的經(jīng)驗和目標(biāo)與學(xué)校系統(tǒng)內(nèi)部的學(xué)術(shù)系統(tǒng)和社交系統(tǒng)相融合。[10]學(xué)術(shù)系統(tǒng)代表學(xué)生個人的課業(yè)表現(xiàn)、智力發(fā)展、學(xué)業(yè)成就等綜合表現(xiàn),如表2中自主學(xué)習(xí)情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關(guān)注的內(nèi)容情況及課業(yè)活動等屬于學(xué)術(shù)系統(tǒng)的范疇。社交系統(tǒng)代表學(xué)生在校內(nèi)的同伴關(guān)系、師生關(guān)系、社交行為等綜合表現(xiàn),如朋輩交流情況、師生交流及個人閑暇活動時間分配等屬于社交系統(tǒng)的范疇。學(xué)生在其學(xué)習(xí)經(jīng)歷中,有效地利用學(xué)習(xí)資源和校園文化氛圍、將學(xué)術(shù)系統(tǒng)和社交系統(tǒng)進(jìn)行整合,可以從學(xué)業(yè)和人際關(guān)系上自我提升,從而提高學(xué)習(xí)成果。

四、小結(jié)

如今,高等教育機(jī)構(gòu)正處于數(shù)據(jù)爆炸但知識貧乏的信息時代,面對浩如煙海的各類教育數(shù)據(jù),若不能有效地加以利用,就會降低對數(shù)據(jù)的使用效益并使各級教育機(jī)構(gòu)的管理和決策尤為困難。同時,隨著教育改革的逐步深入和高等教育的國際化,高校面臨著質(zhì)量評估、績效考核、社會問責(zé)、大學(xué)排名等現(xiàn)實問題,如何有效地管理海量的教育數(shù)據(jù),并從這些數(shù)據(jù)中獲取有用的信息,調(diào)整教育教學(xué)策略,提升教育教學(xué)質(zhì)量和管理效益,是高校教育管理與深入發(fā)展的重要研究課題。

為此,對現(xiàn)代大學(xué)管理如何有效利用數(shù)據(jù)以提升高校管理效益進(jìn)行了思考,探討了商業(yè)智能技術(shù)在高校管理中的應(yīng)用情況,并從體系架構(gòu)、數(shù)據(jù)挖掘技術(shù)在大學(xué)生學(xué)習(xí)成果預(yù)測評價應(yīng)用案例等方面進(jìn)行分析。由于高校數(shù)據(jù)來源的異構(gòu)與多樣化、數(shù)據(jù)管理機(jī)制缺乏等,使得商業(yè)智能技術(shù)在高校教育管理中全面地展開深層次應(yīng)用,還有很長的路要走。

參考文獻(xiàn):

[1]國家中長期教育改革和發(fā)展規(guī)劃綱要工作小組辦公室.國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)[N].中國教育報,2010-07-30(1-3).

[2]熊才平,何向陽,吳瑞華.論信息技術(shù)對教育發(fā)展的革命性影響[J].教育研究,2012(6):22-29.

[3]John F.Gantz et al..The Diverse and Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth through 2011[EB/OL].Framingham, MA: IDC, 2008.http:///collateral/analyst-reports/diverse-exploding-digital-universe.pdf.

[4]常桐善.構(gòu)建院校智能體系:院校研究發(fā)展的新趨勢[J].高等教育研究,2009(10):49-54.

[5]屈瓊斐.信息管理與中國大學(xué)院校研究的實踐環(huán)境分析[J].高等教育研究,2010(11):69-72.

[6]V.Farrokhi, L.Pokorádi.The necessities for building a model to evaluate Business Intelligence projects Literature Review [J].International Journal of Computer Science & Engineering Survey (IJCSES),2012(2):1-10.

[7]Dave Wells.Institutional Intelligence: Applying business intelligence principles to higher education[EB/OL].Campus Technology, 2007.http://campus / articles /2007/04/institutional-intelligence.aspx.

[8]S.ElAtia, D.Ipperciel, A.Hammad.Implications and Challenges to Using Data Mining in Educational Research in the Canadian Context [J].Canadian Journal of Education, 2012(2): 101-119.

第5篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞:人工智能;案例式教學(xué);興趣引導(dǎo)教學(xué)法;問題驅(qū)動教學(xué)法

中圖分類號: TP309 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)03-0599-02

人工智能是一門研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的綜合性技術(shù)學(xué)科[1],是計算機(jī)科學(xué)、控制論、信息論、神經(jīng)生理學(xué)、心理學(xué)、語言學(xué)等多種學(xué)科互相滲透、迅速發(fā)展且與人類生活密切相關(guān)的綜合性新學(xué)科,其核心研究領(lǐng)域包括模式識別、自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)等等[2]。

語言信息處理是語言學(xué)與計算機(jī)科學(xué)交叉形成的一門新型學(xué)科,其課程體系以語言學(xué)、計算機(jī)應(yīng)用、應(yīng)用數(shù)學(xué)和認(rèn)知科學(xué)為主干,研究內(nèi)容是自然語言的自動化信息處理技術(shù),是人類語言活動中信息成分的發(fā)現(xiàn)、提取、存儲、加工與傳輸[3]。目前該方向的主要應(yīng)用領(lǐng)域包括機(jī)器翻譯、文獻(xiàn)檢索、信息提取、自然語言的人機(jī)接口等。由此可見,為語言信息處理專業(yè)開設(shè)人工智能課程是必須的。該文針對“人工智能”課程自身特點(diǎn)和語言信息處理專業(yè)研究生培養(yǎng)目標(biāo),并結(jié)合筆者多年來的教學(xué)經(jīng)驗,分別從課程內(nèi)容設(shè)定、教材選擇、教學(xué)方法、考核方式等多個方面對該課程的教學(xué)改革進(jìn)行了探索與研究。

1 以“精”“典”為基本要求的教學(xué)內(nèi)容選擇

“人工智能”課程的突出特點(diǎn)研究內(nèi)容涉及面廣而學(xué)時數(shù)較短(大部分高校的研究生專業(yè)安排的課程的時數(shù)在36到48學(xué)時之間)。因而授課時不能追求內(nèi)容“大而全”,必須“精”,選擇重點(diǎn)、核心基礎(chǔ)知識進(jìn)行學(xué)習(xí),選擇與專業(yè)方向最相關(guān)的“典”型應(yīng)用領(lǐng)域進(jìn)行重點(diǎn)詳細(xì)介紹,使學(xué)生在有限的時間內(nèi)學(xué)到最有用的知識。“人工智能”課程教學(xué)內(nèi)容總體可以分為三大部分。

第一部分是基礎(chǔ)理論知識,學(xué)習(xí)人工智能中知識的表示方式(謂詞邏輯表示法、產(chǎn)生式知識表示法、框架表示法、語義網(wǎng)絡(luò)表示法等)。語言信息處理專業(yè)學(xué)生本科專業(yè)背景不同(有文科,有理工科),所以該部分教學(xué)內(nèi)容難點(diǎn)在于教學(xué)進(jìn)度和難易程度的均衡。本部分內(nèi)容可安排8~10學(xué)時。

第二部分是搜索與推理,對使用特定知識表示方式表達(dá)的知識和問題進(jìn)行推導(dǎo)或搜索,得出相應(yīng)結(jié)論或搜索結(jié)果。本部分安排10~12學(xué)時,重點(diǎn)在于啟發(fā)式搜索。

第三部分是人工智能中的典型應(yīng)用領(lǐng)域。對于該部分內(nèi)容的選擇要以學(xué)生專業(yè)為中心進(jìn)行,選擇與學(xué)生專業(yè)相關(guān)性較大的領(lǐng)域進(jìn)行教學(xué),以期能夠有助于學(xué)生了解并掌握學(xué)術(shù)的主流發(fā)展趨勢,從而能夠更好地培養(yǎng)自身的科學(xué)素養(yǎng)和創(chuàng)新能力。本部分主要學(xué)習(xí)機(jī)器翻譯、機(jī)器學(xué)習(xí)、自然語言處理、數(shù)據(jù)挖掘、多Agent系統(tǒng)等。本部分安排18~36學(xué)時。

2 選擇“最合適”的教材

教材是教師教和學(xué)生學(xué)的主要憑借,教材的好壞在很大程度上決定了教師能否成功“教”與學(xué)生能否順利“學(xué)”。教材的選擇要以教學(xué)對象的特點(diǎn)和教學(xué)目標(biāo)為依據(jù),選擇最合適的教材。在廣泛研讀目前比較熱門的人工智能教材的基礎(chǔ)上,結(jié)合教學(xué)目標(biāo)和教學(xué)對象的特點(diǎn),選則清華大學(xué)出版社出版﹑蔡自興和徐光祐編著的《人工智能及其應(yīng)用》(第4版)[1]作為教材。該教材總體也可以分為三部分:第一部分論述了人工智能的三大技術(shù), 即知識表示;第二部分論述推理及搜索; 第三部分論述人工智能的主要應(yīng)用領(lǐng)域,包括專家系統(tǒng)、機(jī)器學(xué)習(xí)、自動規(guī)劃、分布式人工智能和自然語言理解等。與第三版本科生用書相比,增加了如本體論和非經(jīng)典推理、決策樹學(xué)習(xí)和增強(qiáng)學(xué)習(xí)、詞法分析和語料庫語言學(xué)等(非常適合筆者的教學(xué)對象)。

3 創(chuàng)新型人工智能課程教學(xué)方法

“人工智能”課程涉及的知識面廣,既包括基礎(chǔ)理論,也包括具體應(yīng)用,即有抽象復(fù)雜的計算,也有繁雜的系統(tǒng)實現(xiàn),為此,如何激發(fā)學(xué)生的學(xué)習(xí)興趣并保持學(xué)生的學(xué)習(xí)興趣是本課程教學(xué)的關(guān)鍵。此外,因為是研究生教學(xué),所以更突出學(xué)生的主體地位,注重培養(yǎng)學(xué)生的學(xué)習(xí)興趣、自主學(xué)習(xí)的意識和能力。為此,筆者主要采用了以下幾種教學(xué)方法。

3.1 興趣引導(dǎo)教學(xué)法

常言“興趣是最好的老師”,如何培養(yǎng)學(xué)生對本門課程的學(xué)習(xí)興趣,激發(fā)學(xué)生對本門課程的求知欲,是一門課程首要任務(wù)。

為了提高學(xué)生的學(xué)習(xí)興趣,筆者在第一節(jié)課讓學(xué)生觀看美國科幻電影“機(jī)器人”的相關(guān)片斷,通過機(jī)器人安德魯非凡的創(chuàng)造能力、情感表達(dá)能力和自學(xué)習(xí)能力讓學(xué)生更好地了解人工智能的目標(biāo)、意義,激發(fā)學(xué)生探索人工智能的興趣;在學(xué)習(xí)“博弈策略”及“極大極小分析法”時,筆者通過讓學(xué)生來參與“一字棋”對決游戲說明博弈樹的層次結(jié)構(gòu)原理,通過“人機(jī)對弈”說明“α-β剪枝技術(shù)”引入的必要性;通過“啤酒與尿布”的故事說明數(shù)據(jù)挖掘技術(shù)在現(xiàn)實生活中的應(yīng)用,讓學(xué)生認(rèn)識到人工智能并不是虛無抽象的學(xué)科,而與人們的生活息息相關(guān),激發(fā)起學(xué)生用人工智能相關(guān)技術(shù)解決現(xiàn)實問題的興趣。

3.2 問題驅(qū)動教學(xué)法

在講授基礎(chǔ)理論時,如“不確定性推理”、“數(shù)據(jù)挖掘”等這一類型內(nèi)容抽象、算法復(fù)雜的知識時,采用了問題驅(qū)動式的教學(xué)方法。

教師首先提出與內(nèi)容相關(guān)的若干問題,并為學(xué)生相關(guān)的資料或向?qū)W生提供找到問題的一些線索,讓學(xué)生帶著問題去思考、分析和討論等方式來查找答案,主動獲取知識,應(yīng)用知識,教師在必須的時候還需給予一定的引導(dǎo)和幫助。如在講授產(chǎn)生式知識表示法時,以“動物識別系統(tǒng)”問題原型,給出學(xué)生系統(tǒng)模型,讓學(xué)生編寫一個能夠用來進(jìn)行動物識別的應(yīng)用程序。

此教學(xué)法很好地培養(yǎng)學(xué)生解決問題的能力,形成研究的態(tài)度,提高認(rèn)知能力。

3.3 實踐教學(xué)法

“實踐是檢驗真理的唯一標(biāo)準(zhǔn)”。人工智能課程中,能夠動手實踐的知識一定要讓實踐。

在講“專家系統(tǒng)”的構(gòu)造步驟時,用“營養(yǎng)專家系統(tǒng)”為案例進(jìn)行介紹,將該專家系統(tǒng)分解為一個個小的具體任務(wù)(如知識庫構(gòu)建、規(guī)則庫的構(gòu)建、界面設(shè)計等),并分配給不同的學(xué)生,學(xué)生按照專家系統(tǒng)的一般構(gòu)造步驟去完成相應(yīng)的任務(wù),最終完成一個完善的系統(tǒng),從而達(dá)到掌握專家系統(tǒng)構(gòu)建的教學(xué)目標(biāo)。

實踐教學(xué)法可以提高學(xué)生分析、解決問題的能力和動手能力,并可以進(jìn)一步加深對理論知識的理解。

3.4 案例教學(xué)法

案例教學(xué)法是將案例討論的方法運(yùn)用到課堂教學(xué)活動中去,教師根據(jù)課堂教學(xué)目標(biāo)和教學(xué)內(nèi)容的需要,通過設(shè)置一個具體的案例,引導(dǎo)學(xué)生參與分析、討論、表達(dá)等活動,讓學(xué)生在具體問題情境中積極思考、主動探索,以提高教與學(xué)的質(zhì)量和效果,培養(yǎng)學(xué)生認(rèn)識問題、分析問題和解決問題等綜合能力的一種教學(xué)方法[4]。案例教學(xué)法中教師扮演設(shè)計者和激勵者的角色,鼓勵學(xué)生積極參與典型案例的討論,重點(diǎn)掌握教學(xué)進(jìn)程,引導(dǎo)學(xué)生思考,組織討論研究,進(jìn)行總結(jié)、歸納,同時教師也參與到學(xué)生共同研討。不但可以發(fā)現(xiàn)自己的不足,也可以從學(xué)生那里可以了解到大量感性資料。該教學(xué)法有利于調(diào)動學(xué)生學(xué)習(xí)主動性,通過生動具體的案例介紹可以促進(jìn)學(xué)生對知識的理解和實際應(yīng)用。

人工智能授課中,對于產(chǎn)生式系統(tǒng)和自然語言理解系統(tǒng)的有關(guān)概念及系統(tǒng)構(gòu)成技術(shù),采用了案例教學(xué)法。

在介紹產(chǎn)生式系統(tǒng)時,我們以動物識別系統(tǒng)為案例進(jìn)行介紹。案例教學(xué)通??梢苑譃?個步驟,即案例引入、案例分析和案例總結(jié)。案例引入過程介紹產(chǎn)生式的語法和語義、產(chǎn)生式系統(tǒng)的組成及工作原理后,通過屏幕演示動物識別系統(tǒng)的運(yùn)行過程使得學(xué)生能夠獲得老虎、金錢豹、斑馬、長頸鹿、鴕鳥、企鵝、信天翁七種動物的一些特征;案例分析階段通過向?qū)W生展示使用Prolog編寫的動物識別系統(tǒng)源程序,詳細(xì)介紹設(shè)計思想以及實現(xiàn)過程。該過程是案例教學(xué)的關(guān)鍵,教師引導(dǎo)學(xué)生進(jìn)行案例分析,之后由學(xué)生進(jìn)行補(bǔ)充,師生共同討論力求系統(tǒng)得以更完善;案例總結(jié)階段由老師對學(xué)生的討論情況進(jìn)行總結(jié),在總結(jié)討論情況的基礎(chǔ)上提出一些問題(例如如何進(jìn)一步提高系統(tǒng)的效率?)。

在介紹自然語言理解系統(tǒng)時,以自然語言情報檢索系統(tǒng)LUNAR[5]為例進(jìn)行介紹。從LUNAR系統(tǒng)的詞法分析、語義解釋和問題回答三個階段進(jìn)行詳細(xì)分析。經(jīng)過案例引入、案例分析和案例總結(jié)三個階段,使得學(xué)生對LUNAR系統(tǒng)的設(shè)計步驟、關(guān)鍵技術(shù)及設(shè)計思路有深入的了解。之后,要求學(xué)生寫出案例分析書面過程,并完成課后作業(yè)“指揮機(jī)器人的自然語言理解系統(tǒng)SHRDLU”。

4 課程考核方式的改革

研究生教育以培養(yǎng)學(xué)生的能力和素質(zhì)為主要目標(biāo)。人工智能課程的考核方式也以此為目標(biāo),采用以考察理解應(yīng)用為目的的論述題,或結(jié)課論文形式進(jìn)行,同時注重平時考核。平時考核以學(xué)生查資料的能力、閱讀相關(guān)文獻(xiàn)即完成課后作業(yè)的情況為考核對象。

5 結(jié)束語

為了提高人工智能課的教學(xué)質(zhì)量,根據(jù)課程及教學(xué)對象的特點(diǎn),結(jié)合教學(xué)過程實際問題,采用了合適的教材,安排了合適的學(xué)時,在教學(xué)過程中綜合各種教學(xué)方法的優(yōu)點(diǎn),并采用了適當(dāng)?shù)目己朔绞健=虒W(xué)結(jié)果表明,通過這些嘗試,提高學(xué)生學(xué)習(xí)的興趣和積極性,取得較好的教學(xué)效果,學(xué)生能夠有意識地使用人工智能中的相關(guān)知識、思想來進(jìn)行學(xué)術(shù)研究。

參考文獻(xiàn):

[1] 蔡自興,徐光祐.人工智能及其應(yīng)用——研究生用書[M]. 第3 版. 北京:清華大學(xué)出版社,2004.

[2] 廉師友.人工智能技術(shù)導(dǎo)論[M].西安:電子科技大學(xué)出版社, 2002.

第6篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞:通話行為;數(shù)據(jù)挖掘;模糊聚類;模糊C均值(FCM)聚類

中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)14-20926-03

1 引言

近年來電信事業(yè)蓬勃發(fā)展,隨著市場競爭的充分展開和電信資費(fèi)的不斷下降,對于客戶的消費(fèi)行為分析顯得越來越重要。對用戶呼叫行為進(jìn)行有效分析和辨識,是對客戶分群及市場細(xì)分的必要手段。本研究希望能應(yīng)用模糊數(shù)學(xué)理論和數(shù)據(jù)挖掘領(lǐng)域中的聚類技術(shù),對客戶呼叫行為進(jìn)行分析,為電信市場細(xì)分和營銷策略計劃的制訂提供有效工具。

要分析電信用戶的呼叫行為,需要從用戶通話記錄中找出使用電話多和少,或是電信消費(fèi)高和低的用戶分群。本研究采用模糊集理論[4]作為技術(shù)基礎(chǔ),只關(guān)心如何能夠從用戶的通話記錄中剖析出有意義的信息,尚有其他許多種分類方法不在我們討論范圍之內(nèi)。某些通話行為特別怪異的電信用戶,需要在后續(xù)研究中加以調(diào)整改進(jìn)其分類。

2 相關(guān)研究

在本章節(jié)中,我們將針對本論文研究范圍的相關(guān)領(lǐng)域進(jìn)行探討,第一部分為聚類技術(shù)介紹;第二部分為本文采用的模糊C均值(FCM)聚類算法的原理介紹。

2.1 模糊聚類技術(shù)(Fuzzy Clustering)

2.1.1 聚類分析的基本概念

聚類就是將數(shù)據(jù)對象分組成多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大[1] 。聚類與分類不同,前者是一種無指導(dǎo)的學(xué)習(xí),而后者是一種有指導(dǎo)的學(xué)習(xí)。在分類時對于目標(biāo)數(shù)據(jù)中存在哪些類,事先已知,只需將每個數(shù)據(jù)點(diǎn)屬于哪一個類識別出來;而聚類事先未知有多少類,以某種度量為標(biāo)準(zhǔn),將具有相似特征的數(shù)據(jù)對象劃分為一類,同時分離具有不同特征的數(shù)據(jù)對象。聚類需要考察所有的個體才能決定類的劃分,并由算法自動確定。

大多數(shù)對象沒有嚴(yán)格的屬性,他們在性態(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進(jìn)行軟化分。模糊集理論的提出為這種軟劃分提供了有力的分析工具,即模糊聚類分析。

2.1.2 聚類分析的分類

從實現(xiàn)方法上分,模糊聚類分析方法可大致分為四種類型:譜系聚類法、基于等價關(guān)系的聚類方法、圖論聚類法和基于目標(biāo)函數(shù)的聚類方法等。前三種方法不適用于大數(shù)據(jù)量的情況,難以滿足實時性要求較高的場合,因此在實際中應(yīng)用并不廣泛。受到普遍歡迎的是第四種方法――基于目標(biāo)函數(shù)的聚類方法,該方法把聚類分析歸結(jié)成一個帶約束的非線性規(guī)劃問題,通過優(yōu)化求解獲得數(shù)據(jù)集的最有模糊劃分和聚類。設(shè)計簡單、解決問題的范圍廣,還可以轉(zhuǎn)化為優(yōu)化問題而借助經(jīng)典數(shù)學(xué)的非線性規(guī)劃理論求解,易于計算機(jī)實現(xiàn)。因此,基于目標(biāo)函數(shù)的模糊聚類算法成為新的研究熱點(diǎn)。

2.2 模糊C均值(Fuzzy C-Means,FCM)聚類算法

模糊C均值(FCM)聚類算法首先由Dunn于1974年提出,并由Bezdek于1981年改進(jìn)。這種算法能自動對數(shù)據(jù)對象進(jìn)行分類并求出聚類中心和每個數(shù)據(jù)點(diǎn)的隸屬度,使得非相似性指標(biāo)的目標(biāo)函數(shù)達(dá)到最小,從而決定每個數(shù)據(jù)點(diǎn)的歸屬。

初始化:給定聚類類別數(shù)c,2≤c≤n,n是數(shù)據(jù)個數(shù),設(shè)定迭代停止閾值ε,指定加權(quán)指數(shù)m;用值在[0,1]區(qū)間的隨機(jī)數(shù)初始化隸屬矩陣U,使其滿足約束條件式(1);

步驟一:計算c個聚類中心ci,i=1,…,c;

步驟二:計算目標(biāo)函數(shù)式(2)。如果J小于ε,或相對于上一次J值的改變量小于ε,則停止;

步驟三:重新計算隸屬矩陣U,返回步驟一。

整個計算過程就是反復(fù)修改聚類中心和分類矩陣的過程。該算法的收斂性已經(jīng)得以證明[3]:FCM算法能從任意給定初始點(diǎn)開始沿一個迭代子序列收斂到其目標(biāo)函數(shù)Jm(U,P)的局部極小點(diǎn)或鞍點(diǎn)。

2.2.2 聚類有效性控制

利用Matlab 2006a提供的模糊邏輯工具箱(Fuzzy Logic Toolbox)中的fcm函數(shù)對通話記錄進(jìn)行聚類,只需要輸入一個初始變量,即分類數(shù)c,就可以很快得出結(jié)果。但是,關(guān)于初始變量c的給定,不同的c值,會產(chǎn)生不同的聚類結(jié)果;即使是同一c值,有時也會產(chǎn)生不同聚類結(jié)果。這是由于算法結(jié)果一般地依賴于初始值,而初始值的給定在計算過程中是隨機(jī)的,有時候會不可避免地陷入局部最優(yōu)而非達(dá)到全局最優(yōu),關(guān)于這方面的研究,可以參考文獻(xiàn)[2]。聚類有效性問題一般通過建立有效性函數(shù)來解決。這種函數(shù)用于衡量聚類的緊密度和分離度,以此來判定聚類的有效性。

其中,n為樣本數(shù),中的下標(biāo)表示FCM算法中的加權(quán)指數(shù)為2,dij表示樣本i與第j類聚類中心的距離。XIE-BENI指標(biāo)可以解釋為(U,V)的總方差與V的分離性指標(biāo)的比值。分類效果好時,各類中心間的距離應(yīng)該最大,即分離性指標(biāo)比較大。由此當(dāng)對應(yīng)最佳類數(shù)n*時,應(yīng)該最小。

根據(jù)函數(shù)確定最佳類數(shù)n*的步驟如下:

(1) 給定c的范圍是。這是根據(jù)很多研究者的使用經(jīng)驗和一些理論依據(jù)給出的;

(2) 計算當(dāng)2≤c≤時每個整數(shù)c所對應(yīng)的V值;

(3) 比較各V的值,取V最小時所對應(yīng)的c值即為所求。

3 研究設(shè)計

3.1 分析數(shù)據(jù)構(gòu)成

對電信用戶通話行為進(jìn)行分析,可以利用大量的通話清單記錄經(jīng)過整理出分析特征維度,采用FCM聚類進(jìn)行分析。分析特征的選擇確定工作可以由專家憑經(jīng)驗完成,也可以由散布矩陣跡、J-M(Jeffries-Matusita)距離和變換散度等參量為類別可分性準(zhǔn)則的最佳特征子集的選取方法[2]。一般情況下特征數(shù)目多了會產(chǎn)生維數(shù)災(zāi)難,但太少的特征將反映不出分析模式的總體信息。為便于實施,本研究采用專家選定的方式確定分析特征。

本文采用的聚類數(shù)據(jù)是隨機(jī)選擇了某地電信2006年6月至8月三個月共120個電話的通話特征數(shù)據(jù),考慮到客戶的隱私權(quán),將客戶的姓名及電話號碼略去,賦以識別號ID代之。

這是一個六維的高維度數(shù)據(jù)空間(客戶識別號ID非分析特征,不列為分析維度),特征屬性分別為長途呼叫總次數(shù)、長途呼叫不同被叫號碼個數(shù)、長途平均單次呼叫時長、市話呼叫總次數(shù)、市話被叫次數(shù)以及市話被叫不同主叫號碼數(shù),如表1所示:

3.2 程序及結(jié)果

本文使用Matlab 2006a版中的矩陣運(yùn)算判定聚類有效性,并用FCM函數(shù)對以上數(shù)據(jù)進(jìn)行聚類,部分源代碼如下:

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

運(yùn)算后得到以下結(jié)果:

對聚類有效性函數(shù)式(3),確定類數(shù)c。

一般地,取m=2,分母權(quán)值均為1,當(dāng)類數(shù)2≤c≤10時,有效性函數(shù)V取得如下結(jié)果:c=4,V=3765.7414。

可以確定,當(dāng)c=4時V取得最小值,因此可分為4類,聚類中心矩陣為:

聚類結(jié)果投影在維度“市話呼叫總次數(shù)”、“市話被叫總次數(shù)”上 的示意圖如圖1。

聚類中心點(diǎn)在各維的取值表征了該類的特征,因此客戶分類如表2所示。

3.3 簡單的模式識別

聚類完成后,可以用以下方法進(jìn)行模式識別驗證:

(1) 按與中心距離的識別

算出聚類中心center后,新樣本可根據(jù)距離判定屬于哪一類,對于一個新樣本xk,如果,則xk屬于cj類。

(2) 按最大隸屬度原則來識別

如果,則xk屬于cj類。

由前面程序輸出可以得到隸屬度矩陣U,U為一個4×120的矩陣,表示120個樣本的在四類的隸屬度。

由于樣本數(shù)較多,截取一段結(jié)果圖示如圖2:

可以看到,矩陣U每一列之和為1,即是每一樣本的各類隸屬度之和為1。取每一列的最大值,最大值在第幾行,該樣本就屬于第幾種類型。

在此簡單抽取兩個樣本查看確認(rèn)分類是否正確,如樣本:

樣本16屬于第一類“主叫活躍,被叫少”,而樣本89屬于第二類“主叫不活躍,被叫活躍”。經(jīng)過查核某地電信IBSS系統(tǒng)及計費(fèi)帳務(wù)系統(tǒng),樣本16登記的屬性為“個體商鋪”;樣本89登記的屬性為“住宅”。客戶屬性的使用習(xí)慣與聚類結(jié)果相符。

4 結(jié)束語

電信用戶呼叫行為分析中聚類分析是一個新的研究領(lǐng)域,與之相似的研究可以追溯到市場營銷中的市場細(xì)分,市場細(xì)分與客戶聚類功能相同,都是將產(chǎn)品或服務(wù)的銷售對象進(jìn)行分類。但兩者是有區(qū)別的,市場細(xì)分的分析數(shù)據(jù)來自企業(yè)外部,比如消費(fèi)者的人口特征、區(qū)域特征、行業(yè)性質(zhì)等等,用的只是一種“普遍適用”的策略,很難真正做到個性化服務(wù)。而客戶通話行為聚類分析的數(shù)據(jù)源自于企業(yè)內(nèi)部掌握的通話記錄,根據(jù)客戶本身的使用行為、消費(fèi)傾向,保證每個客戶的消費(fèi)行為的連續(xù)性與一致性,有利于對現(xiàn)有客戶進(jìn)行管理,如發(fā)現(xiàn)優(yōu)質(zhì)客戶,對不良客戶進(jìn)行預(yù)警等。因此,對企業(yè)有很重要的意義。

應(yīng)用模糊C均值聚類算法得到比較滿意的客戶聚類結(jié)果,主要體現(xiàn)在:區(qū)分出了優(yōu)質(zhì)客戶和普通客戶;找到了每一類客戶的特征。本文提出用FCM算法作為客戶通話行為(消費(fèi)行為)聚類的方法,為企業(yè)提供分析的量化依據(jù)。

參考文獻(xiàn):

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚類分析及其應(yīng)用. 西安:西安電子科技大學(xué)出版社,2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.

第7篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞:大數(shù)據(jù):信息安全;個人信息保護(hù)

一、引言

當(dāng)人們歡呼大數(shù)據(jù)時代降臨時,棱鏡門事件就如平地驚雷,炸響了人們對個人信息保護(hù)的重視。然而,與國外相比,我國的個人信息保護(hù)工作仍停滯不前,行政單位缺乏監(jiān)管,過度收集個人信息:企業(yè)自律性不足,任意獲取公民信息,滿足商業(yè)目的:而普通公民則缺乏個人信息保護(hù)意識,變成了“透明人”。隨著這些問題的日益突出,大數(shù)據(jù)時代的個人信息保護(hù)研究顯得愈發(fā)重要。

二、大數(shù)據(jù)時代個人信息保護(hù)研究的主要內(nèi)容

本文以CNKI中的相關(guān)文獻(xiàn)為基礎(chǔ),從個人信息安全風(fēng)險、個人信息保護(hù)立法、監(jiān)管以及個人隱私保護(hù)四個方面介紹個人信息保護(hù)的主要研究成果。

(一)大數(shù)據(jù)時代個人信息安全的風(fēng)險研究

大數(shù)據(jù)技術(shù)的快速發(fā)展給個人信息安全增加風(fēng)險,但隨著更多研究者的推進(jìn),風(fēng)險也給個人信息安全保護(hù)帶來了機(jī)遇。本文從法律、監(jiān)管、技術(shù)三方面進(jìn)行風(fēng)險研究,探尋保護(hù)個人信息的有效方法。

法律風(fēng)險方面,史為民從立法的角度分析了個人信息安全風(fēng)險,提議出臺具有權(quán)威性的相關(guān)法律。張毅菁則希望政府借鑒他國經(jīng)驗,引入域外立法機(jī)制,構(gòu)建適應(yīng)我國國情的立法模式。

監(jiān)管風(fēng)險方面,我國相關(guān)研究者普遍認(rèn)為我國行政機(jī)構(gòu)職權(quán)不夠細(xì)化,缺乏明確的監(jiān)管體系。王麗萍等人提出行業(yè)自律問題,認(rèn)為企事業(yè)單位缺乏自制力,容易侵犯公民個人權(quán)益。

技術(shù)風(fēng)險方面,李睿等人以信息抓取和數(shù)據(jù)分析技術(shù)為著力點(diǎn)分析相關(guān)的技術(shù)風(fēng)險。另外,也有學(xué)者分析了用戶搜索行為,并從網(wǎng)絡(luò)與現(xiàn)實兩方面闡述個人信息安全受到的影響。

現(xiàn)階段的風(fēng)險研究雖取得一定成果,但本層面的討論還需進(jìn)一步發(fā)展,立法方面,我國還需借鑒域外模式,形成一套適應(yīng)時代的立法體系:監(jiān)管機(jī)制方面還要調(diào)到政府、行業(yè)、公民一體化:技術(shù)方面需重點(diǎn)開發(fā)最新防御技術(shù)。

(二)大數(shù)據(jù)時代個人信息保護(hù)的立法研究

針對國內(nèi)外發(fā)生的隱私泄漏事件,公民對個人隱私權(quán)愈發(fā)重視,然而相關(guān)法律至今未完善。針對現(xiàn)實情況,眾多學(xué)者將研究重點(diǎn)投入到立法研究上,分為:法律研究與權(quán)利研究。

通過回顧,童園園等人認(rèn)為應(yīng)從刑法的角度完善個人信息保護(hù)法律條款,為個人信息保護(hù)提供制度背景。侯富強(qiáng)則提議將“歐美模式”與我國國情相結(jié)合,制定統(tǒng)一立法。

權(quán)利研究主要集中在兩方面:一是隱私權(quán)研究:二是主體權(quán)利研究。連志英等人強(qiáng)調(diào)了隱私權(quán)對我國個人信息保護(hù)立法的重要意義。在主體權(quán)利方面,侯富強(qiáng)提出個人信息保護(hù)法的立法目的在于保護(hù)信息主體的權(quán)利。

立法研究一直是個人信息保護(hù)研究的主要方向,但現(xiàn)有研究明顯底氣不足。為了本領(lǐng)域的更好發(fā)展,未來的的研究方向應(yīng)集中在立法體系的建立,法律內(nèi)容的細(xì)化,吸收發(fā)達(dá)國家經(jīng)驗,形成成熟的立法機(jī)制。

(三)大數(shù)據(jù)時代個人信息保護(hù)的監(jiān)管研究

大數(shù)據(jù)的飛速發(fā)展帶來經(jīng)濟(jì)利益,但隨之而來的也有信息安全問題。為解決該項問題,本領(lǐng)域研究者提出了一套政府、企業(yè)、公民相結(jié)合的個人信息保護(hù)監(jiān)管體系,根據(jù)主體不同,分為行政監(jiān)管、行業(yè)自律與公共監(jiān)督。

從行政監(jiān)管效果來看,李慶峰等人列舉了行政監(jiān)管體系的不足之處,提議整合相關(guān)部門,明確責(zé)權(quán)。張毅菁則重點(diǎn)分析政府過度監(jiān)管行為產(chǎn)生的不利影響,呼吁政府加強(qiáng)自我管理,強(qiáng)化法律意識。

在行政監(jiān)管體系研究后,行業(yè)自律受到關(guān)注。侯富強(qiáng)一方面肯定行業(yè)協(xié)會的積極作用,另一方面要求加大企業(yè)監(jiān)管力度。史為民則分析了行業(yè)自律的局限性,提出改善措施,促進(jìn)行業(yè)對個人信息的保護(hù)。

在公共監(jiān)督研究方面,劉雅琦等人認(rèn)為一個完善的監(jiān)督機(jī)制除了行政監(jiān)管與行業(yè)自律,還需公眾的監(jiān)督,只有三者相互配合,才能更好地發(fā)揮監(jiān)管體系的作用,保護(hù)好公民的個人信息安全。

雖然監(jiān)管體系發(fā)揮了一定保護(hù)作用,但也存在局限性:監(jiān)管機(jī)構(gòu)職權(quán)不定、行業(yè)主體自律不足、公民保護(hù)意識不強(qiáng)等。為此,政府應(yīng)加大作為,運(yùn)用行政手段和法律手段,嚴(yán)厲打擊泄漏個人信息行為。

(四)個人隱私保護(hù)研究

隨著近幾年個人隱私侵犯現(xiàn)象加劇,個人隱私保護(hù)開始受到高度關(guān)注,與個人信息保護(hù)研究相比,隱私保護(hù)研究在法律、監(jiān)管、技術(shù)層面具有一些新內(nèi)容。

法律研究的目的是為個人隱私保護(hù)提供制度依據(jù),維護(hù)公民的隱私與尊嚴(yán)。例如李睿分析了個人隱私泄漏問題,為個人隱私保護(hù)提供法律指導(dǎo)。童圓圓呼吁社會加強(qiáng)對個人隱私權(quán)的重視,并提出幾項保護(hù)個人隱私安全的建議。

監(jiān)管研究將個人隱私保護(hù)置于監(jiān)管體系內(nèi),降低高額的社會執(zhí)法成本。李慶峰認(rèn)為公民自身可加強(qiáng)對企業(yè)的監(jiān)督,保護(hù)網(wǎng)絡(luò)隱私。王麗萍等人則將目光重點(diǎn)投向行業(yè)自律上。

技術(shù)研究是隱私保護(hù)研究的重點(diǎn)。劉曉霞提議將加密、匿名技術(shù)與隱私保護(hù)規(guī)則相結(jié)合保護(hù)用戶個人隱私。連志英則提出加大安全技術(shù)開發(fā)與資金投入,依仗安全技術(shù)應(yīng)對高級持續(xù)的技術(shù)攻擊。

個人隱私保護(hù)主要從法律、監(jiān)管、技術(shù)三大方向進(jìn)行研究。法律方向,提出隱私權(quán)與被遺忘權(quán):監(jiān)管方向,強(qiáng)調(diào)了對網(wǎng)絡(luò)隱私的監(jiān)管:在技術(shù)方向,提出開發(fā)加密技術(shù)與匿名技術(shù),這反映了公民對個人隱私的重視。

三、大數(shù)據(jù)時代個人信息保護(hù)研究展望

大數(shù)據(jù)時代的個人信息保護(hù)研究在理論與應(yīng)用方面都取得了一定成果,但仍存在較多問題,本文擬從公共監(jiān)管、域外立法模式、隱私權(quán)方面做進(jìn)一步討論。

(一)公共監(jiān)管研究

當(dāng)審視現(xiàn)行監(jiān)管機(jī)制時,不難發(fā)現(xiàn)政府占據(jù)主導(dǎo)地位,若政府監(jiān)管不力,將導(dǎo)致整個監(jiān)管體系崩盤。為此,政府應(yīng)發(fā)揮公民個人作用,將個人信息保護(hù)責(zé)任承擔(dān)給每一位公民,形成公共監(jiān)管模式。

(二)域外立法模式研究

通過對現(xiàn)有法律的分析,我國個人信息保護(hù)立法還在發(fā)展階段。因此,國內(nèi)相關(guān)學(xué)者一方面提出完善法律體系,出臺專門的個人信息保護(hù)法,另一方面大力研究國外個人信息保護(hù)立法體系,吸收具有可行性的立法方案。

(三)加大隱私權(quán)研究

對于隱私權(quán)的探討,我國一直處于緩慢階段。例如:缺乏系統(tǒng)性的司法解釋、政府內(nèi)部監(jiān)管存在漏洞、行業(yè)自律性差、數(shù)據(jù)挖掘技術(shù)存在爭議等。為此,加大隱私權(quán)研究仍是今后的主要任務(wù)。

第8篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

本課題的研究目的是改變普遍存在于計算機(jī)基礎(chǔ)課程傳統(tǒng)教學(xué)中,學(xué)生單一接收、被動接受的學(xué)習(xí)方式,使學(xué)生親歷知識產(chǎn)生與形成的過程,追求“知識”發(fā)現(xiàn)、“方法”習(xí)得與“態(tài)度”形成的有機(jī)結(jié)合與高度統(tǒng)一。

(一)計算機(jī)基礎(chǔ)課程的現(xiàn)狀

我校從1979年就開設(shè)了算法語言課。在計算機(jī)技術(shù)飛速發(fā)展的情況下,計算機(jī)課程的內(nèi)容也在不斷擴(kuò)充。伴隨著計算機(jī)文化的形成,授課內(nèi)容涵蓋了數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫和操作系統(tǒng)等基礎(chǔ)學(xué)科領(lǐng)域。目前開設(shè)的計算機(jī)基礎(chǔ)課程主要有《C程序設(shè)計》《計算機(jī)軟件技術(shù)基礎(chǔ)》等,講授程序設(shè)計語言和計算機(jī)基礎(chǔ)知識,使學(xué)生掌握用計算機(jī)解決實際問題的能力。目前的計算機(jī)基礎(chǔ)課程大多采用傳統(tǒng)教學(xué)模式,完成教學(xué)內(nèi)容是課堂的首要教學(xué)任務(wù),教師的講授代替了學(xué)生主體活動,教師的認(rèn)知結(jié)果代替了學(xué)生認(rèn)知結(jié)果。在課堂上進(jìn)行大量的講授和習(xí)題訓(xùn)練,很少開展研究性學(xué)習(xí)。目前國內(nèi)也已開展相關(guān)課題研究,但理論研究不夠深入,在實踐中也沒有得到充分應(yīng)用。

(二)創(chuàng)新教學(xué)模式的實踐

我們在研究性學(xué)習(xí)的方法和理論指導(dǎo)下,進(jìn)行創(chuàng)新教學(xué),情感、知識、技能構(gòu)成了新的教學(xué)模式。2010至2012連續(xù)三年,在《計算機(jī)軟件技術(shù)基礎(chǔ)》《C程序設(shè)計》等計算機(jī)基礎(chǔ)課程中進(jìn)行研究性學(xué)習(xí)的教學(xué)實踐。

1.改革傳統(tǒng)教學(xué)方法,靈活運(yùn)用現(xiàn)代化教學(xué)手段在計算機(jī)基礎(chǔ)課程創(chuàng)新教學(xué)模式實踐過程中,教學(xué)方法的選擇是關(guān)鍵環(huán)節(jié)之一。教師根據(jù)教學(xué)內(nèi)容的難易不同,采用不同方法教授。學(xué)生自主預(yù)習(xí)課程內(nèi)容,根據(jù)教師提出的問題在課堂上分析討論。在教學(xué)中綜合運(yùn)用CAI課件等各種現(xiàn)代化教學(xué)手段,增強(qiáng)學(xué)習(xí)的主觀能動性。采用現(xiàn)代化教學(xué)手段包括使用現(xiàn)代化的教學(xué)設(shè)備、采用新的教學(xué)模式等。在教學(xué)過程中引入科研活動,引導(dǎo)學(xué)生主動思考,探索知識。參加科研活動可以將新知識融入課堂教學(xué),拓寬學(xué)生的知識面,增加學(xué)習(xí)興趣。學(xué)生在親身實踐中獲得了知識,提高了解決問題的能力。

2.重視學(xué)生自我發(fā)展,指導(dǎo)學(xué)生主動探究在計算機(jī)基礎(chǔ)課程的教學(xué)中,課堂上以小組合作的形式提出問題并討論解決方案。鼓勵學(xué)生通過在課下收集資料、分析整理和處理信息等實踐活動來學(xué)會學(xué)習(xí),學(xué)會合作。學(xué)生在課堂上充分交流探討,發(fā)表自己的觀點(diǎn)。在課外自主研究,同學(xué)間積極合作。教師也要在學(xué)生的探究學(xué)習(xí)過程中,給予恰當(dāng)?shù)囊龑?dǎo),給出學(xué)生探究的問題,最后要進(jìn)行分析總結(jié)。

3.網(wǎng)絡(luò)教學(xué)模式由于課堂上班級組織的限制,要實現(xiàn)按層次的分級教學(xué)比較困難。嘗試在課外利用網(wǎng)絡(luò)進(jìn)行分級教學(xué)。網(wǎng)絡(luò)教學(xué)系統(tǒng)包括分組討論、分組教學(xué)、搖控輔導(dǎo)、答題示范等功能,徹底彌補(bǔ)了傳統(tǒng)教學(xué)方式的不足。通過網(wǎng)絡(luò)開展教學(xué),在網(wǎng)上學(xué)生可以隨時和教師交流溝通;教師利用網(wǎng)絡(luò)完成課外答疑,將教案、課件和習(xí)題等放到網(wǎng)絡(luò)上資源共享。學(xué)生不出門,就完成了答疑。這種方式深受學(xué)生喜愛,效果良好。此外,還可以通過在網(wǎng)上建立班級用戶群,完成網(wǎng)絡(luò)作業(yè)等方式,進(jìn)行教學(xué)和輔導(dǎo)。班級用戶間可進(jìn)行相互討論、互相答疑。學(xué)生網(wǎng)絡(luò)討論、網(wǎng)絡(luò)作業(yè)完成等可計入平時成績。對表現(xiàn)良好的學(xué)生給予獎勵,從而激發(fā)學(xué)生的自主學(xué)習(xí)的興趣。

4.反饋信息,及時評價實踐教學(xué)期間,在我校理工科多個專業(yè),針對各個學(xué)習(xí)階段開展問卷調(diào)查,以全面了解學(xué)生對研究學(xué)習(xí)的態(tài)度、收獲等。統(tǒng)計結(jié)果顯示學(xué)生的主要收獲是:促進(jìn)了自主學(xué)習(xí)、主動學(xué)習(xí);學(xué)會了利用網(wǎng)絡(luò)收集資料;學(xué)到更多課外知識和有利于創(chuàng)新精神與創(chuàng)新能力的培養(yǎng)。2012年度,在本校光電工程學(xué)院的探測技術(shù)及儀器、光電信息工程等專業(yè),進(jìn)行了抽樣調(diào)查。調(diào)查結(jié)果顯示:85%的學(xué)生認(rèn)可并喜歡研究性學(xué)習(xí)方式;通過采用研究性學(xué)習(xí),實踐前后學(xué)習(xí)興趣和收獲分別提高了28%和37%。實踐結(jié)果表明,學(xué)生對計算機(jī)基礎(chǔ)課的興趣明顯提高。實踐教學(xué)中,教師充分與學(xué)生交流,學(xué)生參與學(xué)習(xí)的結(jié)果被及時地反饋回來,同時獲得恰當(dāng)?shù)脑u價。教師注重激發(fā)并保持學(xué)生的學(xué)習(xí)熱情,幫助學(xué)生逐步形成良好的認(rèn)知結(jié)構(gòu)。

(三)建設(shè)立體化教學(xué)資源與實現(xiàn)網(wǎng)絡(luò)化考試管理在實踐中,更新教學(xué)內(nèi)容,完善基礎(chǔ)課教材改革。教學(xué)內(nèi)容和思想通過主教材體現(xiàn),配合學(xué)生用書為學(xué)生提供實踐指導(dǎo)。不斷總結(jié)經(jīng)驗,形成綜合理論、設(shè)計、實踐于一體的立體化教學(xué)資源系統(tǒng)。為學(xué)生提供參考書目、案例教程、習(xí)題庫等豐富的學(xué)習(xí)參考資源。改革考試管理,建立試題豐富、覆蓋范圍廣泛的題庫,用全自動考試系統(tǒng)完成組卷、考試、評分、試卷分析等全部過程,考試過程全部實現(xiàn)網(wǎng)絡(luò)化管理。所有學(xué)生考試數(shù)據(jù)一律存儲在數(shù)據(jù)庫中,可以對其數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,對教學(xué)質(zhì)量評估起到輔助決策的作用。除常規(guī)考試外還包括自選題目的論文(包括答辯)、自選題目的項目訓(xùn)練(包括答辯)等考核方式。考試過程實現(xiàn)計算機(jī)管理,學(xué)生的考試更加公平、公正、透明化、正規(guī)化。

二、實踐結(jié)果

第9篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞 教育信息化;大數(shù)據(jù)技術(shù);應(yīng)用

【中圖分類號】G434 【文獻(xiàn)標(biāo)識碼】A

【論文編號】1671-7384(2014)03-0064-03

隨著網(wǎng)絡(luò)信息技術(shù)的加速發(fā)展和應(yīng)用,物聯(lián)網(wǎng)、移動互聯(lián)、社交網(wǎng)絡(luò)等大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域,數(shù)據(jù)正以前所未有的速度在不斷地增長和累積,大數(shù)據(jù)時代的大幕已經(jīng)開啟。大數(shù)據(jù)在社會經(jīng)濟(jì)、政治、文化、生活等各方面產(chǎn)生深遠(yuǎn)的影響,將給各行各業(yè)的發(fā)展模式和決策帶來前所未有的革新與挑戰(zhàn)。教育行業(yè)也不例外,教育管理、思維方式、學(xué)習(xí)行為、教學(xué)評估等,無不受到大數(shù)據(jù)的影響。

大數(shù)據(jù)的概念及時代背景

大數(shù)據(jù)是一個正在發(fā)展中的概念。到目前為止,學(xué)術(shù)界對于“大數(shù)據(jù)”一詞還沒有準(zhǔn)確、統(tǒng)一的定義。著名學(xué)者涂子沛在《大數(shù)據(jù)》一書中指出:“大數(shù)據(jù)(BigData)是指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、管理和分析的大容量數(shù)據(jù),一般以‘以太節(jié)’為單位。大數(shù)據(jù)之大,并不僅僅在于容量之大,更大的意義在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來‘大知識’、‘大科技’、‘大利潤’和‘大發(fā)展’?!弊钤缣岢觥按髷?shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫全球研究院報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》則對“大數(shù)據(jù)”定義如下:大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!笨梢?,大數(shù)據(jù)就是指蘊(yùn)涵著巨大價值的、可有效利用的、多樣化的海量數(shù)據(jù)集。

進(jìn)入2012年以來,世界各國大數(shù)據(jù)的關(guān)注度與日俱增。在2012年1月份的達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,并特別針對大數(shù)據(jù)了報告BigData,BigImpact:New Possibilities for InternationalDevelopment ,探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好地利用數(shù)據(jù)來產(chǎn)生良好的社會效益。2012年3月,美國奧巴馬政府投資2億美元,正式啟動“大數(shù)據(jù)發(fā)展計劃”,這一計劃是美國政府繼信息高速公路計劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。同時,聯(lián)合國一個名為GlobalPulse的倡議項目在2012年5月報告《大數(shù)據(jù)發(fā)展:挑戰(zhàn)與機(jī)遇》,闡述大數(shù)據(jù)時代各國特別是發(fā)展中國家在面臨數(shù)據(jù)洪流時的機(jī)遇與挑戰(zhàn),并對大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀。目前,一些發(fā)達(dá)國家、著名研究機(jī)構(gòu)以及大集團(tuán)公司已將大數(shù)據(jù)作為獲取有效信息和知識的重要來源、調(diào)整和部署戰(zhàn)略決策的重要依據(jù),大數(shù)據(jù)技術(shù)則成為信息挖掘、整理和分析的重要工具。

大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間?;ヂ?lián)網(wǎng)時代的數(shù)據(jù)正在迅速膨脹,它決定著組織的未來發(fā)展,隨著時間的推移,人們將越來越意識到數(shù)據(jù)對組織的重要性。對于企業(yè)組織來講,大數(shù)據(jù)的價值體現(xiàn)在兩個方面:分析使用和二次開發(fā)。對大數(shù)據(jù)進(jìn)行分析能揭示隱藏其中的知識信息,對大數(shù)據(jù)的二次開發(fā)則是通過大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務(wù)。例如,F(xiàn)acebook通過結(jié)合大量用戶信息,定制出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式。大數(shù)據(jù)這股洶涌浪潮正在興起,將給各行各業(yè)的發(fā)展模式和決策帶來前所未有的革新與挑戰(zhàn),教育領(lǐng)域同樣不可避免,面臨新的挑戰(zhàn)和機(jī)遇。

大數(shù)據(jù)的主要特點(diǎn)

大數(shù)據(jù)時代的數(shù)據(jù)存在著以下幾個主要特點(diǎn)。

規(guī)模巨大。個人和組織面臨著數(shù)據(jù)量的大規(guī)模增長,呈現(xiàn)為海量數(shù)據(jù)。典型個人計算機(jī)硬盤的容量為TB量級,一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。而根據(jù)麥肯錫全球研究院(MGI)估計,全球企業(yè)2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數(shù)據(jù)。2015年全球移動終端產(chǎn)生的數(shù)據(jù)量將達(dá)到6300PB。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。

類型多樣。數(shù)據(jù)來自多種渠道,如網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機(jī)通話記錄及傳感器網(wǎng)等,內(nèi)容包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。這些實際是多視角的,不僅有正規(guī)的數(shù)據(jù)、媒體新聞數(shù)據(jù)、時效性的數(shù)據(jù),還有帶有個人情感的數(shù)據(jù)。而這些數(shù)據(jù)又打破了之前限定的結(jié)構(gòu)化數(shù)據(jù)范疇,包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來越大。

產(chǎn)生速度快。即數(shù)據(jù)被創(chuàng)建和移動的速度快,時效性要求高,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。在高速網(wǎng)絡(luò)時代,通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器,快速創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。如一天之內(nèi)谷歌公司處理幾十PB的數(shù)據(jù),F(xiàn)acebook新產(chǎn)生約10億張照片、300TB以上的日志,淘寶網(wǎng)進(jìn)行數(shù)千萬筆交易、產(chǎn)生20TB以上的數(shù)據(jù),新浪微博的約3億用戶可產(chǎn)生上億條微博。

價值密度低。隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,數(shù)據(jù)信息海量,但其價值密度較低。價值密度的高低與數(shù)據(jù)總量的大小成反比,大數(shù)據(jù)中單條數(shù)據(jù)可能無價值,無用數(shù)據(jù)多,但綜合價值大。例如,視頻數(shù)據(jù)中,1小時的視頻中有用的數(shù)據(jù)可能僅有一兩秒鐘,其余的可能是無用的數(shù)據(jù),價值密度相對較低。因此,如何通過強(qiáng)大的數(shù)據(jù)挖掘算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。

存儲要求高。種類多樣的數(shù)據(jù)源,既提供了大量的數(shù)據(jù),又帶來了科學(xué)存儲的問題。大數(shù)據(jù)通??蛇_(dá)到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應(yīng)等級的擴(kuò)展能力。當(dāng)前互聯(lián)網(wǎng)中的數(shù)據(jù)向著異質(zhì)異構(gòu)、無結(jié)構(gòu)趨勢發(fā)展,新數(shù)據(jù)類型不斷涌現(xiàn),用戶需求呈現(xiàn)出多樣性。目前的存儲架構(gòu)難以解決數(shù)據(jù)的異質(zhì)異構(gòu)、爆炸性增長帶來的存儲問題,靜態(tài)的存儲方案滿足不了數(shù)據(jù)的動態(tài)演化所帶來的挑戰(zhàn)。因而在海量分布式存儲和查詢方面仍然需要進(jìn)一步研究。

管理復(fù)雜。大數(shù)據(jù)的規(guī)模和復(fù)雜結(jié)構(gòu)是傳統(tǒng)IT架構(gòu)所面臨的直接挑戰(zhàn),使得傳統(tǒng)的數(shù)據(jù)管理技術(shù)不適合處理海量異構(gòu)數(shù)據(jù)。許多公司已經(jīng)擁有大量的存檔數(shù)據(jù),卻沒有能力來處理它。傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法處理大數(shù)據(jù)的規(guī)模,目前可選擇的方法包括大規(guī)模并行處理架構(gòu)、數(shù)據(jù)倉庫,或類似Greenplum的數(shù)據(jù)庫以及ApacheHadoop解決方案等。

大數(shù)據(jù)在教育領(lǐng)域中的主要應(yīng)用

1. 革新教育理念和教育思維

隨著大數(shù)據(jù)時代的來臨,教育大數(shù)據(jù)深刻改變著教育理念、教育思維方式。新的時代,教育領(lǐng)域充滿了大數(shù)據(jù),諸如學(xué)生、教師的一言一行,學(xué)校里的一切事物,都可以轉(zhuǎn)化為數(shù)據(jù)。當(dāng)每個在校學(xué)生都能用計算機(jī)終端學(xué)習(xí)時,包括上課、讀書、寫筆記、做作業(yè)、發(fā)微博、進(jìn)行實驗、討論問題、參加各種活動等,這些都將成為教育大數(shù)據(jù)的來源。大數(shù)據(jù)比起傳統(tǒng)的數(shù)字具有深刻的含義和價值。例如,對于一張試卷、一次考試,考試得分為90分,它可以是簡簡單單的一個傳統(tǒng)的數(shù)字,但如果換一個角度來分析,把它作為一個數(shù)據(jù)來看待,就可以得到其背后所隱含的許多充滿想象力的數(shù)據(jù)信息:可以是每一大題的得分,每一小題的得分,每一題選擇了什么選項,每一題花了多少時間,是否修改過選項,做題的順序有沒有跳躍,什么時候翻卷子,有沒有時間進(jìn)行檢查,檢查了哪些題目,修改了哪些題目,等等,這些信息遠(yuǎn)遠(yuǎn)比一個90分要有價值得多。不單是考試,課堂、課程、師生互動的各個環(huán)節(jié)都滲透了這些大數(shù)據(jù)。教育將不再是靠理念和經(jīng)驗來傳承的社會科學(xué),大數(shù)據(jù)時代的教育將步入實證時代,變成一門實實在在的基于數(shù)據(jù)的實證科學(xué)。大數(shù)據(jù)使得教育者的思維方式發(fā)生了深刻變化,傳統(tǒng)的教育大多是教育主管部門和教育者通過教學(xué)經(jīng)驗的學(xué)習(xí)、總結(jié)和繼承來展開的,但是有些經(jīng)驗是不具有科學(xué)性的,常識有時會影響人們的判斷。大數(shù)據(jù)時代將可以通過對教育數(shù)據(jù)的分析,挖掘出教學(xué)、學(xué)習(xí)、評估等符合學(xué)生實際與教學(xué)實際的情況,這樣就可以有的放矢地制定、執(zhí)行教育政策,制定出更符合實際的教育教學(xué)策略。

2. 實現(xiàn)個性化教育

大數(shù)據(jù)帶來的一個變化在于實施個性化教育具有了可能性,真正實現(xiàn)從群體教育的方式轉(zhuǎn)向個體教育。利用大數(shù)據(jù)技術(shù),我們可以去關(guān)注每一個學(xué)生個體的微觀表現(xiàn),比如,他在什么時候翻開書,在聽到什么話的時候微笑點(diǎn)頭,在一道題上逗留了多久,在不同學(xué)科的課堂上提問多少次,開小差的次數(shù)分別為多少,會向多少同班同學(xué)發(fā)起主動交流,等等。這些數(shù)據(jù)的產(chǎn)生完全是過程性的,包括課堂的過程、作業(yè)的過程、師生或生生互動的過程,等等,是對即時性的行為與現(xiàn)象的記錄。通過這些數(shù)據(jù)的整合能夠詮釋教學(xué)過程中學(xué)生個體的學(xué)習(xí)狀態(tài)、表現(xiàn)和水平。而且這些數(shù)據(jù)完全是在學(xué)生不自知的情況下被觀察、收集的,只需要一定的觀測技術(shù)與設(shè)備的輔助,而不影響學(xué)生任何的日常學(xué)習(xí)與生活,因此其采集非常自然、真實,可以獲得學(xué)生的真實表現(xiàn)。大數(shù)據(jù)技術(shù)將給教師提供最為真實、最為個性化的學(xué)生特點(diǎn)信息,教師在教學(xué)過程中可以有針對性地進(jìn)行因材施教。比如,在課堂學(xué)習(xí)過程中,哪些學(xué)生注意基礎(chǔ)部分,哪些學(xué)生注意實踐內(nèi)容,哪些學(xué)生完成某一練習(xí),哪些學(xué)生可以閱讀推薦書目,等等。不僅如此,當(dāng)學(xué)生在完成教師布置的作業(yè)時,也能通過數(shù)據(jù)分析強(qiáng)化學(xué)習(xí)。比如,通過電子設(shè)備做作業(yè)時,某一類型的題目有幾次全對,就可以把類似的題目跳過;如果某個類型的題目犯錯,系統(tǒng)則可進(jìn)行多次強(qiáng)化,這樣不僅提高了學(xué)習(xí)效率,也減輕了學(xué)生的學(xué)習(xí)負(fù)擔(dān)。

3. 重新構(gòu)建教學(xué)評價方式

在教學(xué)評價中利用大數(shù)據(jù)分析,可以通過技術(shù)層面來評價、分析,進(jìn)而提升教學(xué)活動,從依靠經(jīng)驗評價轉(zhuǎn)向基于數(shù)據(jù)評價。教學(xué)評價的方式不再是經(jīng)驗式的,而是可以通過大量數(shù)據(jù)的“歸納”,找出教學(xué)活動的規(guī)律,更好地優(yōu)化、改進(jìn)教學(xué)過程。比如新一代的在線學(xué)習(xí)平臺,具有行為記錄和學(xué)習(xí)誘導(dǎo)的功能。通過記錄學(xué)習(xí)者鼠標(biāo)的點(diǎn)擊,可以研究學(xué)習(xí)者的活動軌跡,發(fā)現(xiàn)不同的人對不同知識點(diǎn)有何不同反應(yīng),用了多長時間,以及哪些知識點(diǎn)需要重復(fù),哪些知識點(diǎn)需要深化等。對于學(xué)習(xí)活動來說,學(xué)習(xí)的效果體現(xiàn)在日常行為中,哪些知識沒有掌握、哪類問題最易犯錯等成為分析每個學(xué)生個體行為的直接依據(jù)。通過大數(shù)據(jù)分析,還可以發(fā)現(xiàn)學(xué)生思想、心態(tài)與行為的變化情況,可以分析出每個學(xué)生的特點(diǎn),從而發(fā)現(xiàn)優(yōu)點(diǎn),規(guī)避缺點(diǎn),矯正不良思想行為。此外,大數(shù)據(jù)通過技術(shù)手段,記錄教育教學(xué)的過程,實現(xiàn)了從結(jié)果評價轉(zhuǎn)向過程性評價。例如,基于網(wǎng)絡(luò)學(xué)習(xí)平臺或電子課本,能記錄下學(xué)生完成作業(yè)情況、課堂言行、師生互動、同學(xué)交往等數(shù)據(jù),教師在期末時將這些數(shù)據(jù)匯集起來,有了更加豐富的素材與數(shù)據(jù)依據(jù),可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)成長過程的特點(diǎn),能對學(xué)生的發(fā)展提出建議。同時,這些數(shù)據(jù)也可以促使教師進(jìn)行教學(xué)反思,自己在哪些方面需要改進(jìn),從而促進(jìn)和優(yōu)化教學(xué)實施過程。

4. 加強(qiáng)學(xué)?;跀?shù)據(jù)的管理