前言:想要寫出一篇引人入勝的文章?我們特意為您整理了臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析范文,希望能給你帶來靈感和參考,敬請閱讀。
1DM概述
DM是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過程(圖1),包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到DM的后處理[1]。其最早是在1989年舉行的第11屆美國人工智能協(xié)會(huì)(americanassociationforartificialintelli-gence,AAAI)學(xué)術(shù)會(huì)議上提出的,是近年來隨著人工智能和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)[4],其開發(fā)與研究應(yīng)用是建立在先進(jìn)的計(jì)算機(jī)技術(shù)、超大規(guī)模數(shù)據(jù)庫的出現(xiàn)、對巨大量數(shù)據(jù)的快速訪問、對這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計(jì)方法計(jì)算的能力這4個(gè)必要條件基礎(chǔ)上的,以數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)三大技術(shù)為支柱[5]。
2DM的基本模式及在臨床醫(yī)學(xué)中的應(yīng)用
DM的任務(wù)通常有兩大類:預(yù)測任務(wù)和描述任務(wù)。預(yù)測任務(wù)主要是根據(jù)其他屬性的值,預(yù)測特定屬性的值,主要有分類(classificaion)和回歸(regression)2種模式。描述任務(wù)的目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常),主要有關(guān)聯(lián)分析、聚類分析、異常檢測3種模式[1]。
2.1預(yù)測建模(predictivemodeling)
涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有2種模式:分類和回歸。分類是用于預(yù)測離散的目標(biāo)變量。在臨床醫(yī)學(xué)中,疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi[6]以美國麻省理工學(xué)院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù),采用不同分類模型,對心電圖的5種異常波形和正常波形進(jìn)行分類?;貧w是用于預(yù)測連續(xù)的目標(biāo)變量?;貧w可廣泛應(yīng)用于醫(yī)學(xué)研究中如醫(yī)療診斷與預(yù)后的判別、多因素疾病的病因研究等。Burke等[7]采用各種回歸模式對影響乳腺癌患者預(yù)后的因素進(jìn)行回歸分析。
2.2關(guān)聯(lián)分析(associationanalysis)
用來描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式,用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。所發(fā)現(xiàn)的模式通常用蘊(yùn)函規(guī)則或特征子集的形式表示。關(guān)聯(lián)分析主要應(yīng)用于DNA序列間相似搜索與比較、識(shí)別同時(shí)出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等[5]。有學(xué)者對37000例腎病患者進(jìn)行了追蹤觀察,監(jiān)測腎小球過濾率、尿蛋白水平和貧血狀況,結(jié)果發(fā)現(xiàn)以上3種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升,這種腎病與心臟病“關(guān)聯(lián)”的現(xiàn)象可發(fā)生在腎病的早期階段[8]。
2.3聚類分析(clusteranalysis)
旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類分析在醫(yī)學(xué)領(lǐng)域中主要用于DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動(dòng)分析以及多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析、中醫(yī)診斷和方劑研究、疾病危險(xiǎn)因素等方面[5]。羅禮溥和郭憲國[9]利用聚類分析對云南省25縣(市)現(xiàn)有的112種醫(yī)學(xué)革螨的動(dòng)物地理區(qū)劃進(jìn)行分析,發(fā)現(xiàn)云南省醫(yī)學(xué)革螨的分布明顯地受到自然地理區(qū)位和特定的自然景觀所制約。
2.4異常檢測(anomalydetection)
用來識(shí)別其特征明顯不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)。異常檢測的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn),避免錯(cuò)誤地將正常對象標(biāo)注為異常點(diǎn)。換言之,一個(gè)好的異常檢測器必須具有高檢測率和低誤報(bào)率,其主要應(yīng)用于檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等[2]。
3DM的方法及研究趨勢
在DM算法的理論基礎(chǔ)上,DM常用方法:(1)生物學(xué)方法包括人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等;(2)信息論方法包括決策樹等;(3)集合論方法包括粗糙集理論、近鄰算法等:(4)統(tǒng)計(jì)學(xué)方法;(5)可視化技術(shù)等方法。DM經(jīng)過十幾年的蓬勃發(fā)展,很多基本算法已較為成熟,在其基礎(chǔ)上進(jìn)行更加高效的改進(jìn)和算法提高顯得比較困難,如傳統(tǒng)的頻繁模式和關(guān)聯(lián)規(guī)則挖掘在近幾年的國際著名會(huì)議和期刊上已不再作為重要的研究主題[10]。近年來眾多國內(nèi)外知名學(xué)者相繼探討DM的最新方向。Yang和Wu[11]匯總形成了DM領(lǐng)域十大挑戰(zhàn)性問題報(bào)告;Agrawa等[12]探討了DM的現(xiàn)狀并展望了未來的發(fā)展方向,Piatetsky-shapiro等[13]討論了DM新的挑戰(zhàn)性問題,并主要探討在生物信息學(xué)(bioinformatics)、多媒體挖掘(multimediamining)、鏈接挖掘(1inkmining)、文本挖掘(textmining)和網(wǎng)絡(luò)挖掘(webmining)等領(lǐng)域所遇到的挑戰(zhàn)。與國外相比,DM在國內(nèi)的研究和應(yīng)用始于20世紀(jì)90年代初,主要是對DM方法的介紹和推廣,20世紀(jì)90年代后期和21世紀(jì)初進(jìn)入蓬勃發(fā)展階段,當(dāng)前DM已成為大型企業(yè)進(jìn)行經(jīng)營決策時(shí)所必須采用的方法,證券和金融部門已將DM作為今后重點(diǎn)應(yīng)用的技術(shù)之一。有學(xué)者以HIS和LIS數(shù)據(jù)庫信息為數(shù)據(jù)源,人工神經(jīng)網(wǎng)絡(luò)為工具,概率論為依據(jù),對常規(guī)檢驗(yàn)結(jié)果和質(zhì)譜指紋圖數(shù)據(jù)進(jìn)行DM并應(yīng)用于臨床實(shí)踐[14-16]。
4臨床醫(yī)學(xué)DM的特點(diǎn)
DM作用于醫(yī)學(xué)數(shù)據(jù)庫跟挖掘其他類型的數(shù)據(jù)庫相比較,具有其自己的特點(diǎn)。以電子病歷、醫(yī)學(xué)影像、病歷參數(shù)、化驗(yàn)結(jié)果等臨床數(shù)據(jù)為基礎(chǔ)建立的醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)復(fù)雜類型數(shù)據(jù)庫,這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質(zhì)性和缺乏數(shù)學(xué)性質(zhì)等自身的特殊性和復(fù)雜性,使得醫(yī)學(xué)DM與常規(guī)DM之間存在較大差異。醫(yī)學(xué)DM方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法等。將這些不同的挖掘方法應(yīng)用到疾病的診斷、治療和預(yù)后分析以及醫(yī)療管理等各個(gè)領(lǐng)域,從疾病的診治、醫(yī)療質(zhì)量管理、醫(yī)院管理、衛(wèi)生政策研究與醫(yī)療資源利用評價(jià)等方面去獲取諸如概念、規(guī)律、模式等相關(guān)知識(shí);用于對疾病進(jìn)行分類、分級、篩選危險(xiǎn)因素、決定治療方案和開藥數(shù)量等[5]。
5我國醫(yī)學(xué)DM的現(xiàn)狀及展望
生命科學(xué)的快速發(fā)展以及系統(tǒng)生物學(xué)(systembiology)的出現(xiàn)和蓬勃發(fā)展為研究現(xiàn)代醫(yī)學(xué)模式和中醫(yī)藥學(xué)提供了可能的新思路和新方法。通過基因組學(xué)、蛋白質(zhì)組學(xué)等方法闡述復(fù)雜生命迫切需要DM等相關(guān)計(jì)算分析方法處理海量的基因、蛋白、染色質(zhì)數(shù)據(jù)如基因調(diào)控網(wǎng)絡(luò)的研究、蛋白質(zhì)交互網(wǎng)絡(luò)的挖掘等[10]。在我國醫(yī)學(xué)數(shù)據(jù)極為豐富,但運(yùn)用DM技術(shù)分析和處理這些數(shù)據(jù)資源的研究尚處于起步階段。有些大學(xué)(如第二軍醫(yī)大學(xué)、哈爾濱醫(yī)科大學(xué)、瀘州醫(yī)學(xué)院等)已經(jīng)面向醫(yī)學(xué)本科生及研究生開設(shè)了相關(guān)課程,上海交通大學(xué)醫(yī)學(xué)院也向醫(yī)學(xué)專業(yè)研究生開設(shè)了《生物醫(yī)學(xué)數(shù)據(jù)挖掘》的課程[17],瀘州醫(yī)學(xué)院檢驗(yàn)醫(yī)學(xué)系開設(shè)了《檢驗(yàn)醫(yī)學(xué)信息學(xué)》課程,從檢驗(yàn)醫(yī)學(xué)信息的來源、綜合、提煉和利用過程均進(jìn)行了詳細(xì)介紹[18]。這些課程的開設(shè)旨在使學(xué)生及醫(yī)學(xué)科學(xué)研究者了解這些知識(shí),能理性地應(yīng)用這些數(shù)學(xué)工具,并建立和其他學(xué)科領(lǐng)域研究人員合作的基礎(chǔ)。醫(yī)學(xué)DM是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科,是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)等技術(shù)手段與現(xiàn)代醫(yī)療相結(jié)合的產(chǎn)物,需要從事計(jì)算機(jī)、統(tǒng)計(jì)學(xué)的科研人員與廣大醫(yī)務(wù)工作者之間的通力合作。隨著理論研究的深入和進(jìn)一步的實(shí)踐摸索,醫(yī)學(xué)DM必將在疾病的診療、醫(yī)學(xué)科研與教學(xué)以及醫(yī)院管理等方面發(fā)揮不可估量的巨大作用。