公務(wù)員期刊網(wǎng) 論文中心 正文

談數(shù)據(jù)挖掘系統(tǒng)設(shè)計實現(xiàn)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談數(shù)據(jù)挖掘系統(tǒng)設(shè)計實現(xiàn)范文,希望能給你帶來靈感和參考,敬請閱讀。

談數(shù)據(jù)挖掘系統(tǒng)設(shè)計實現(xiàn)

摘要:在現(xiàn)代科學(xué)技術(shù)的帶動下,電子信息化技術(shù)得到了極大的推廣及應(yīng)用,其中醫(yī)學(xué)信息數(shù)字化發(fā)展成了將來發(fā)展的主要趨勢。隨著人口基數(shù)的不斷上升,醫(yī)療系統(tǒng)中的病歷檔案數(shù)據(jù)量也在逐年遞增,如何在中醫(yī)病歷檔案數(shù)據(jù)中有效地挖掘醫(yī)學(xué)知識,并運用實踐于中醫(yī)臨床疾病的輔助診斷,成為了當(dāng)下醫(yī)學(xué)界較為關(guān)注的問題。本研究將根據(jù)中醫(yī)病歷檔案數(shù)據(jù)實際應(yīng)用情況,設(shè)計構(gòu)建出具有病歷檔案管理以及數(shù)據(jù)挖掘等作用的系統(tǒng)。該系統(tǒng)中所具有病歷檔案管理模塊可進行海量數(shù)據(jù)的錄入、篩選、儲存以及檢索等功能;數(shù)據(jù)挖掘模塊可通過基于粗糙集理論的粗糙集值約簡算法、基于邏輯與運算的關(guān)聯(lián)規(guī)則挖掘算法、基于組織競爭學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)反向傳播算法實現(xiàn)臨床疾病主要癥狀的提取,得到對應(yīng)的中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,以此探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián)。

關(guān)鍵詞:中醫(yī)醫(yī)學(xué);病案管理:數(shù)據(jù)挖掘;系統(tǒng)數(shù)據(jù)

1研究背景

在中醫(yī)醫(yī)學(xué)的不斷發(fā)展的過程中累積了極多的患者病案數(shù)據(jù),在這些數(shù)據(jù)資料中潛在著許多具有醫(yī)學(xué)研究價值的內(nèi)容,在當(dāng)前現(xiàn)代化科學(xué)技術(shù)的推動下。中醫(yī)學(xué)病案數(shù)據(jù)的收集整理由傳統(tǒng)人工形式過渡到了數(shù)字化處理的方式,而數(shù)字化中醫(yī)病案能夠更加方便、快捷地存儲病案數(shù)據(jù),可以更好地滿足科研人員的需要。因此,中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)設(shè)計實現(xiàn)在中醫(yī)學(xué)科中具有重要的作用及意義[1]。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)是集成檔案管理、數(shù)據(jù)挖掘等功能為一體的數(shù)據(jù)管理處理系統(tǒng),通過該系統(tǒng)中數(shù)據(jù)挖掘模塊,能夠?qū)膊∵M行科學(xué)的分析,并提取出疾病的主要癥狀,以此得到中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,并探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián),為中醫(yī)醫(yī)務(wù)人員提供科學(xué)、合理的診治策略,為中醫(yī)學(xué)科中新規(guī)律、新技術(shù)提供堅實的支持[2]。

2中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)的構(gòu)成及作用

中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)設(shè)計基于C#.Net開發(fā)環(huán)境,采用瀏覽器和服務(wù)器架構(gòu)模式。系統(tǒng)中包含病歷檔案管理以及數(shù)據(jù)挖掘兩個主要功能模塊(系統(tǒng)框架結(jié)構(gòu)如圖1所示)。這樣的結(jié)構(gòu)能夠為在實施病歷檔案管理的基礎(chǔ)上為數(shù)據(jù)挖掘提供了大量數(shù)據(jù)支持;數(shù)據(jù)挖掘模塊主要實現(xiàn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及知識分析的功能[3]。

2.1病歷檔案管理模塊

該模塊能夠極大地滿足實際中對于病歷檔案的收集、篩選、分類、儲存以及檢索等功能。在實際的應(yīng)用中先有醫(yī)師將紙質(zhì)病歷檔案進行整理后錄入到系統(tǒng)數(shù)據(jù)庫后,系統(tǒng)將會對數(shù)據(jù)資料進行處理,便于后期對于病歷檔案數(shù)據(jù)挖掘以及檢索的需要。

2.2數(shù)據(jù)挖掘模塊

系統(tǒng)中數(shù)據(jù)挖掘模塊的核心功能是對數(shù)據(jù)庫進行知識挖掘分析,其中挖掘的過程可分為三個步驟:第一,數(shù)據(jù)的預(yù)處理,此階段是檢查所錄入的病歷檔案數(shù)據(jù)一致性、數(shù)據(jù)中的無效值以及缺失值,并將這些錯誤進行識別、糾正、轉(zhuǎn)化以及實施粗糙集屬性約簡處理等,從而保障所挖掘的數(shù)據(jù)的準(zhǔn)確性、有效性;第二,數(shù)據(jù)挖掘,該步驟旨在實現(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘、對數(shù)據(jù)神經(jīng)網(wǎng)路進行分析預(yù)測等目標(biāo);第三,知識分析,將所挖掘到的知識數(shù)據(jù)進行關(guān)聯(lián)分析,求解對應(yīng)的中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,以此探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián)。

3系統(tǒng)算法設(shè)計

3.1MIBARK改進算法

本研究中將采用的基于屬性重要性、互信息的MIBARK改進算法是將決策表中個體屬性所產(chǎn)生的互信息轉(zhuǎn)變、屬性的依賴程度作為屬性重要性的衡量標(biāo)準(zhǔn),并在不會造成分類質(zhì)量受到影響的情況將其中冗雜屬性進行剔除,以此實現(xiàn)良好的屬性約簡。MIBARK改進算法的主要描述為:輸入-決策表,其中U為對象數(shù)據(jù)集,AT為對象屬性集,C為條件屬性集,D為決策屬性集;輸出-決策信息,其中U為非空有限論域,為屬性集,C為條件屬性集,D為決策屬性。在進行數(shù)據(jù)預(yù)處理時能夠?qū)膊∵M行科學(xué)的分析,并提取出疾病的主要癥狀,以此為后續(xù)數(shù)據(jù)挖掘奠定實施的基礎(chǔ)。

3.2Apriori改進算法

通過計算機能夠進行快速的邏輯運算,對于Apriori算法實施改進:將系統(tǒng)數(shù)據(jù)庫中個體采用位串表示,其中“1”表示數(shù)據(jù)庫中個體數(shù)據(jù)出現(xiàn),“0”表示未出現(xiàn),改進后的Apriori算法僅需要讀取一次數(shù)據(jù)庫后便可以獲得初步的項位串。匯總結(jié)果為“1”的總量,作為支持度基數(shù),將支持度基數(shù)高于標(biāo)準(zhǔn)值的候選結(jié)果為1項集L1項;由L1轉(zhuǎn)化為項序列,即,針對各數(shù)據(jù)生成編碼位串,若單項出現(xiàn)在轉(zhuǎn)化的項集向內(nèi),其對應(yīng)的項序列表示為“1”,未出現(xiàn)則為“0”;連接Lk-1,并將其中項變化進行邏輯“或”處理,之后匯總結(jié)果為“1”的總量,當(dāng)為k時應(yīng)加入至候選Ck中;將Ck與Lk-1進行匹配,并進行邏輯“與”處理,獲得與Ck相對應(yīng)的項位串,結(jié)果中“1”的總量便是候選項支持基數(shù),將支持度基數(shù)高于標(biāo)準(zhǔn)值的候選項設(shè)為頻繁k項集Lk的項;重復(fù)以上操作,直至Lk內(nèi)單項數(shù)量低于(k+1)。結(jié)束運算。通過Apriori改進算法能夠?qū)膊∵M行科學(xué)的分析,并提取出疾病的主要癥狀,以此得到中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系。

3.3神經(jīng)網(wǎng)絡(luò)反向傳播改進算法

基于組織競爭學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)反向傳播改進算法能夠通過自適應(yīng)的方式改進算法,實現(xiàn)快速收斂、防止陷入鞍點的情況。神經(jīng)網(wǎng)絡(luò)反向傳播改進算法的核心是通過隱藏層誤差計算修正最大誤差的節(jié)點的權(quán)值,其它單元權(quán)值則需要進行反向修正。在計算進行迭代后會將誤差函數(shù)值與前次計算結(jié)果項對比,若數(shù)值增加則說明學(xué)習(xí)率調(diào)整過大,需要在下次計算中進行相應(yīng)的下調(diào)調(diào)整,反之增加幅度。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)首先會調(diào)用MIBARK改進算法挖掘疾病癥狀、證型匹配等數(shù)據(jù),提取出主癥狀集,之后采用神經(jīng)網(wǎng)絡(luò)反向傳播改進算法構(gòu)建預(yù)測模型,進行數(shù)據(jù)的分類預(yù)測、梳理,從而獲得疾病癥狀與證型存在的匹配規(guī)律。

4系統(tǒng)應(yīng)用

4.1病歷檔案管理模塊的實現(xiàn)

此模塊主要作用為病歷檔案的錄入以及實現(xiàn)相關(guān)數(shù)據(jù)的檢索。病歷檔的案錄入又可分為基本信息以及病歷數(shù)據(jù)的錄入,基本信息要求具有全面性,涵蓋患者的詳細(xì)資料,病歷數(shù)據(jù)主要包括患者病歷中的全部資料[4]。在該系統(tǒng)中,數(shù)據(jù)的檢索除了能夠精確的搜索到患者基本信息以及病歷數(shù)據(jù)外,還具有打印功能。

4.1.1病歷檔案的錄入。在進行病歷檔案的錄入的信息主要包括患者的基本信息以及病歷資料。錄入過程是在系統(tǒng)固有的輸入模板中實現(xiàn),通過設(shè)定好的輸入選項能夠有效地規(guī)劃信息的輸入,并對具有模糊輸入選項給予默認(rèn)數(shù)值或是系統(tǒng)提示。錄入具有斷點記憶以及分析操作的功能,系統(tǒng)會選擇已輸入信息中的病歷檔案號作為數(shù)據(jù)的識別碼,便于數(shù)據(jù)的更新及查找。此外,系統(tǒng)具有字典表,能夠進一步規(guī)范所錄入的數(shù)據(jù),如自動規(guī)范藥物名稱以及對應(yīng)的編號、規(guī)范疾病的癥狀證型的編碼。

4.1.2數(shù)據(jù)檢索。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)具有精準(zhǔn)及模糊兩種檢索方式,可根據(jù)詳細(xì)的條件檢索到需要的數(shù)據(jù)。醫(yī)務(wù)人員通過檢索功能能夠及時、準(zhǔn)確地查詢到患者的病歷檔案信息,從而能夠結(jié)果患者以往的治療情況給予正確的治療意見,同時也能夠通過查閱病歷檔案也能夠發(fā)現(xiàn)在以往治療中忽略的問題,此外,通過查閱具有豐富經(jīng)驗醫(yī)師所錄入的數(shù)據(jù)信息還能夠豐富個人的診斷學(xué)識。需要注意的是,醫(yī)務(wù)人員對所檢索到的數(shù)據(jù)信息只有檢索查閱的權(quán)限,無法進行修改,從而保障檔案資料的原始性,當(dāng)發(fā)生問題后也能夠?qū)ふ业絾栴}的根源所在。

4.2數(shù)據(jù)挖掘模塊的實現(xiàn)

系統(tǒng)中數(shù)據(jù)挖掘模塊主要具有實現(xiàn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及知識分析的功能(流程如圖2所示)。

4.2.1數(shù)據(jù)預(yù)處理。在實施數(shù)據(jù)預(yù)處理前,應(yīng)通過數(shù)據(jù)庫導(dǎo)入所需要類別的數(shù)據(jù),并對這些數(shù)據(jù)進行規(guī)范化、量化分級處理,從中獲取有效數(shù)據(jù),具體流程為數(shù)據(jù)的篩選(剔除缺省以及錯誤信息)、數(shù)據(jù)轉(zhuǎn)化(使用SQL語句將醫(yī)學(xué)信息按照數(shù)據(jù)字典表轉(zhuǎn)化成機器處理數(shù)據(jù))。中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)中具有數(shù)據(jù)橫向轉(zhuǎn)化功能,當(dāng)數(shù)據(jù)轉(zhuǎn)化完畢后將會被保存在數(shù)據(jù)挖掘庫之中,便于后續(xù)的調(diào)用。

4.2.2數(shù)據(jù)挖掘。數(shù)據(jù)挖掘主要針對規(guī)范處理后的數(shù)據(jù),如疾病癥狀、證型以及中藥數(shù)據(jù)集等,采用數(shù)據(jù)挖掘算法、關(guān)聯(lián)分析知識和神經(jīng)網(wǎng)絡(luò)分類預(yù)測知識進行挖掘。其中在進行關(guān)聯(lián)分析知識挖掘過程中將會采用系統(tǒng)中設(shè)置的算法以及結(jié)合持度、置信度閾值關(guān)聯(lián)規(guī)則,并顯示出頻繁項集的關(guān)聯(lián)分析計算結(jié)果(系統(tǒng)關(guān)聯(lián)分析截面如圖3所示)。

4.2.3知識分析進行知識分析時需要結(jié)合挖掘知識庫中的數(shù)據(jù),通過所設(shè)定的分析條件得到對應(yīng)的中藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,以此探究出癥狀與中醫(yī)證型之間的關(guān)聯(lián)。

5結(jié)論

通過對中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與實現(xiàn),能夠達到在進行病歷檔案管理的同時進行數(shù)據(jù)挖掘的目的,從而得到藥方劑組方規(guī)律、疾病癥狀與關(guān)聯(lián)用藥的聯(lián)系,從而幫助醫(yī)師能夠為患者給予正確的治療意見或提升診斷知識。研究證明,利用中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)能夠有效地滿足醫(yī)務(wù)人員工作中的需要,能夠為病人提供更好的診治方案。

參考文獻

[1]武澤政.中醫(yī)診療輔助支持系統(tǒng)的研究與實現(xiàn)[D].包頭:內(nèi)蒙古科技大學(xué),2019.

[2]王倩,石艷敏,史春暉,等.基于云平臺Hadoop的中醫(yī)數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2018,35(10):45-48,79.

[3]楊林芬.基于大數(shù)據(jù)分析技術(shù)的名老中醫(yī)醫(yī)案價值挖掘研究[D].昆明:云南大學(xué),2019.

[4]崔驥,許家佗.人工智能背景下中醫(yī)診療技術(shù)的應(yīng)用與展望[J].第二軍醫(yī)大學(xué)學(xué)報,2018,39(8):846-851.

作者:高俊全 單位:河北醫(yī)科大學(xué)第四醫(yī)院