前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的生物信息學(xué)基本概念主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:大數(shù)據(jù);生物信息學(xué);教學(xué)探索
中圖分類號:G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2015)29-0210-02
一、引言
生物信息學(xué)是由生物學(xué)與數(shù)學(xué)、計算科學(xué)交叉形成的前沿學(xué)科,主要通過研發(fā)并應(yīng)用計算機(jī)技術(shù)及數(shù)學(xué)與統(tǒng)計方法,對海量生物數(shù)據(jù)進(jìn)行管理、整合、分析、建模,從而解決重要的生物學(xué)問題,闡明新的生物學(xué)規(guī)律,獲得傳統(tǒng)生物學(xué)手段無法獲得的創(chuàng)新發(fā)現(xiàn)。生物信息學(xué)是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,是多學(xué)科之間的交叉領(lǐng)域。因此,做好生物信息學(xué)教學(xué)工作對提高生物信息學(xué)研究水平具有重要的理論和實踐意義。
隨著高通量測序數(shù)據(jù)的大量出現(xiàn),生命科學(xué)已經(jīng)進(jìn)入到大數(shù)據(jù)時代,生物信息學(xué)研究的重點將轉(zhuǎn)移到組學(xué)的研究上。相應(yīng)地,生物信息學(xué)教學(xué)的重點也要從單個基因的分析轉(zhuǎn)向多個基因甚至在組學(xué)水平的分析。在生物大數(shù)據(jù)背景下,對生物信息學(xué)專業(yè)的人才需求也將越來越大。本文結(jié)合生物大數(shù)據(jù)的特點和教學(xué)經(jīng)驗,談?wù)勀壳吧镄畔W(xué)教學(xué)中存在的問題,并針對這些問題提出自己的建議和方法。
二、生物大數(shù)據(jù)的特點
“大數(shù)據(jù)”一詞最初起源于互聯(lián)網(wǎng)和IT行業(yè),它具有數(shù)據(jù)量大、數(shù)據(jù)多樣化、高速、有價值等特點。生物大數(shù)據(jù)不僅帶有“大數(shù)據(jù)”的特點,而且具有生物數(shù)據(jù)自身的特性,具體表現(xiàn)在:
1.數(shù)據(jù)量大:全球每年生物數(shù)據(jù)總量已經(jīng)達(dá)到EB量級,完整的人體基因組有約30億個堿基對,個體化基因組差異達(dá)6百萬堿基。同時由于高通量測序成本的下降,目前大量的生物物種得以全基因組范圍的基因組從頭測序、重測序以及轉(zhuǎn)錄組測序,積累了大量的生物數(shù)據(jù)。
2.數(shù)據(jù)種類多:由于測序儀器種類繁多,產(chǎn)生的測序數(shù)據(jù)格式也各不相同。除高通量測序產(chǎn)生的基因組和轉(zhuǎn)錄組數(shù)據(jù)外,另外還有蛋白組、代謝組、表型組、相互作用組的序列數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)。
3.數(shù)據(jù)增速快:這主要體現(xiàn)在數(shù)據(jù)的急劇增長速度上,幾乎每一周都有關(guān)于某一物種的全基因組或者轉(zhuǎn)錄組測序的信息。尤其是隨著新一代測序技術(shù)的發(fā)展,更大數(shù)量級的基因組數(shù)據(jù)產(chǎn)出日漸增加――每臺高通量的測序儀每天可產(chǎn)生約100GB的數(shù)據(jù)。
4.數(shù)據(jù)價值高:隨著生物信息學(xué)的發(fā)展,越來越多有價值的信息可從生物數(shù)據(jù)中挖掘出來,這些價值不僅體現(xiàn)在生物科研領(lǐng)域,而且已應(yīng)用于農(nóng)業(yè)和醫(yī)學(xué)等領(lǐng)域。
三、大數(shù)據(jù)背景下生物信息學(xué)教學(xué)中存在的問題
經(jīng)過多年的發(fā)展,生物信息學(xué)教學(xué)雖然有了一定的提高和改善,但還存在一些問題,主要表現(xiàn)在:
(一)課程設(shè)置不合理
生物信息學(xué)是由生物學(xué)與數(shù)學(xué)、計算科學(xué)交叉形成的前沿學(xué)科,對生物背景的學(xué)生來說,需要掌握計算機(jī)和數(shù)學(xué)特別是統(tǒng)計學(xué)方面的知識和技能。但由于受課程設(shè)置的影響,很多學(xué)校只把C語言作為計算機(jī)的必修課,而沒有在大一或者大二年級開設(shè)概率論和數(shù)理統(tǒng)計,并且生物統(tǒng)計學(xué)等課程也只是在大三或者大四才作為選修課或者限定選修課來開設(shè)的,造成部分開課專業(yè)學(xué)生的數(shù)理基礎(chǔ)比較薄弱,因此在后續(xù)學(xué)習(xí)中存在一定的困難。
(二)教材內(nèi)容不夠全面
由于生物信息學(xué)發(fā)展日新月異,各種分析生物大數(shù)據(jù)的算法、方法和軟件層出不窮,并且其更新?lián)Q代是非??斓?,而國內(nèi)外相關(guān)教材的內(nèi)容不夠全面,并且其更新速度較慢,不能緊跟生物信息學(xué)的最新發(fā)展,造成教師在授課時要綜合多本生物信息學(xué)教材的內(nèi)容,不利于學(xué)生對生物信息學(xué)內(nèi)容的全面掌握,從而制約了生物信息學(xué)教學(xué)的發(fā)展。
(三)教師的教學(xué)方法單一
生物信息學(xué)課程目前雖然在很多院校已經(jīng)開設(shè),但由于該學(xué)科對教師的授課水平和學(xué)生的學(xué)習(xí)能力要求較高,目前多數(shù)學(xué)校對于生物信息學(xué)的授課方式還是以教師講授為主的填鴨式教學(xué)方式。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的教學(xué)方式和方法遠(yuǎn)不能滿足生物信息學(xué)教學(xué)的需要。
四、生物大數(shù)據(jù)背景下生物信息學(xué)教學(xué)的建議和方法
為了適應(yīng)大數(shù)據(jù)背景下生物信息學(xué)的教學(xué)形勢,針對目前教學(xué)中存在的問題,作者結(jié)合自己的教學(xué)實踐,建議從以下5個方面改進(jìn)和提高生物信息學(xué)教學(xué)。
(一)合理設(shè)置基礎(chǔ)課,強(qiáng)化基礎(chǔ)理論
生物信息學(xué)是一門交叉性很強(qiáng)的學(xué)科,以復(fù)雜而強(qiáng)大的理論體系作為支撐,所涉及的內(nèi)容包括計算機(jī)編程、信息檢索以及數(shù)據(jù)庫技術(shù)等。為了讓學(xué)生學(xué)好生物信息學(xué)這門課程,各院??梢院侠碓O(shè)置生物信息學(xué)的專業(yè)基礎(chǔ)課,將生物信息學(xué)課程定位在大三或者大四年級學(xué)生,在大一、大二年級做好高等數(shù)學(xué)、數(shù)據(jù)庫原理以及Perl語言等與之相關(guān)課程的教學(xué)工作,這些學(xué)生在掌握了一些與生物信息學(xué)相關(guān)的基礎(chǔ)理論知識后,其對生物信息學(xué)的學(xué)習(xí)能力和理解能力才會有較大的提高。此外,學(xué)校要鼓勵學(xué)生了解國內(nèi)外有關(guān)大數(shù)據(jù)和生物信息學(xué)技術(shù)的發(fā)展趨勢,并推薦有代表性且通俗易懂的文章和書籍,以強(qiáng)化學(xué)生的基礎(chǔ)理論體系,為生物信息學(xué)的學(xué)習(xí)提供必要的知識儲備
(二)培養(yǎng)大數(shù)據(jù)意識,加強(qiáng)對大數(shù)據(jù)分析的科學(xué)素養(yǎng)
生命科學(xué)研究已經(jīng)進(jìn)入到大數(shù)據(jù)時代,生物大數(shù)據(jù)的挖掘已經(jīng)在農(nóng)林科學(xué)、醫(yī)學(xué)等領(lǐng)域產(chǎn)生巨大的效益,所以我們要培養(yǎng)學(xué)生樹立大數(shù)據(jù)思維意識,全面認(rèn)識生物大數(shù)據(jù)帶來的機(jī)遇和挑戰(zhàn)。生物信息學(xué)以生物數(shù)據(jù)為對象展開分析,它同時具備具體性和抽象性的特點。具體性是指以數(shù)據(jù)為對象挖掘出的生物學(xué)知識是客觀存在的,其對生物學(xué)規(guī)律的解釋性較強(qiáng);抽象性是針對生物信息學(xué)中的理論和方法而言的,一般要求學(xué)生具有一定的生物信息學(xué)專業(yè)基礎(chǔ)。在進(jìn)行生物信息學(xué)教學(xué)時,要激發(fā)學(xué)生的學(xué)習(xí)興趣,逐漸培養(yǎng)學(xué)生的大數(shù)據(jù)意識,規(guī)范學(xué)生對大數(shù)據(jù)分析的基本方法。可以通過實例,讓學(xué)生參與到具體的生物信息學(xué)分析中去,以便理解生物信息學(xué)數(shù)據(jù)分析的基本操作流程,并在業(yè)余時間開展生物大數(shù)據(jù)在農(nóng)業(yè)和醫(yī)藥行業(yè)成功應(yīng)用的案例調(diào)查,以便激發(fā)學(xué)生利用生物信息學(xué)手段分析大數(shù)據(jù)的熱情。
(三)優(yōu)化教材內(nèi)容,精心安排教學(xué)內(nèi)容
鑒于目前生物信息學(xué)發(fā)展速度快,而國內(nèi)外相關(guān)教材的更新速度較慢,所以要求在生物信息學(xué)教材的選取方面要下大力氣,并且在授課時整合各個教材的優(yōu)點。一般在生物信息學(xué)授課中整合以下三本書的內(nèi)容:David W. Mount編寫的《Bioinformatics Sequence and Genome Analysis》、李霞主編的《生物信息學(xué)》以及陳銘編寫的《生物信息學(xué)》。
在教學(xué)過程中,為了使學(xué)生在有限的課堂教學(xué)時間內(nèi)掌握生物信息學(xué)課程的主要內(nèi)容,首先要優(yōu)化課程教學(xué)體系,統(tǒng)籌安排教學(xué)內(nèi)容,在生物信息授課中要抓住以下兩條主線:序列―結(jié)構(gòu)―功能―進(jìn)化;基因組―轉(zhuǎn)錄組―蛋白組―相互作用組―代謝組,多組學(xué)貫穿。同時針對不同專業(yè)的特點與人才培養(yǎng)目標(biāo)要求,合理分配各章節(jié)的教學(xué)課時,做到突出與專業(yè)密切相關(guān)的內(nèi)容重點精講。如在生物技術(shù)專業(yè)中,增加課時講授分子藥物設(shè)計章節(jié),不僅要讓學(xué)生了解生物信息學(xué)與分子藥物設(shè)計的關(guān)系,而且要讓學(xué)生掌握計算機(jī)輔助藥物設(shè)計的理論方法以及軟件操作。因此,以生物信息學(xué)教學(xué)內(nèi)容的兩條主線為依托,緊密圍繞各專業(yè)的培養(yǎng)目標(biāo),做到理論聯(lián)系實際,構(gòu)建的教學(xué)體系和教學(xué)內(nèi)容既能讓學(xué)生掌握學(xué)科的知識理論體系,又有利于培養(yǎng)學(xué)生理解、分析、運(yùn)用學(xué)科知識解決實際問題的能力。
(四)合理選用教學(xué)方法,提高教學(xué)效果
實踐表明,不同的教學(xué)內(nèi)容采用不同的教學(xué)方法授課可以收到良好的教學(xué)效果。為實現(xiàn)生物信息學(xué)課堂教學(xué)目標(biāo),完成相應(yīng)的教學(xué)任務(wù),教師要根據(jù)每堂課的教學(xué)內(nèi)容,采用合適的教學(xué)方法,調(diào)動學(xué)生學(xué)習(xí)的積極性和主動性,提高課堂教學(xué)效果??梢詮慕鉀Q問題的角度出發(fā)進(jìn)行理論教學(xué)。在理論課教學(xué)中,如果仍沿用傳統(tǒng)的灌輸式教學(xué)模式,肯定達(dá)不到預(yù)期的教學(xué)效果。課堂教學(xué)還可以根據(jù)需要,適時融入案例教學(xué)、問卷調(diào)查、多媒體展示、影片教學(xué)等方法,提高實際教學(xué)效果,培養(yǎng)學(xué)生的綜合素質(zhì)和創(chuàng)新思考能力。
上機(jī)實習(xí)注重發(fā)揮學(xué)生的主觀能動性。生物信息學(xué)是一門實踐性很強(qiáng)的課程,上機(jī)實習(xí)是教學(xué)的重要環(huán)節(jié),它不但能夠幫助學(xué)生更好地理解理論課所學(xué)知識,而且能夠提高學(xué)生運(yùn)用生物信息學(xué)的理論和方法解決實際問題的能力,對培養(yǎng)學(xué)生獨(dú)立思考能力、觀察能力、動手能力起著重要作用,更是培養(yǎng)學(xué)生創(chuàng)新能力的重要途徑。
(五)理論和實踐相結(jié)合,注重考核的靈活化
生物信息學(xué)是一門融合了多個學(xué)科的實踐性很強(qiáng)的課程,對應(yīng)的考核方式應(yīng)該與其他專業(yè)課程有所區(qū)別,其最終的成績不應(yīng)該只以理論課考試的成績?yōu)闇?zhǔn)。理論知識的考核注重學(xué)生對生物信息學(xué)基本概念、分析流程和主要分析算法的掌握情況,主要以試卷考核的方式為主,采用統(tǒng)一考核方式和評判標(biāo)準(zhǔn)。對于上機(jī)技能的考核,主要強(qiáng)調(diào)的是學(xué)生對不同類型數(shù)據(jù)進(jìn)行分析時應(yīng)掌握的相關(guān)軟件使用技能的考查,也應(yīng)納入到學(xué)生的成績考核中,我們認(rèn)為理論考試占70分、實習(xí)成績占30分是一個好的評價方式。
五、結(jié)束語
大數(shù)據(jù)背景下對生物信息學(xué)的教學(xué)提出了新的更高的要求。本文針對《生物信息學(xué)》教學(xué)中存在的問題,結(jié)合自己的教學(xué)經(jīng)歷對改進(jìn)生物信息學(xué)教學(xué)和方法進(jìn)行了一些探討。本文認(rèn)為要做好大數(shù)據(jù)時代的生物信息學(xué)教學(xué),要從強(qiáng)化基礎(chǔ)理論、培養(yǎng)大數(shù)據(jù)意識、精心設(shè)計教學(xué)內(nèi)容、創(chuàng)新教學(xué)方法和改革考核評價體系等五個方面來開展和抓好生物信息學(xué)教學(xué)。
參考文獻(xiàn):
關(guān)鍵詞: 離散數(shù)學(xué) 簡介 應(yīng)用
1.離散數(shù)學(xué)的簡介
離散數(shù)學(xué)是現(xiàn)代數(shù)學(xué)的一個重要分支,是計算機(jī)類專業(yè)的重要課程。它以研究離散量的結(jié)構(gòu)及相互間的關(guān)系為主要目標(biāo),研究對象一般是有限個或可數(shù)個元素,因此離散數(shù)學(xué)可以充分描述計算機(jī)學(xué)科離散性的特點。它是傳統(tǒng)的邏輯學(xué)、集合論(包括函數(shù))、數(shù)論基礎(chǔ)、算法設(shè)計、組合分析、離散概率、關(guān)系理論、圖論與樹、抽象代數(shù)、布爾代數(shù),計算模型(語言與自動機(jī))等匯集起來的一門綜合學(xué)科。該課程主要介紹離散數(shù)學(xué)的各個分支的基本概念、基本理論和基本方法。這些概念、理論及方法大量地應(yīng)用于數(shù)字電路、編譯原理、數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、算法的分析與設(shè)計、人工智能、計算機(jī)網(wǎng)絡(luò)等專業(yè)課程中;同時,該課程提供的訓(xùn)練有益于學(xué)生概括抽象能力、邏輯思維能力、歸納構(gòu)造能力的提高,有利于學(xué)生嚴(yán)謹(jǐn)、完整、規(guī)范的科學(xué)態(tài)度的培養(yǎng)。
2.離散數(shù)學(xué)在其他學(xué)科的應(yīng)用
2.1數(shù)理邏輯在人工智能中的應(yīng)用
人工智能是計算機(jī)學(xué)科一個非常重要的方向。離散數(shù)學(xué)在人工智能中的應(yīng)用,主要是數(shù)理邏輯部分在人工智能中的應(yīng)用,包括命題邏輯和謂詞邏輯。命題邏輯就是研究以命題為單位進(jìn)行前提與結(jié)論之間的推理,而謂詞邏輯就是研究句子內(nèi)在的聯(lián)系。人工智能共有兩個流派:連接主義流派和符號主義流派。在符號主義流派里,他們認(rèn)為現(xiàn)實世界的各種事物可以用符號的形式表示出來,其中最主要的就是人類的自然語言可以用符號進(jìn)行表示。語言的符號化就是數(shù)理邏輯研究的基本內(nèi)容,計算機(jī)智能化的前提就是將人類的語言符號化成機(jī)器可以識別的符號,這樣計算機(jī)才能進(jìn)行推理,才能具有智能。由此可見,數(shù)理邏輯中重要的思想、方法及內(nèi)容貫穿人工智能的整個學(xué)科。
2.2圖論在數(shù)據(jù)結(jié)構(gòu)中的應(yīng)用
離散數(shù)學(xué)在數(shù)據(jù)結(jié)構(gòu)中的應(yīng)用,主要是圖論部分在數(shù)據(jù)結(jié)構(gòu)中的應(yīng)用,其中樹在圖論中占著重要的地位。樹是一種非線性數(shù)據(jù)結(jié)構(gòu),在現(xiàn)實生活中可以用樹來表示某一家族的家譜或某公司的組織結(jié)構(gòu),也可以用它來表示計算機(jī)中文件的組織結(jié)構(gòu),樹中二叉樹在計算機(jī)科學(xué)中有著重要的應(yīng)用。二叉樹中三種遍歷方法:前序遍歷法、中序遍歷法和后序遍歷法,均與離散數(shù)學(xué)中的圖論有密不可分的關(guān)系。
2.3離散數(shù)學(xué)在生物信息學(xué)中的應(yīng)用
生物信息學(xué)是現(xiàn)代計算機(jī)科學(xué)一個嶄新的分支,是計算機(jī)科學(xué)與生物學(xué)相結(jié)合的產(chǎn)物。目前,美國有一個國家實驗室Sandia國家實驗室,主要進(jìn)行組合編碼理論和密碼學(xué)的研究,該機(jī)構(gòu)在美國和國際學(xué)術(shù)界有很高的地位。另外,由于DNA是離散數(shù)學(xué)中的序列結(jié)構(gòu),美國科學(xué)院院士,近代離散數(shù)學(xué)的奠基人Rota教授預(yù)言,生物學(xué)中的組合問題將成為離散數(shù)學(xué)的一個前沿領(lǐng)域。而且IBM公司將成立一個生物信息學(xué)研究中心。在1994年,美國計算機(jī)科學(xué)家阿德勒曼公布了DNA計算機(jī)的理論,并成功地運(yùn)用DNA計算機(jī)解決了一個有向哈密爾頓路徑問題,這一成果迅速在國際產(chǎn)生了巨大反響,同時引起了國內(nèi)學(xué)者的關(guān)注。DNA計算機(jī)的基本思想是:以DNA堿基序列作為信息編碼的載體,利用現(xiàn)代分子生物學(xué)技術(shù),在試管內(nèi)控制酶作用下的DNA序列反應(yīng),作為實現(xiàn)運(yùn)算的過程;這樣,以反應(yīng)前DNA序列作為輸入的數(shù)據(jù),反應(yīng)后的DNA序列作為運(yùn)算的結(jié)果,DNA計算機(jī)幾乎能夠解決所有的NP完全問題。
2.4離散數(shù)學(xué)在門電路設(shè)計中的應(yīng)用
在數(shù)字電路中,離散數(shù)學(xué)的應(yīng)用主要體現(xiàn)在數(shù)理邏輯部分的使用。在數(shù)字電路中,廣于使用的邏輯代數(shù)即為布爾代數(shù)。邏輯代數(shù)中的邏輯運(yùn)算與、或、非、異或與離散數(shù)學(xué)中的合取,析取、否定、異或(排斥或)相對應(yīng)。數(shù)字電路的學(xué)習(xí)重點在于掌握電路設(shè)計技術(shù),在設(shè)計門電路時,要求設(shè)計者根據(jù)給出的具體邏輯問題,求出實現(xiàn)這一邏輯功能的邏輯電路。
總之,離散數(shù)學(xué)無處不在,它的主要應(yīng)用就是在各種復(fù)雜關(guān)系中找出最優(yōu)的方案。離散數(shù)學(xué)完全可以看成是一門量化的關(guān)系學(xué),一門量化了的運(yùn)籌學(xué),一門量化了的管理學(xué)?,F(xiàn)在我國每一所大學(xué)的計算機(jī)專業(yè)都開設(shè)離散數(shù)學(xué)課程,正是由于離散數(shù)學(xué)在計算機(jī)科學(xué)中的重要應(yīng)用,因此可以說沒有離散數(shù)學(xué)就沒有計算機(jī)理論,也就沒有計算機(jī)科學(xué)。所以應(yīng)努力學(xué)習(xí)離散數(shù)學(xué),推動離散數(shù)學(xué)的研究,使它在計算機(jī)中有著更廣泛的應(yīng)用。
參考文獻(xiàn):
[1]朱家義,苗國義,等.基于知識關(guān)系的離散數(shù)學(xué)教學(xué)內(nèi)容設(shè)計[J].計算機(jī)教育,2010(18):98-100.
[2]方世昌.離散數(shù)學(xué).西安電子科技大學(xué)出版社,1985.
[3]陳敏,李澤軍.離散數(shù)學(xué)在計算機(jī)學(xué)科中的應(yīng)用[J].電腦知識與技術(shù),2009,5(1):251-252.
關(guān)鍵詞:生物統(tǒng)計學(xué);教學(xué)效果;課堂效率
中圖分類號 G642.0 文獻(xiàn)標(biāo)識碼 A 文章編號 1007-7731(2017)06-0182-02
Study on Improving Teaching Efficience on Biology Statistics
Fang Ming et al.
(College of Life Science and Technology,Heilongjiang August First Land Reclamation University,Daqing 163319,China)
Abstract:Biology statistics is an fundamental professional classes in life and technology college and very important status in agricultural practice.However,current teaching methods existed many problems.Therefore,the article reformed three aspects of theory and practice and test so as to improve class efficiency and teaching effects.
Key words:Biology statistics;Teaching effects;Teaching efficience
生物y計學(xué)是高等院校農(nóng)學(xué)、動物科學(xué)以及生命科學(xué)專業(yè)的必修課程之一,生命科學(xué)的快速發(fā)展、大量數(shù)據(jù)的涌現(xiàn)使得生物統(tǒng)計學(xué)重要性日益凸顯,但是在課堂教學(xué)實踐上存在嚴(yán)重問題,筆者在課堂實踐中感受到,傳統(tǒng)的“滿堂灌”授課方式在生物統(tǒng)計學(xué)中教學(xué)效果不好,因此,本文針對生物統(tǒng)計學(xué)課程目前存在的問題,從課程基本理論、實驗、考核方式等方面進(jìn)行改進(jìn)和完善,優(yōu)化教學(xué)方法,改革教學(xué)方式,提高教學(xué)質(zhì)量和教學(xué)效果。
1 改善教學(xué)方法,提高課堂學(xué)習(xí)效率
1.1 完善課程資料,豐富課堂活動 學(xué)習(xí)“生物統(tǒng)計學(xué)”課程需要具備一定的高等數(shù)學(xué)、線性代數(shù)、概率與數(shù)理統(tǒng)計知識,對于農(nóng)業(yè)大學(xué)普通本科生來說,由于在大一階段學(xué)得不夠詳細(xì)深入,學(xué)起來難度較大。教師在黑板上寫滿數(shù)學(xué)大公式,枯燥乏味,學(xué)生數(shù)學(xué)基礎(chǔ)差,聽不懂課,缺乏課堂互動,久而久之,教師授課缺乏動力,形成惡性循環(huán)。因此教師需要在授課風(fēng)格、內(nèi)容、學(xué)習(xí)方法等多方面做必要的調(diào)整[1]。首先要激發(fā)學(xué)生的學(xué)習(xí)興趣,強(qiáng)調(diào)本門課程在生產(chǎn)和科研中的地位和作用,使學(xué)生意識到課程的重要性,激發(fā)學(xué)生的求知熱情;其次教師需要重視課件的質(zhì)量。課件要求生動、形象的展示教學(xué)內(nèi)容,需要突出教學(xué)重點,在教學(xué)方法、版書設(shè)計等方面精心設(shè)計,精心準(zhǔn)備上課資源,包括PPT、論文、Word和Excel、SPSS 等。要讓課件的內(nèi)容富有新鮮感,將知識性與趣味性結(jié)合起來。講解內(nèi)容需要具有詳細(xì)的操作步驟,能夠促進(jìn)學(xué)生理解和操作。
1.2 推薦簡單實用統(tǒng)計軟件,簡化繁冗程序 目前統(tǒng)計學(xué)上國際通用的軟件包主要有SAS、SPSS等,功能強(qiáng)大;但針對農(nóng)科院校的本科生而言,難以理解,而且是英文界面,結(jié)合多年教學(xué)經(jīng)驗,圍繞教學(xué)目標(biāo)逐步展開學(xué)習(xí)。研究者向?qū)W生推薦EXCEL,它基本能滿足本科教學(xué)的需要,操作簡便,建議在教學(xué)中推薦使用。
1.3 教學(xué)手段和方式方法的多樣化 在課程講授中要根據(jù)不同的教學(xué)內(nèi)容采用不同的教學(xué)方式和方法。對于統(tǒng)計學(xué)基本理論,以講授為主,講清楚基本概念,說明其意義及應(yīng)用條件。對于統(tǒng)計分析方法,引導(dǎo)學(xué)生運(yùn)用數(shù)理統(tǒng)計原理探究問題和方法,培養(yǎng)學(xué)生的統(tǒng)計思維能力[2]。對于以文字?jǐn)⑹鰹橹髑胰菀桌斫獾膬?nèi)容,指導(dǎo)學(xué)生自學(xué),組織課堂討論,以學(xué)生為主體,可以使學(xué)生的自學(xué)能力、思維能力增強(qiáng),培養(yǎng)學(xué)生總結(jié)歸納和表達(dá)的能力。在授課過程中更多地創(chuàng)造機(jī)會讓學(xué)生參與教學(xué)過程,老師多提出問題,讓學(xué)生與教師多進(jìn)行良性互動,可以使學(xué)生的文字及口頭表達(dá)能力得到全面提高。每次授課結(jié)束后,布置一定量的課后習(xí)題,督促學(xué)生及時復(fù)習(xí)所學(xué)知識,從而對所學(xué)內(nèi)容得到鞏固和提高[3]。
2 優(yōu)化實驗內(nèi)容,注重培養(yǎng)學(xué)生操作能力
生物統(tǒng)計學(xué)實驗教學(xué)主要是培養(yǎng)學(xué)生綜合運(yùn)用基本理論和方法解決實際問題的能力。通過理論課上的講授和練習(xí)后,學(xué)生基本全能掌握所學(xué)內(nèi)容,但練習(xí)的內(nèi)容與實踐相脫節(jié),所以實驗課的內(nèi)容以綜合性、設(shè)計性實驗為主,充分發(fā)揮學(xué)生的主觀能動性和綜合分析及解決問題的能力。實驗課前,教師將要求學(xué)生熟悉實驗內(nèi)容[4]。上課時,學(xué)生根據(jù)內(nèi)容上機(jī)操作學(xué)習(xí),要求學(xué)生書寫操作步驟,教師現(xiàn)場進(jìn)行答疑,課后教師認(rèn)真批閱電子版的實驗報告后,再將學(xué)生的問題、成績及評語反饋給學(xué)生。若實驗中學(xué)生出現(xiàn)共性問題,教師則先將問題給學(xué)生講解清楚再進(jìn)行下節(jié)課的學(xué)習(xí)。通過師生之間的不斷交流,教師可以及時掌握學(xué)生學(xué)習(xí)情況,有利于教師不斷調(diào)整教學(xué)方法及進(jìn)度以達(dá)到更好的教學(xué)效果。由此可見,通過各種相關(guān)的教材、網(wǎng)絡(luò)、學(xué)院科研成果等方面的積累,收集大量的案例數(shù)據(jù),建立富有學(xué)科特色的案例素材庫,將實驗內(nèi)容與專業(yè)實驗相結(jié)合,促進(jìn)科研成果向教學(xué)資源的轉(zhuǎn)化,豐富生物統(tǒng)計學(xué)的實驗內(nèi)容。教學(xué)內(nèi)容的增加,開闊了學(xué)生視野,很多學(xué)生通過查閱文獻(xiàn),根據(jù)實驗室條件,選定因素、水平可以獨(dú)立設(shè)計試驗和進(jìn)行數(shù)據(jù)處理[5]。
3 改革考試方式
考試能夠直接反饋教學(xué)效果,《生物統(tǒng)計學(xué)》的教學(xué)內(nèi)容主要包括理論知識和綜合應(yīng)用兩大部分,考試主要圍繞理論知識和實際操作能力兩個方面展開[6]。準(zhǔn)確反映學(xué)生對于《生物統(tǒng)計學(xué)》的掌握程度。將理論知識與實際應(yīng)用的比例應(yīng)調(diào)整為5∶5,平時成績與期末成績的比例調(diào)整為3∶7或4∶6,降低考試的偶然誤差。增加命題的多樣化,重點考察學(xué)生基本知識的掌握程度及解決實際問題的能力,通過考察軟件操作等方式來測試學(xué)生對統(tǒng)計知識的運(yùn)用能力。
由此可見,本研究針對生物統(tǒng)計學(xué)課程實踐性、應(yīng)用性強(qiáng)的特點和目前教學(xué)中存在的問題,采取了理論教學(xué)與實驗教學(xué)緊密結(jié)合、強(qiáng)化軟件應(yīng)用教學(xué)、制作多媒體課件輔助教學(xué)、改革考核方式以及建設(shè)開放式數(shù)量分析實驗室等多種措施,增強(qiáng)了學(xué)生學(xué)習(xí)生物統(tǒng)計學(xué)的興趣,進(jìn)一步培養(yǎng)了學(xué)生運(yùn)用生物統(tǒng)計方法分析和解決問題的能力,取得了較好的教學(xué)效果。在今后的生物統(tǒng)計學(xué)實驗教學(xué)中,教師需要與時俱進(jìn),根據(jù)教學(xué)和科研需要,不斷更新教學(xué)內(nèi)容,采用先進(jìn)的教學(xué)模式、教學(xué)方法和考核手段,使學(xué)生積極、快樂地學(xué)到知識,培養(yǎng)了學(xué)生邏輯思維能力、語言表達(dá)能力和自學(xué)能力,同時提高學(xué)生發(fā)現(xiàn)問題、解決問題的能力。
參考文獻(xiàn)
[1]呂敏芝,林樹茂,何蘭花,等.生物統(tǒng)計學(xué)教學(xué)改革實踐與體會[J].中山大學(xué)學(xué)報論從,2007,27(4).
[2]葉子弘,崔海峰,陳 春,等.生物統(tǒng)計學(xué)課程“能力素質(zhì)培訓(xùn)計劃”的構(gòu)建及分析[J].安徽農(nóng)業(yè)科學(xué),2011,39(10):6268-6269.
[3]張強(qiáng),張建平.生物統(tǒng)計學(xué)實驗教學(xué)的探索與實踐[J].實驗室科學(xué),2012,15(6).
[4]丁雪梅,張曉君,譚智敏,等.生物統(tǒng)計學(xué)實驗教學(xué)改革的探索與實踐[J].黑龍江畜牧獸醫(yī),2014.
[5]朱香萍,李楨,張庭榮.信息時代《生物統(tǒng)計學(xué)》教學(xué)的探索與實踐[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2008(2).
關(guān)鍵詞:基于內(nèi)容圖像檢索;相關(guān)反饋;主動學(xué)習(xí);樣本選擇
中圖法分類號:TP391 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2013)04-
Research on Reference Feedback based on Active Learning
WU Weining, LIU Yang, GUO Maozu*, WANG Chunyu, LIU Xiaoyan
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001)
Abstract: Reference feedback is a common technique in the field of information retrieval. Recently, it has been widely applied in the task of content-based image retrieval (CBIR) in order to overcome the gap between low features and high semantic concepts by utilizing the user-computer interaction. This paper combines the active learning into reference feedback technique. The goal is to choose the most informative images in the unlabeled pool as returned images by using the active learning, and then reduces the feedback times. On the COREL database and VOC database, the paper evaluates the proposed method. The experimental results indentify that the reference feedback based on active learning can effectively enhance the performance of CBIR system.
Keywords: Content-based Image Retrieval; Reference Feedback; Active Learning; Sampling Strategy
0 引言
相對文本而言,圖像包含的內(nèi)容則要豐富得多。由于互聯(lián)網(wǎng)的發(fā)展,web上的圖片數(shù)量正日趨龐大,圖像包含的語義信息亦千差萬別,另外具有相同語義信息的圖像數(shù)量頁在與日俱增。因此,作為信息檢索中一個重要分支,基于內(nèi)容的圖像檢索(CBIR)已成為關(guān)注熱點。
CBIR方法是以一幅圖像作為單位,通過使用圖像領(lǐng)域的前沿技術(shù),提取圖像的視覺特征,例如:顏色,紋理等。當(dāng)用戶查找圖像時,搜索引擎根據(jù)用戶所提供的圖像視覺特征,尋找與之相似的圖像。這一做法避免了TBIR策略存在的問題,可直接對圖像進(jìn)行操作。但是,由于圖像處理技術(shù)的局限性,單純提取圖像底層特征很難完整描述圖像包含語義信息,并且,圖像所屬的不同領(lǐng)域,所包含的視覺對象之間具有的空間信息等,也會對圖像的語義信息產(chǎn)生很大的影響。為了使搜索引擎能夠根據(jù)用戶提供的高層語義概念返回與用戶選擇圖像語義最為接近的圖像,相關(guān)反饋技術(shù)則提供了一種良好的實現(xiàn)途徑。該技術(shù)是使得檢索系統(tǒng)可根據(jù)算法選擇少部分圖像返回給用戶,用戶對這些圖像給出標(biāo)記信息,學(xué)習(xí)系統(tǒng)再從這些標(biāo)記圖像中進(jìn)行知識學(xué)習(xí),并利用這些新知識提供新的檢索結(jié)果。
根據(jù)相關(guān)反饋過程的特點,主動學(xué)習(xí)技術(shù)可以有效地用于該過程。具體做法是通過采樣算法選擇對檢索系統(tǒng)最有利的部分樣例作為反饋圖像,并將這些圖像提交給用戶進(jìn)行標(biāo)記。使用主動學(xué)習(xí)技術(shù)選擇反饋圖像的目的是減少提升檢索系統(tǒng)性能所需要的反饋圖像數(shù)量,同時也一并減少用戶的工作量和提交反饋圖像標(biāo)記的次數(shù)。根據(jù)這一目的,本文提出一種基于主動學(xué)習(xí)算法的相關(guān)反饋技術(shù),利用主動學(xué)習(xí)技術(shù)從大量無標(biāo)注待檢索圖像中選擇信息含量最大的圖像,將這些圖像作為反饋圖像,提交用戶進(jìn)行標(biāo)注,由此而減少用戶標(biāo)記反饋圖像的次數(shù)和數(shù)量,并提高CBIR系統(tǒng)的性能。本文主要工作和貢獻(xiàn)概述如下:根據(jù)CBIR圖像系統(tǒng)中給出的目標(biāo)圖像,學(xué)習(xí)一個直推向量機(jī)模型[1](Transductive Support Vector, TSVM);使用該模型對圖像庫中的所有待檢索圖像與目標(biāo)圖像的相似程度進(jìn)行預(yù)測;根據(jù)預(yù)測結(jié)果計算圖像對應(yīng)的信息熵值,選擇信息熵的絕對值最小的一組圖像作為反饋圖像,提交用戶獲取標(biāo)記信息;將標(biāo)注后的圖像用于進(jìn)一步學(xué)習(xí)直推向量機(jī)模型,上述訓(xùn)練過程迭代進(jìn)行,直至達(dá)到用戶滿意的檢索效果為止。結(jié)合提出的算法過程,本文在Visual Studio 2005平臺開發(fā)和實現(xiàn)了這一圖像檢索系統(tǒng),并在COREL圖像庫上對系統(tǒng)性能進(jìn)行了實驗驗證,實驗結(jié)果證明了系統(tǒng)的有效性。
1 相關(guān)工作
基于內(nèi)容的圖像檢索(CBIR)方法可以被視作機(jī)器學(xué)習(xí)領(lǐng)域中的分類問題,即根據(jù)所給出的待檢索圖像,學(xué)習(xí)一個分類模型,利用該模型將圖像庫中的圖像劃分為目標(biāo)圖像和非目標(biāo)圖像。在檢索過程中,一個首要的問題是如何克服圖像的底層特征與高層語義概念之間的語義鴻溝。為了解決這一問題,相關(guān)反饋技術(shù)通過向用戶提交查詢的方式,讓用戶提供一部分圖像的語義信息,根據(jù)反饋圖像中的語義信息,提升系統(tǒng)檢索的準(zhǔn)確度。另外,隨著用戶提交反饋次數(shù)的增加,學(xué)習(xí)系統(tǒng)逐步將反饋的圖像添加到學(xué)習(xí)系統(tǒng)的訓(xùn)練集中,并使用增量學(xué)習(xí)的方式,學(xué)習(xí)用戶提供的語義知識。值得注意的是,使用相關(guān)反饋技術(shù)的CBIR系統(tǒng)的學(xué)習(xí)方式與主動學(xué)習(xí)算法具有很大的相似性,因此,利用主動學(xué)習(xí)算法設(shè)計相關(guān)反饋,提升CBIR系統(tǒng)的精度,這一做法越發(fā)受到研究人員的廣泛重視,成為研究熱點。
目前,已有一些研究人員致力于將主動學(xué)習(xí)算法應(yīng)用于相關(guān)反饋技術(shù)中,并取得了良好的實際效果。這些做法可以分為兩大類。第一類是委員會投票方法[2,3],此類做法的特點是在同一個圖像集上同時學(xué)習(xí)多個分類模型,并使用這些模型對同一個無標(biāo)注圖像的類別進(jìn)行投票,選擇分類模型差異程度最大的圖像作為反饋圖像;第二類是基于不確定度的反饋方法[1],這類做法的特點是使用當(dāng)前分類模型對無標(biāo)注圖像的類別進(jìn)行預(yù)測,并根據(jù)分類模型的預(yù)測結(jié)果計算分類模型對圖像的置信度,再選擇當(dāng)前分類模型最不確定的圖像交由用戶進(jìn)行反饋。
首先,訓(xùn)練集已知的情況下,Platt提出一種貪心算法[4],根據(jù)無標(biāo)記樣例對應(yīng)的未來期望誤差,從無標(biāo)記樣例集合中選擇訓(xùn)練樣例,目的是通過選擇未來期望誤差最小的樣例,逐步搜索主動學(xué)習(xí)算法的全局最優(yōu)解。但是,這一做法的缺點是,為了計算每個無標(biāo)記樣例的未來期望誤差,需要分別計算該樣例被添加正類標(biāo)記和負(fù)類標(biāo)記后對分類模型的影響,即多次重新訓(xùn)練分類模型。如果無標(biāo)記樣例數(shù)量巨大,這一做法的計算消耗很大,因此,很難滿足檢索系統(tǒng)的要求。近年來,支持向量機(jī)模型以其在小樣本學(xué)習(xí)問題上的卓越性能受到了廣泛關(guān)注。針對該支持向量機(jī)模型的啟發(fā)式主動學(xué)習(xí)算法也隨之得到了更多的研究與使用,例如:Schohn提出了一種啟發(fā)式的SVM主動學(xué)習(xí)算法,通過核空間將圖像的底層特征維度無限放大,獲得了一個特征維度數(shù)目遠(yuǎn)遠(yuǎn)高于樣本數(shù)量的稀疏空間,而主動學(xué)習(xí)的做法是選擇包含盡可能多的維度信息的樣例作為包含信息含量最高的樣例。事實證明,這種方法不但可以獲得近似于貪心算法的結(jié)果,而且運(yùn)行效率更高[5]。在該類做法中,包含維度信息最多的樣例主要集中在距離支持向量機(jī)的分類超平面較近的位置,因此,這一主動學(xué)習(xí)算法主要選擇距離分類界面最近的樣例作為反饋樣例。與Schohn的做法不同的是,Zhou提出了SSAIR算法[6]。該算法通過利用半監(jiān)督學(xué)習(xí)中的co-training算法,結(jié)合主動學(xué)習(xí)中的co-testing模式,使用co-training中訓(xùn)練得到的兩個分類模型對測試樣本進(jìn)行投票分類,最終,采用兩個分類模型產(chǎn)生分歧的樣本作為供用戶反饋的備選樣本。與其它用于該領(lǐng)域的主動學(xué)習(xí)算法不同的是,這一做法改變了傳統(tǒng)反饋圖像集由用戶在前次檢索中系統(tǒng)認(rèn)定的與待查詢圖像最相關(guān)的那些圖像來構(gòu)成的定則,而是通過分類模型的投票來選擇反饋圖像集,盡最大可能改進(jìn)檢索系統(tǒng)的性能。
以上兩類做法中,第一類方法需要同時學(xué)習(xí)多個模型,計算量和時間消耗較大,為了滿足圖像檢索系統(tǒng)的實時性要求,本文選擇第二類方法選擇反饋圖像。事實上,Schohn和Zhou提出的主動學(xué)習(xí)算法的共同特點是,認(rèn)為分類模型最不確定或者置信度最低的樣例是無標(biāo)記圖像中信息含量最大的樣例,在具體做法中則表現(xiàn)為多個分類模型彼此間分歧最大或者距離分類超平面最近的樣例,選擇這些樣例進(jìn)行標(biāo)記,可最大限度提高分類模型的性能。與這些方法不同的是,本文提出一種最大信息熵的主動學(xué)習(xí)算法,在所有無標(biāo)注樣例中,選擇樣例對應(yīng)的信息熵值最大的樣例點作為信息含量最大的樣例,并以此作為反饋樣例。算法的目的是在有限的檢索時間條件下,更加有效衡量樣例的信息含量,由此提高檢索系統(tǒng)的性能。
2 基于主動學(xué)習(xí)的相關(guān)反饋算法
2.1信息熵最大化采樣策略
本節(jié)詳細(xì)介紹了信息熵最大化這一采樣策略,為了方便理解,首先給出問題的基本概念。因為基于相關(guān)反饋技術(shù)的圖像檢索系統(tǒng)是一個迭代的學(xué)習(xí)過程,這里假定在第輪迭代中,訓(xùn)練集表示為,其中,分別表示訓(xùn)練樣例及其對應(yīng)的標(biāo)記信息。因為圖像檢索可看作是將待檢索圖像劃分為正類和負(fù)類的過程,故有。本文使用TSVM作為分類模型,則在當(dāng)前迭代步中,TSVM算法學(xué)習(xí)的分類超平面為:
這里,和分別表示訓(xùn)練樣本和無標(biāo)記樣本在核空間的距離,是偏差項。對于任意一個無標(biāo)記樣本,不考慮相同的歸一化系數(shù),該樣本與分類超平面之間的距離是:
鑒于TSVM模型僅能提供無標(biāo)記樣本與分類界面之間的距離,而無法提供樣本與對應(yīng)的類別標(biāo)記之間的精確概率輸出,為此,本文在這里使用了sigmoid函數(shù),通過擬合的方法獲得樣本對應(yīng)類別標(biāo)記的后驗概率值,即:
其中,參數(shù)和使用Platt[7]中的優(yōu)化算法,迭代求解得到。根據(jù)無標(biāo)記樣本對應(yīng)的后驗概率值,無標(biāo)記樣本對應(yīng)的信息熵值可以通過下式計算:
根據(jù)計算得到的信息熵值,選擇信息熵值最大的樣本,作為本輪迭代中最適合加入到訓(xùn)練集中的無標(biāo)記樣本,,即:
2.2 基于主動學(xué)習(xí)的相關(guān)反饋過程
信息熵是信息論中反映樣本信息含量的指標(biāo)之一,鑒于此,信息熵也經(jīng)常在機(jī)器學(xué)習(xí)算法中作為樣本信息含量的度量標(biāo)準(zhǔn)。值得注意的是,在公式(5)中,分類模型對無標(biāo)注樣本的預(yù)測概率越接近于0.5,無標(biāo)注樣本對應(yīng)的信息熵值越大,該樣本的不確定程度也就越大。在這一點上,信息熵最大化采樣策略與基于不確定程度的采樣策略的目標(biāo)是一致的。在圖像檢索的相關(guān)反饋過程中,本文使用信息熵最大化采樣策略,由待檢索圖像中選擇反饋圖像,提交用戶做出標(biāo)記,將標(biāo)記后的樣本用于分類模型的訓(xùn)練過程,這個過程迭代進(jìn)行,直至用戶滿意為止。下面,給出了基于主動學(xué)習(xí)的相關(guān)反饋的算法過程。
算法:基于主動學(xué)習(xí)的相關(guān)反饋算法
輸入:標(biāo)記圖像集,無標(biāo)記圖像集,反饋圖像數(shù)量
輸出:檢索結(jié)果
BeginFor
(1)在標(biāo)記圖像集上學(xué)習(xí)TSVM分類模型,獲得公式(1)中的分類超平面;
(2)根據(jù)分類超平面,使用公式(2)計算每一個無標(biāo)記樣本與該分類界面之間的距離;
(3)通過公式(3)中的sigmoid函數(shù)擬合,獲得無標(biāo)記樣本對應(yīng)的后驗概率值;
(4)使用公式(4)逐個計算無標(biāo)記樣本的信息熵值;
(5)選擇信息熵值最大的個無標(biāo)記樣本作為反饋圖像,提交給用戶進(jìn)行標(biāo)記;
(6),;
(7)如果用戶對當(dāng)前檢索結(jié)果滿意,則結(jié)束,否則返回步驟1,。
EndFor
在上面的反饋過程中,每輪迭代中,檢索系統(tǒng)返回信息熵最大的一組樣本提交給用戶標(biāo)注,該做法可以減少迭代次數(shù),在用戶可接受的范圍內(nèi),盡可能多地提供標(biāo)注樣本用于訓(xùn)練。
3 實驗結(jié)果與分析
3.1數(shù)據(jù)庫及實驗設(shè)計
本實驗使用COREL圖像庫中的3類圖像作為待檢索圖像,每類圖像包含100幅圖像,這3個圖像類別分別是鷹,魚和馬。本文分別提取每一幅圖像的特征組成樣本集合,使用TSVM作為分類模型,用于從CBIR系統(tǒng)中獲得檢索結(jié)果。在每一組實驗中,首先,從待檢索圖像中隨機(jī)抽取一幅圖像作為目標(biāo)圖像,訓(xùn)練TSVM模型;根據(jù)該模型的預(yù)測結(jié)果,計算每一幅圖像的信息熵值,并選擇信息熵最大的五幅圖像作為反饋圖像();提交用戶標(biāo)記后,將反饋圖像和標(biāo)記用于訓(xùn)練TSVM模型,同時給出檢索結(jié)果;該過程循環(huán)進(jìn)行,直至達(dá)到結(jié)束標(biāo)準(zhǔn)為止。本文使用查全率(precision)作為圖像檢索結(jié)果的評價標(biāo)準(zhǔn),其中,檢索系統(tǒng)劃分的相關(guān)圖像數(shù)量是100幅,召回圖像數(shù)量是20幅。
3.2實驗結(jié)果
在表1和表2中,本文給出了反饋次數(shù)為5次,并使用不同的圖像底層特征條件下,在不同語義類別上,CBIR系統(tǒng)的檢索結(jié)果。從實驗結(jié)果可以看出,使用最大墑作為樣本信息含量的度量標(biāo)準(zhǔn),基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)在圖像檢索系統(tǒng)中取得了良好的檢索結(jié)果。隨著反饋次數(shù)的增加,CBIR系統(tǒng)的檢索結(jié)果得到逐步提高。同時,表1和表2的對比還可以發(fā)現(xiàn),顏色稀疏和相關(guān)圖組成的混合特征獲得了比SIFT特征更好的檢索結(jié)果,這是因為前者的維度高于后者,提供了更多的圖像底層語義信息,由此而提高了檢索效果。
表1 顏色稀疏和相關(guān)圖的混合特征條件下,不同反饋次數(shù)時,CBIR系統(tǒng)檢索精度
Tab. 1. Using sparse color and related features, different feedback times, the precision of CBIR system
初始值
反饋1次
反饋2次
反饋3次
反饋4次
反饋5次
鷹
0.71
0.724
0.73
0.628
0.732
0.75
馬
0.502
0.522
0.428
0.526
0.522
0.604
魚
0.494
0.538
0.504
0.536
0.572
0.468
表2 SIFT特征條件下,不同反饋次數(shù)時,CBIR系統(tǒng)檢索精度
Tab.2 Using SIFT features, different feedback times, the precision of CBIR system
初始值
反饋1次
反饋2次
反饋3次
反饋4次
反饋5次
鷹
0.5
0.756
0.39
0.71
0.774
0.622
馬
0.44
0.376
0.406
0.406
0.472
0.424
魚
0.25
0.314
0.22
0.358
0.23
0.334
在圖1和圖2中,本文給出了使用基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)在CBIR系統(tǒng)中的檢索結(jié)果。除了使用COREL圖像庫作為檢索圖像庫之外,本文還增加了VOC圖像庫(包含20類,共計5 011幅圖像)作為檢索圖像庫,對所提出方法進(jìn)行實驗驗證。從圖1和圖2中可以看出,基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)可以有效提升CBIR系統(tǒng)的檢索性能。
(a) Car類別
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后的檢索結(jié)果
(b) Aeroplane類別
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后的檢索結(jié)果
圖1 VOC圖像庫上,使用基于主動學(xué)習(xí)相關(guān)反饋技術(shù)的圖像檢索結(jié)果
Fig.1 The retrieval results on VOC database by using feedback techniques based on active learning algorithm
(a) Eagle類別
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后檢索結(jié)果
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后檢索結(jié)果
圖2 COREL圖像庫上,使用基于主動學(xué)習(xí)相關(guān)反饋技術(shù)的檢索結(jié)果。
Fig.2 The retrieval results on COREL database by using feedback techniques based on active learning algorithm
4 結(jié)束語
本文利用了主動學(xué)習(xí)算法在選擇訓(xùn)練樣本方面,相對于隨機(jī)選擇方法的優(yōu)勢,提出了一種基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)。在所提出的技術(shù)中,算法利用了分類模型最不確定的樣本可以提供更多反饋信息的特點,使用信息熵作為樣本信息含量的度量標(biāo)準(zhǔn),選擇每輪迭代過程中,信息熵值最大的樣本作為反饋樣本,達(dá)到了增量學(xué)習(xí),提升檢索系統(tǒng)性能的目的。本文使用COREL圖像庫和VOC圖像庫,對所提出方法的性能進(jìn)行驗證,實驗結(jié)果證明所提出方法的有效性。
參考文獻(xiàn)
[1] CHEN J X. Active learning for transductive support vector machines with applications to text classification[J]. 計算機(jī)科學(xué). 2004, 31: 242-244.
[2] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[C]//Proceedings of 15th International Conference on Machine Learning. Madison. WI, 1998: 1-9.
[3] SEUNG H, OPPER M, SOMPOLINSKY M. Query by committee[C]//Proceedings of 5th ACM Workshop on Computational Learning Theory. Pittsburgh, PA, 1992: 287-294.
[4] PLATT J. Fast training of support vector machins using sequential minimal optimization. advances in kernel methods: support vector learning[M]. Cambridge: MIT Press, 1998: 42-65.
[5] SCHOHN G, GOHN D. Less is more: active learning with support vector machine[C]// Proceedings of 17th International Conference of Machine Learning. Stanford, CA, 2000: 204-211.
[6] ZHOU Z H, CHEN K J, JIANG Y. Exploiting unlabeled data in content-based image retrieval[C]//Proceedings of the 15th European Conference on Machine Learning. Pisa, Italy: LNAI 3021, 2004: 525-536.
[7] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in Large Margin Classifiers[M]. Cambridge: MIT Press, 1999: 61-74.
基金項目:國家自然科學(xué)基金(61171185,61271346,60932008);高等學(xué)校博士學(xué)科點專項科研基金(20112302110040)
作者簡介:吳偉寧(1983-).女,黑龍江寧安人,博士研究生.研究方向:機(jī)器學(xué)習(xí),圖像檢索;
劉揚(yáng)(1976-).男,吉林懷德人,博士,副教授.研究方向:機(jī)器學(xué)習(xí),計算機(jī)視覺;
郭茂祖(1966-).男,山東夏津人,博士后,教授,博導(dǎo).研究方向:計算生物學(xué)與生物信息學(xué),機(jī)器學(xué)習(xí)與圖像理解;
王春宇(1979-).男,遼寧寬甸人,博士研究生,講師.研究方向:生物信息學(xué),并行計算;
【關(guān)鍵詞】 中醫(yī)藥治療學(xué)
[摘要] 中醫(yī)藥的突出特點和生命力就在于其療效,即根據(jù)中醫(yī)基本理論應(yīng)用方藥的治療效果。中醫(yī)藥規(guī)范化治療方案的研究必須體現(xiàn)中醫(yī)基本理論,遵循現(xiàn)代醫(yī)學(xué)臨床試驗設(shè)計方法以及利用現(xiàn)代醫(yī)學(xué)關(guān)于疾病診斷和療效判斷的標(biāo)準(zhǔn),應(yīng)將中醫(yī)證候相關(guān)信息(包括癥狀、舌象和脈象)納入臨床試驗的檢查項目之中,開展兩次或多次的臨床試驗,利用多元統(tǒng)計分析方法,對比分析有效和無效人群的特點,尋求與中醫(yī)藥治療方案有效結(jié)局相關(guān)的主觀癥狀、舌象和脈象,從而找到該治療方案的最佳適應(yīng)癥,形成規(guī)范的治療方案。
[關(guān)鍵詞] 中醫(yī)藥治療學(xué); 規(guī)范; 臨床方案
Methodological thoughts about research of standardized clinical protocols of traditional Chinese medicine
ABSTRACT The treatment of traditional Chinese medicine (TCM) has been proved effective in clinical practice for thousands of years. To standardize the clinical protocols of TCM is absolutely necessary for enhancing the research quality of TCM and expanding the international influence of TCM. The standardization research on clinical protocols of TCM should be based on the basic theory of TCM and in the light of good clinical practice (GCP) principles. The clinical criteria for both diagnosis and efficacy evaluation of disease are also needed. To include all symptoms, tongue manifestations and pulse presentations into case report form, and to compare the differences in these clinical parameters between effective and noneffective cases by multivariate analysis may be helpful to find more specific indications for therapeutic protocol of TCM. Furthermore, It is suggested that two or more clinical trials on one therapeutic protocol are needed to identify its accurate indications.
KEY WORDS therapeutics (TCM); benchmarking; clinical protocols
雖然中醫(yī)藥治療疾病具有確切的療效,但許多人在描述其療效時都會感到一些困惑:中醫(yī)藥治療效果雖好,但國際公認(rèn)的現(xiàn)代醫(yī)學(xué)語言及方法卻難以對其進(jìn)行準(zhǔn)確的描述。因此,中醫(yī)藥知識的廣泛傳播與普及便難以展開,而知識的有效傳遞是知識發(fā)展的重要途徑。中醫(yī)藥的突出特點和生命力就在于其療效,即根據(jù)中醫(yī)基本理論應(yīng)用方藥的治療效果。因此,運(yùn)用現(xiàn)代醫(yī)學(xué)語言描述中醫(yī)藥治療方案的有效性及積極開展中醫(yī)藥的對外傳播是中醫(yī)藥國際化的重要內(nèi)容,其中首先就是進(jìn)行中醫(yī)藥規(guī)范化治療方案的研究。
1 中醫(yī)藥規(guī)范化治療方案研究應(yīng)遵循的基本原則
1.1 充分運(yùn)用中醫(yī)基本理論 由于中醫(yī)藥的療效是在中醫(yī)基本理論指導(dǎo)下獲得的,因此中醫(yī)藥規(guī)范化治療方案的研究一定要體現(xiàn)中醫(yī)基礎(chǔ)理論的思想。
1.2 充分遵循現(xiàn)代醫(yī)學(xué)的臨床試驗管理規(guī)范 中醫(yī)藥規(guī)范化治療方案的研究應(yīng)當(dāng)體現(xiàn)臨床試驗管理規(guī)范(good clinical practice, GCP)的原則。合理的臨床試驗設(shè)計是說明一種藥物或一種治療方案有效性的前提,因此中醫(yī)藥規(guī)范化治療方案的研究同樣應(yīng)遵循這些原則。
1.3 充分利用現(xiàn)代醫(yī)學(xué)疾病診斷和療效判斷的標(biāo)準(zhǔn) 將現(xiàn)代醫(yī)學(xué)有關(guān)疾病診斷和療效判斷的標(biāo)準(zhǔn)運(yùn)用于中醫(yī)藥規(guī)范化治療方案的研究中,將有利于中醫(yī)藥知識的對外傳播。
2 中醫(yī)藥規(guī)范化治療方案研究的思路與方法
如果疾病診斷標(biāo)準(zhǔn)、療效評價指標(biāo)、臨床試驗設(shè)計原則都是固定的話,那么一種治療藥物或者治療方案的療效也是基本不變的。中醫(yī)藥規(guī)范化治療方案的臨床療效評價如果完全遵照現(xiàn)代醫(yī)學(xué)臨床試驗設(shè)計原則,那么其療效也應(yīng)是固定的,不可能有很大的差異。我們難以改變疾病診斷標(biāo)準(zhǔn)、療效評價指標(biāo)和臨床試驗設(shè)計原則,我們也無意去研究這些內(nèi)容。要提高中醫(yī)藥治療方案的有效性,就必須在臨床試驗中充分運(yùn)用中醫(yī)基礎(chǔ)理論和基本概念,進(jìn)行具有中醫(yī)藥理論特點的規(guī)范化治療方案研究,尋求該治療方案的適合人群及其更確切的治療適應(yīng)癥,才可能進(jìn)一步提高該治療方案的療效[1]。
2.1 將癥狀、舌象和脈象納入中醫(yī)藥規(guī)范化治療方案研究,體現(xiàn)中醫(yī)基本思想 中醫(yī)四診信息中除了舌、脈象及聞的客觀信息之外,大多數(shù)是依據(jù)問診而得到的主觀癥狀信息,他們在中醫(yī)證候分類中起著決定性的作用?,F(xiàn)代醫(yī)學(xué)對癥狀、舌象和脈象在疾病發(fā)生發(fā)展過程中作用的認(rèn)識還很不夠。多數(shù)情況下,與病變部位不相關(guān)的一些癥狀被認(rèn)為是病理變化的主觀反應(yīng),是從屬于客觀病理變化的反應(yīng),或者說是治療效果的從屬反應(yīng)。例如,肝炎患者有無腰痛或出汗等癥狀并不影響疾病分類學(xué)的診斷和治療;肝炎患者在治療后是否出現(xiàn)排便情況的改變亦不影響治療方案的調(diào)整。中醫(yī)始終非常重視臨床主觀癥狀、舌象和脈象在疾病個體化中的作用,同時也是中醫(yī)辨證論治的基礎(chǔ)[2]。
有研究表明,一定的癥狀組合(包含全身癥狀、消化道癥狀等)有助于提高慢性胃炎患者幽門螺桿菌(Helicobacter pylori, HP)的判別率,而不恰當(dāng)?shù)慕M合則可降低HP感染的判別率,由此提示癥狀與疾病診斷指標(biāo)之間存在一定的聯(lián)系[3]。另一組研究結(jié)果表明,慢性胃炎患者非疾病診斷相關(guān)癥狀組合與胃黏膜CD4、CD8細(xì)胞浸潤之間存在一定的相關(guān)性,提示非疾病診斷相關(guān)信息與疾病病理相關(guān)信息之間可能存在某種內(nèi)在的聯(lián)系[4]。由此可見,癥狀、舌象、脈象與疾病診斷指標(biāo)之間存在一定的相關(guān)性。在臨床試驗設(shè)計中,應(yīng)根據(jù)中醫(yī)基本理論和基本原理,將相關(guān)癥狀、舌象和脈象納入檢查項目之中,是探索中醫(yī)癥狀、舌象、脈象與該治療方案之間關(guān)系的重要因素。
2.2 開展兩次或多次臨床試驗以找到中醫(yī)藥治療方案的最佳適應(yīng)癥 任何一種治療方案,無論是中藥還是西藥,其治療結(jié)果往往是部分有效或部分無效。目前對于有效或無效的評價標(biāo)準(zhǔn)大多是根據(jù)疾病診斷標(biāo)準(zhǔn)中所含指標(biāo)的改善程度來進(jìn)行判斷的。這種以疾病理論為基礎(chǔ)的治療學(xué)往往強(qiáng)調(diào)有效率,而不強(qiáng)調(diào)有效與無效之間是否存在某種必然的聯(lián)系,因此也不可能從這種關(guān)系中找出一種調(diào)整治療方案、提高療效的途徑和方法。中醫(yī)藥治療尤其強(qiáng)調(diào)辨證治療,強(qiáng)調(diào)同一種疾病其治療的有效與無效之間必定存在一定的區(qū)別。這種可能的必然聯(lián)系和區(qū)別應(yīng)從同一種疾病所表現(xiàn)出來的多種不同反應(yīng)加以考慮,主要包括臨床癥狀、舌象和脈象,特別是那些看起來與疾病無必然聯(lián)系的全身性癥狀或與疾病相關(guān)但性質(zhì)不同的癥狀。依據(jù)一種治療方案有效或無效的結(jié)果,對比分析兩者之間非疾病診斷相關(guān)臨床表現(xiàn)的異同規(guī)律,從中發(fā)現(xiàn)與這種治療方案密切相關(guān)的非疾病診斷相關(guān)臨床表現(xiàn)。如此可將作為中醫(yī)證候分類依據(jù)的癥狀、舌象和脈象納入療效評價和治療方案的選擇依據(jù)之中,從而在疾病治療相關(guān)適應(yīng)癥中增加中醫(yī)癥狀、舌象和脈象因素,發(fā)揮中醫(yī)基本理論在治療疾病中的指導(dǎo)作用[5]。
在臨床試驗設(shè)計過程中,應(yīng)根據(jù)中醫(yī)基本理論,在檢查項目中納入中醫(yī)主觀癥狀、舌象和脈象,進(jìn)行治療方案適應(yīng)癥的探索。同時,應(yīng)開展兩次或兩次以上的臨床試驗。第一次臨床試驗主要是對中醫(yī)證候信息(包括癥狀、舌象和脈象)的優(yōu)選試驗,在全面收集患者證候信息與療效評價指標(biāo)的基礎(chǔ)上,通過數(shù)據(jù)分析獲得該治療方案理想的適應(yīng)癥。第二次臨床試驗主要是對適應(yīng)癥進(jìn)行的驗證試驗,針對第一次臨床試驗所獲得的適應(yīng)癥開展驗證工作,目的是客觀評價該治療方案適應(yīng)癥的可靠性;同時,對收集的證候信息與療效評價指標(biāo)數(shù)據(jù)繼續(xù)進(jìn)行分析,逐步完善該治療方案的適應(yīng)癥,為下一次的臨床試驗提供可靠數(shù)據(jù)。
2.3 采用多元統(tǒng)計分析方法對比分析有效與無效人群癥狀、舌象和脈象的特點,尋求與中醫(yī)藥治療方案有效性相關(guān)的癥狀、舌象和脈象 隨著數(shù)據(jù)分析技術(shù)的進(jìn)步,可以運(yùn)用數(shù)據(jù)庫、生物信息學(xué)、復(fù)雜系統(tǒng)分析、數(shù)據(jù)挖掘及多元統(tǒng)計分析等方法分析臨床試驗數(shù)據(jù),以期探索中醫(yī)藥治療方案的最佳適應(yīng)癥[6]。對中醫(yī)癥狀和舌、脈象的聚類分析可以采用主因子法、典型相關(guān)分析以及標(biāo)準(zhǔn)典型相關(guān)分析等多種方法,估計因子載荷,用回歸法估計旋轉(zhuǎn)后各公因子得分,以評價中醫(yī)主觀癥狀、舌象和脈象對療效的貢獻(xiàn)率。應(yīng)用回歸分析法對中醫(yī)癥狀、舌象和脈象以及從臨床試驗中所得到的因子在療效評價中的作用進(jìn)行分析,可以找出與該治療方案相關(guān)的癥狀、舌象、脈象或因子。
在對類風(fēng)濕性關(guān)節(jié)炎所做的臨床試驗中,18項主觀癥狀通過因子分析得到4個公因子,分別較好地反映了關(guān)節(jié)局部病情以及中醫(yī)寒證、虛證、熱證的癥狀;中、西藥治療對反映關(guān)節(jié)病情公因子的影響一致,均具有改善作用,但中藥治療對虛證癥狀公因子的改善優(yōu)于西藥。這說明因子分析法能夠?qū)χ嗅t(yī)辨證過程中重要因素的主觀癥狀進(jìn)行分類研究,對公因子與療效之間關(guān)系的探索能更好地顯示中藥療效的特點[7]。對類風(fēng)濕性關(guān)節(jié)炎的研究表明,關(guān)節(jié)疼痛和關(guān)節(jié)壓痛與中藥治療效果呈正相關(guān),夜尿多則呈負(fù)相關(guān);關(guān)節(jié)壓痛和口渴與西藥治療效果呈正相關(guān),眩暈則呈負(fù)相關(guān);根據(jù)主觀癥狀與療效的回歸分析結(jié)果,對原始數(shù)據(jù)進(jìn)行再次分析,表明將主觀癥狀納入適應(yīng)癥后,中、西藥治療效果均有提高,說明某些主觀癥狀與中、西藥治療的療效之間存在一定的相關(guān)性[8]。因此,有必要加強(qiáng)癥狀對療效影響的研究,將癥狀納入藥物治療的適應(yīng)證。
隨著中醫(yī)藥規(guī)范化治療方案研究的深入,疾病診斷依據(jù)中將會納入更多的中醫(yī)癥狀、舌象和脈象信息,治療疾病時也會因為獲得了更合適的適應(yīng)癥從而取得更理想的治療效果;同時,中醫(yī)證候分類方法和理論也將作為現(xiàn)代生物醫(yī)學(xué)的主要內(nèi)容,并隨著科學(xué)技術(shù)的進(jìn)步不斷完善。
[參考文獻(xiàn)]
1 呂愛平. 中藥現(xiàn)代化發(fā)展新要求――應(yīng)重視中藥適應(yīng)癥和中藥藥效評價的研究. 首都醫(yī)藥, 2003, 10(3): 2730.
2 呂愛平, 李 捎, 王永炎. 從主觀癥狀的客觀規(guī)律探索中醫(yī)證候分類的科學(xué)基礎(chǔ). 中醫(yī)雜志, 2005, 46(1): 46.
3 Li S, Lu AP, Zhang L, et al. AntiHelicobacter pylori immunoglobulin G (IgG) and IgA antibody responses and the value of clinical presentations in diagnosis of H. pylori infection in patients with precancerous lesions. World J Gastroenterol, 2003, 9(4): 755758.
4 Lu AP, Zhang SS, Zha QL, et al. Correlation between the CD4, CD8 cell infiltration in gastric mucosa, Helicobacter pylori infection and symptoms in patients with chronic gastritis. World J Gastroenterol, 2005, 11(16): 24862490.
5 呂愛平, 陳可冀. 疾病的證候分類研究思路. 中國中西醫(yī)結(jié)合雜志, 2005, 25(9): 843845.
6 查青林, 林色奇, 呂愛平. 多元統(tǒng)計分析在中醫(yī)證候研究中的應(yīng)用探析. 江西中醫(yī)學(xué)院學(xué)報, 2004, 16(6): 7980.
關(guān)鍵詞:split read; 映射; 高通量測序; 生物信息學(xué)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2013)06-0030-03
0引言
人類基因組計劃的完成為人類基因組的研究提供了一套參考基因組序列,大大地簡化了人類個體基因組的序列研究,因為不同人類個體基因組序列之間有著極高的相似性,現(xiàn)在的研究主要專注于個體基因組序列與參考基因組序列的差異,這大大地簡化了研究的過程。而高通量測序技術(shù)的不斷發(fā)展,則為人類基因組研究提供了有力數(shù)據(jù)支持。為了利用高通量測序數(shù)據(jù),需要將上億的測序短序列(read)映射到參考基因組序列上,這些read當(dāng)中大部分可以以連續(xù)序列的形式被映射,但是仍有一部分read由于個體基因組序列與參考基因組序列的差異,會在映射中包含一段空位,這樣的read稱為split read,其映射相比于第一類read是更為困難的。Split read的映射往往可以顯示個體基因組中變異區(qū)域的序列信息,對研究更快速、準(zhǔn)確的split read映射方法有著重要的意義。
1基本概念
1.1高通量測序數(shù)據(jù)
高通量測序是一種測序DNA序列的技術(shù)。在測序過程中,將完整的樣本DNA序列打碎,從中篩選出滿足特定長度(通常為數(shù)百bp)的片段,然后在每個片段的一端或兩端各讀取一段長度為數(shù)十至數(shù)百bp的序列。這些讀取出的序列長度通常遠(yuǎn)遠(yuǎn)小于被測樣本DNA序列的長度,但是高通量測序技術(shù)可以同時讀取大量這樣的短序列,使得短序列總長度達(dá)到樣本DNA長度的數(shù)倍至數(shù)十倍,從而使獲得樣本DNA序列成為可能。
1.2Read與split read
在高通量測序中,從打碎的DN段上讀取出來的短序列稱為read。Read是被測DNA序列的一個短片段,單個的read序列長度遠(yuǎn)遠(yuǎn)短于被測DNA序列的長度,但是通過將大量read映射到參考基因組序列的方式,就可以獲得被測DNA的序列內(nèi)容,如圖1所示。測序時所讀取的read是一段連續(xù)的序列,但是由于DNA結(jié)構(gòu)變異的存在,一些read在映射結(jié)果中不再保持連續(xù)的形式,而是包含了空位,這樣的read稱為split read。
1.3雙末端測序
在高通量測序過程中,從打碎的DN段的兩端讀取序列的方法稱為雙末端測序。雙末端測序中獲得的讀取自同一片段的一對read稱為一個read pair。理論上,如果被測DNA序列與參考基因組序列完全相同,read pair被映射到參考基因組之后,其中的兩個read之間的距離與被測時DN段的長度應(yīng)當(dāng)是相同的。但是由于被測DNA與參考基因組序列存在差異,特別是由于結(jié)構(gòu)變異的存在,read pair映射后其一對read之間的距離會與被測的DN段長度產(chǎn)生明顯的差異。
2Deletion對附近read 與read pair映射所造成的影響Deletion是一種常見的結(jié)構(gòu)變異形式,表現(xiàn)為被測DNA序列相比參考基因組序列缺失了部分序列。由于這種變異的存在,其附近的read與read pair在映射過程中會發(fā)生異常,如圖2所示。從圖2中可以看出,由于deletion的存在(黑色短線段),跨過deletion的read pair(左)在映射后兩個read之間的距離要長于被測時兩個read之間的距離,這個距離的差異恰好是deletion的長度。而跨過deletion邊界的read(右)在映射時則會包含與deletion長度相同的一段空位,形成split read。
3利用read pair映射分析指導(dǎo)split read映射的方法目前的read映射方法出于運(yùn)行效率的考慮,都會限制映射結(jié)果中所允許的空位數(shù)量與長度[1-3]。有一些利用雙末端測序數(shù)據(jù)特性而特別為split read映射所設(shè)計的映射方法,利用read pair中一個映射較好的read作為基點,在臨近的一段區(qū)間為另一個映射效果不好或者無法連續(xù)映射的read進(jìn)行允許較多空位的映射[4]。這樣的方法存在著映射效果與搜索空間相關(guān),映射難度大,效率低等問題,如圖3所示。
為了改進(jìn)這些不足,本文提出一種利用deletion附近的read pair的映射結(jié)果來指導(dǎo)split read映射的方法。從圖2中可以看出,受到deletion影響的read pair,雖然其一對read之間的映射距離發(fā)生了異常,但兩個read的映射位置距離deletion的邊界并不遠(yuǎn)。通過將這樣存在映射異常的read pair按照映射位置與每對read之間的距離進(jìn)行聚類,可以大致獲得deletion邊界的位置。由于split read的映射實際上只需要deletion邊界處的一小段序列,而與deletion序列本身無關(guān),因此可以每個聚類結(jié)果中的兩處deletion邊界位置為基點,各選擇一段固定長度的序列作為參考序列進(jìn)行split read映射,選擇序列的長度只要確??梢园琩eletion的分界點即可(圖4上半部分)。通過這樣的方式,split read的映射將不再與deletion本身的長度相關(guān),因為參與split read映射的參考序列只是deletion邊界處固定長度的兩段序列的組合,其選取與deletion本身的長度無關(guān)。
接下來,需要將每個聚類結(jié)果附近映射效果較差或無法映射的read提取出來,這些read可能是受到了每個聚類結(jié)果所對應(yīng)的deletion的影響而無法實現(xiàn)良好的映射,因其是候選的split read。將這些read向組合的參考序列映射需要一種序列映射算法,本文提出一種Needleman-Wunsh算法[5, 6]的變種算法來完成split read映射。變種算法同樣是一種動態(tài)規(guī)劃算法,其遞歸表達(dá)式為:
其中:
db是由兩段參考基因組序列組成的橫向序列,段序列的長度分別為m1和m2。qr是由read序列構(gòu)成的縱向序列,長度為l。M(i,j)是當(dāng)qr[i]和db[j]對齊時單元(i,j)的打分;Iqr(i,j)是qr[i]和一個空位對齊時單元(i,j)的打分;Idb(i,j)是db[j]和一個空位對齊時單元(i,j)的打分。gapopen是開始一段新空位的罰分;gapext是擴(kuò)展一個空位的罰分。w(a,b)是一個打分函數(shù),當(dāng)a和b相同時打正分,反之打負(fù)分。jumpqr是matrix2中額外計算的罰分,是從matrix2中單元向matrix1中單元進(jìn)行跳躍的罰分。jmax是matrix2中單元跳躍目標(biāo)單元的橫坐標(biāo),對于matrix2中的單元(i,j)來說,其跳躍的目標(biāo)單元坐標(biāo)為(i-1,jmax)。
變種算法與原算法的最大區(qū)別在于,序列比對的打分矩陣被劃分為了兩個部分,分別對應(yīng)著deletion兩個邊界附近所選擇出的參考序列(圖4下半部分中Part 1與Part 2)。在第一部分中,全部的比對分?jǐn)?shù)計算與原算法相同,在第二部分中,為每個單元計算分值時會多考慮一項,即來源于第一部分矩陣上一行中具有最高分值的單元(圖4下半部分中NW-MAX單元)的打分。這個分值的計算相當(dāng)于將第一部分矩陣中的部分序列比對結(jié)果與第二部分矩陣中的部分序列比對結(jié)果相連接,相連接的兩個單元所在的位置就是這個映射所對應(yīng)的一段連續(xù)空位的邊界點。變種算法對于這種連接給出一個固定的罰分,這個罰分與兩個單元的橫向距離無關(guān)。在原算法中,這樣的單元之間的“跳躍”是不允許的,相同的映射在原算法中需要依靠相鄰單元的連續(xù)計算來完成(圖4下半部分中虛線箭頭所示),由于原算法中引入空位 需要罰分,因此split read的映射結(jié)果的最終分值將會受到引入的空位數(shù)量的影響,引入的空位越多,分值越低。這可能導(dǎo)致split read的映射結(jié)果由于引入的空位過多而導(dǎo)致分值過低,最終被舍棄。
4實驗結(jié)果與分析
本文將所提出的算法進(jìn)行程序?qū)崿F(xiàn),稱為PRISM。通過將人類基因組中deletion注釋加入到參考基因組1號染色體序列中的方式構(gòu)造了一條模擬基因組序列,并使用模擬測序軟件[7]對該模擬基因組序列進(jìn)行模擬測序生成一套模擬數(shù)據(jù)集。在該模擬數(shù)據(jù)集上,本文將所提出的split read映射方法與一種已有的方法Pindel進(jìn)行了比較。首先是運(yùn)行速度上的比較,結(jié)果如表1所示。由于在取得候選split read時的標(biāo)準(zhǔn)不同,兩種方法作為輸入的read數(shù)量不同,但是從結(jié)果上可以看出,PRISM的輸入規(guī)模略高于Pindel,而運(yùn)行時間卻遠(yuǎn)遠(yuǎn)短于Pindel,這證實了PRISM利用read pair分析結(jié)果來指導(dǎo)split read映射的方法可以大幅地提高split read映射的效率。第二項比較是split read映射效果的比較,具體結(jié)果如圖5所示,可以看出PRISM在正確映射split read的能力上也要優(yōu)于Pindel。
5結(jié)束語
本文提出了一種新的split read映射方法,這種方法利用split read附近的read pair映射結(jié)果分析來指導(dǎo)split read的映射,以達(dá)到縮小映射過程中搜索空間,提高映射效率與準(zhǔn)確性的目的。在模擬數(shù)據(jù)實驗中,通過與已有的方法進(jìn)行對比,證實了本文所提出的方法在運(yùn)行效率、與split read映射結(jié)果上都具有優(yōu)勢。
參考文獻(xiàn):
[1]LI H, DURBIN R. Fast and accurate short read alignment with Burrows-Wheeler transform [J]. Bioinformatics, 2009, 25(14): 1754-1760.
[2]LANGMEAD B, SALZBERG S L. Fast gapped-read alignment with Bowtie 2 [J]. Nature methods, 2012, 9(4): 357-359.
[3]LANGMEAD B, TRAPNELL C, POP M, et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome [J]. Genome biology, 2009, 10(3): R25.
[4]YE K, SCHULZ M H, LONG Q, et al. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads [J]. Bioinformatics, 2009, 25(21): 2865-2871.
[5]DU Z H, LIN F. Improvement of the needleman-wunsch algorithm [J]. Lect Notes Artif Int, 2004, 3066:792-797.