公務(wù)員期刊網(wǎng) 論文中心 正文

計(jì)算機(jī)專業(yè)手語語料庫建設(shè)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計(jì)算機(jī)專業(yè)手語語料庫建設(shè)范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

計(jì)算機(jī)專業(yè)手語語料庫建設(shè)

摘要:

計(jì)算機(jī)專業(yè)手語語料庫從聾人學(xué)生計(jì)算機(jī)專業(yè)教學(xué)的情景視頻庫中選取手語視頻語料,采用多媒體轉(zhuǎn)寫標(biāo)注軟件ELAN進(jìn)行手語語序轉(zhuǎn)寫、漢語翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語料,建成“計(jì)算機(jī)專業(yè)手語語料庫”,從手勢(shì)動(dòng)作、身體姿勢(shì)、面部表情三方面特征對(duì)計(jì)算機(jī)專業(yè)手語詞匯展開詞義構(gòu)成分析和描寫,分析計(jì)算機(jī)專業(yè)手語詞匯的手勢(shì)特點(diǎn)及內(nèi)在成因。

關(guān)鍵詞:手語;語料庫;轉(zhuǎn)寫;標(biāo)注

0引言

根據(jù)中國殘聯(lián)提供的數(shù)字,我國現(xiàn)有聾人約2200萬,18歲以下應(yīng)受教育的聾啞人達(dá)400多萬,7歲以下為80萬。這是一個(gè)龐大的弱勢(shì)群體。因其在學(xué)習(xí)、工作和生活上有許多常人難于想象的艱辛和障礙。[1]計(jì)算機(jī)專業(yè)手語語料庫從聾人學(xué)生計(jì)算機(jī)專業(yè)教學(xué)的情景語料庫中選取手語視頻語料進(jìn)行手語語序轉(zhuǎn)寫、漢語翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語料,建成“計(jì)算機(jī)專業(yè)手語語料庫”,從手勢(shì)動(dòng)作、身體姿勢(shì)、面部表情三方面特征對(duì)計(jì)算機(jī)專業(yè)手語詞匯展開詞義構(gòu)成分析和描寫,分析計(jì)算機(jī)專業(yè)手語詞匯的手勢(shì)特點(diǎn)及內(nèi)在成因,指導(dǎo)聾人高等工科教育中的手語教學(xué)。同時(shí)也能為聾人高等工科教育提供教學(xué)資源、教學(xué)設(shè)計(jì)、教材編寫、課堂教學(xué)與學(xué)習(xí)評(píng)估等方面科學(xué)的決策與指導(dǎo)。如同其他語言建立語料庫一樣,計(jì)算機(jī)專業(yè)手語也可以充分利用計(jì)算機(jī)和網(wǎng)絡(luò)資源,根據(jù)計(jì)算機(jī)專業(yè)手語的特點(diǎn),建立手語語料庫[2]。手語語料庫的建立在手語的語言學(xué)研究、手語的規(guī)范化研究及手語識(shí)別和機(jī)器翻譯領(lǐng)域有著重要的應(yīng)用意義。因此,國外學(xué)者對(duì)此做了大量的研究。美國的手語研究者于1995年對(duì)7個(gè)主要城市的聾人使用的手語的音系、詞匯和句法開展了詳細(xì)的調(diào)查,積累了大量的手語樣本后建立了世界上第一個(gè)手語語料庫即美國手語語料庫(Lucas,2005)。近年來,越來越多的國家和地區(qū)相繼建立起手語語料庫,其中包括英國手語語料庫項(xiàng)目、北美手語語料庫工作坊、澳大利亞手語語料庫、荷蘭手語基本詞匯語料庫、德國手語語料庫,中國香港的亞太地區(qū)手語語料庫等都對(duì)我國建立手語語料庫有借鑒意義。李恒(2013)認(rèn)為目前最為成熟的手語語料庫是由Johnston等人創(chuàng)建的澳大利亞手語語料庫。Johnston(2009)提出,手語語料庫應(yīng)當(dāng)包括大量可以機(jī)讀的標(biāo)注文本,而非語篇和文本的隨意堆砌。McEnery和Wilson(1996)也認(rèn)為樣本的代表性以及語料的機(jī)讀形式化是語料庫兩個(gè)最重要的特征。以此標(biāo)準(zhǔn)建立的語料庫,對(duì)于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進(jìn)作用。王敏等則認(rèn)為英國手語語料庫項(xiàng)目和北美手語語料庫工作坊兩個(gè)手語語料項(xiàng)目在設(shè)計(jì)理念、技術(shù)手段、人員協(xié)作等方面值得研究與借鑒。目前國外較為通行的做法是,科研人員可根據(jù)研究需要建立私人語料庫,在一定范圍內(nèi)實(shí)現(xiàn)共享和交流[4]。

1設(shè)計(jì)實(shí)現(xiàn)的功能

系統(tǒng)采用ELAN建立計(jì)算機(jī)專業(yè)手語語料庫,從一個(gè)小型專業(yè)手語語料庫的建設(shè)入手,先建立各個(gè)子庫,比如計(jì)算機(jī)網(wǎng)絡(luò)手語、圖形圖像手語、動(dòng)畫設(shè)計(jì)手語等等,再集成完成數(shù)據(jù)庫,探索專業(yè)手語語料庫建立的方法和途徑[3]。通過轉(zhuǎn)寫和標(biāo)注,分析手語的特點(diǎn),以便于計(jì)算機(jī)對(duì)特定語料進(jìn)行識(shí)別和提取。實(shí)現(xiàn)語料庫的機(jī)讀化,提高語料的利用價(jià)值,增加語料的重復(fù)使用性以及增強(qiáng)語料庫的多功能性。以此標(biāo)準(zhǔn)建立的語料庫,對(duì)于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進(jìn)作用。

1.1語料樣本形式的選取

語料的選擇和編制是建立語料庫的環(huán)節(jié)之一,調(diào)查通常包括如下部分。

(1)詞匯。以計(jì)算機(jī)專業(yè)手語視頻數(shù)據(jù)庫中的視頻文件作為本課題的語料樣本。該視頻庫中的計(jì)算機(jī)專業(yè)手語詞匯由來自全國各地的聾生做手語來描述。選取使用頻率高的課堂教學(xué)詞匯。配合采用田野調(diào)查的“詞匯記錄”法,確保真實(shí)地記錄手語中的特有詞匯。(2)語法。以“誘導(dǎo)法”和“自然產(chǎn)出法”兩種方法為主體,具體采用訪談、自由交流以及讓聾人進(jìn)行自我介紹等方式獲得語料信息。

(3)地域。由于我國地域遼闊,如同有聲語言存在方言差別一樣,手語也有不同的地域語言變體。因此語料庫樣本的地域的選取應(yīng)盡可能廣泛。如果不能覆蓋全國各個(gè)省市,也應(yīng)具備東北、華北、華東、華南等地區(qū)的代表性。語料樣本的選取應(yīng)當(dāng)注意到不同地區(qū)聾人文化和聽人文化的差異、聾人文化內(nèi)部之間的差異對(duì)手語方言形成的作用。這樣采集的樣本才能為計(jì)算機(jī)專業(yè)手語的規(guī)范化研究提供理論依據(jù)。

1.2操作方法

在建立計(jì)算機(jī)專業(yè)手語語料庫時(shí),根據(jù)計(jì)算機(jī)專業(yè)教學(xué)的實(shí)際需要決定標(biāo)注來完成元數(shù)據(jù)的標(biāo)準(zhǔn)化和手語視頻詞匯的規(guī)范化,同時(shí)要兼顧實(shí)用性,避免因數(shù)據(jù)量過小而降低語料庫的利用價(jià)值。目前較為常見的手語元數(shù)據(jù)描述格式是由荷蘭馬克思•普朗克心理語言學(xué)研究所開發(fā)應(yīng)用的im-di元數(shù)據(jù)庫。這主要用在多媒體和多模態(tài)語言集成。更好地實(shí)驗(yàn)語言數(shù)據(jù)和元數(shù)據(jù)之間的匹配,提供檢索和計(jì)算之用。另一個(gè)ELAN軟件,這主要有三種模式:分割模式、轉(zhuǎn)寫模式、標(biāo)注模式。在過程中,為避免對(duì)手語不熟悉,保證數(shù)據(jù)分割的準(zhǔn)確性,最好由手語語言學(xué)專業(yè)出身的人來完成。因此在建設(shè)手語語料庫過程中,應(yīng)當(dāng)注意到以下幾個(gè)問題:

(1)作為語料庫研究者來看,應(yīng)該在標(biāo)注系統(tǒng)的詳略度和標(biāo)注方案的可行性之間找到平衡點(diǎn)。

(2)從用戶的使用角度來研究,語料庫的標(biāo)注應(yīng)該越詳細(xì)越好,可以讓用戶容易理解;假如標(biāo)注信息過于繁多,將不利于標(biāo)注者進(jìn)行實(shí)際操作。

(3)從建設(shè)整體來看,我國的手語視頻庫以及語料庫大多數(shù)經(jīng)由國家出資而建立,在此提倡應(yīng)當(dāng)由大學(xué)各個(gè)機(jī)構(gòu)和高等學(xué)校自主建立專屬的手語語料庫。

2Elan自建語料庫的方法

2.1基本概念

Elan的四個(gè)基本概念是:轉(zhuǎn)寫;標(biāo)注;層;語言學(xué)類型。在此,對(duì)其闡釋如下:

(1)轉(zhuǎn)寫。根據(jù)音頻和視頻內(nèi)容錄入文字或其它字符(國際音標(biāo)、拼音等)的操作。

(2)標(biāo)注。針對(duì)音頻或視頻內(nèi)容所轉(zhuǎn)寫的文字、國際音標(biāo)或者對(duì)內(nèi)容進(jìn)行的標(biāo)記、注釋等等,都可以稱為“標(biāo)注”。在ELAN中,“標(biāo)注”包括“轉(zhuǎn)寫”。另外,“標(biāo)注”也可以指某一層上沒有轉(zhuǎn)寫任何內(nèi)容的空段,即“空標(biāo)注”。

(3)層。轉(zhuǎn)寫和標(biāo)注以“層”為依托,不同的層里有不同的標(biāo)注內(nèi)容。如文本轉(zhuǎn)寫層、國際音標(biāo)層、注釋層等等。

(4)語言學(xué)類型。從語言學(xué)角度對(duì)“層”屬性的一種定義,如某一層標(biāo)注的內(nèi)容是國際音標(biāo),就可以把該層的語言學(xué)類型定義為“IPA”,某一層是方言轉(zhuǎn)寫,就可以把這一層的語言學(xué)類型定義為“Dialect”,等等。

2.2操作模式

運(yùn)行ELAN,導(dǎo)入音頻或視頻文件后,ELAN在“選項(xiàng)”菜單中設(shè)計(jì)有五種操作模式可供選擇:分割、轉(zhuǎn)寫、標(biāo)注、同步、線性交錯(cuò)。前三種模式在轉(zhuǎn)寫與標(biāo)注的過程中使用頻繁,常常需要在各種模式之間切換;后兩種模式則使用較少。下面即對(duì)前三種模式展開具體論述。

(1)分割模式。這是轉(zhuǎn)寫模式的基礎(chǔ),主要用于在轉(zhuǎn)寫前對(duì)錄音或視頻進(jìn)行時(shí)間段(按實(shí)際語流的停頓“分割段”可能是半句話、一句話或更多)的分割標(biāo)記,使用時(shí)只需要在相應(yīng)的時(shí)間點(diǎn)按“回車鍵”就可以逐段分割,進(jìn)行標(biāo)記。

(2)轉(zhuǎn)寫模式。該模式以分割模式為基礎(chǔ),在分割模式中完成對(duì)轉(zhuǎn)寫的內(nèi)容逐段分割標(biāo)記后切換到轉(zhuǎn)寫模式,在表格中逐句轉(zhuǎn)寫,轉(zhuǎn)寫完成一句以后,即按回車鍵進(jìn)入到下一句。如需重復(fù)播放當(dāng)前句,按Tab鍵即可,操作簡單高效,省去了頻繁回放的麻煩。

(3)標(biāo)注模式。是對(duì)一個(gè)手語專業(yè)的人打手語拍攝的轉(zhuǎn)寫和標(biāo)注,標(biāo)注人是鐘鵬,參與者是手語語言學(xué)專業(yè)的人,詞匯是“安全”。

2.3制作流程

(1)新建導(dǎo)入視頻之后,在菜單上的選項(xiàng)單擊,找到分割模式。

(2)按回車鍵設(shè)置第一個(gè)標(biāo)記,設(shè)置到第二個(gè)標(biāo)記連成一個(gè)標(biāo)注段,即一個(gè)字一個(gè)標(biāo)注段。

(3)設(shè)置標(biāo)注段后,選項(xiàng)→轉(zhuǎn)寫模式。(4)設(shè)置幾個(gè)表欄數(shù)目,第一個(gè)列數(shù)量選擇default-it,最后點(diǎn)選“應(yīng)用”。

(5)完成之后,在序號(hào)1輸入“安”,序號(hào)2輸入“全”。選項(xiàng)>標(biāo)注模式。

(6)鼠標(biāo)光標(biāo)移動(dòng)default,按鼠標(biāo)右鍵,選擇更改此層屬性。

(7)更改層名、參與者、標(biāo)注人、輸入法,單擊確定。

(8)在菜單欄選擇“層>復(fù)制層”然后在彈出的復(fù)制層窗口中選好正文,然后下一個(gè)。

(9)單擊下一個(gè),進(jìn)入選轉(zhuǎn)寫(無父層)。

(10)單擊下一個(gè)按鈕,最后一步,結(jié)束。復(fù)制層之后更改此層屬。

(11)在標(biāo)注段雙擊就進(jìn)行編輯狀態(tài),分別輸入一手橫伸,掌心向下,自胸部向下(時(shí)間段為0~2秒);伸出拇指順時(shí)針平行轉(zhuǎn)一圈(時(shí)間段為2~3.5秒),

2.4ELAN自建手語語料庫的結(jié)論

計(jì)算機(jī)專業(yè)手語語料庫對(duì)于聾人高等教育領(lǐng)域的教師、全國聾生發(fā)揮著集成地方手語、以及將涉獵手語互相對(duì)比、查詢、學(xué)習(xí)的作用,使聾人能夠精確地了解、并熟練使用一些專業(yè)性手語。研究中為了使聾人能夠更趨便利地達(dá)成溝通,使用ELAN軟件處理拍攝視頻,利用該專業(yè)手語詞匯,肢體上的動(dòng)作講解來實(shí)現(xiàn)手語語料庫的基本構(gòu)建。ELAN軟件對(duì)于收集手語具有更好的效果優(yōu)勢(shì)。

3結(jié)束語

計(jì)算機(jī)專業(yè)手語語料庫建設(shè)的研究是研究所在聾人工學(xué)院的重大項(xiàng)目,對(duì)于計(jì)算機(jī)專業(yè)手語詞匯,句子的手勢(shì)進(jìn)行采集、分割、轉(zhuǎn)寫、標(biāo)注種種來完成計(jì)算機(jī)專業(yè)手語詞匯語料庫、計(jì)算機(jī)專業(yè)手語句子語料庫的建設(shè)。尤需一提的是,計(jì)算機(jī)專業(yè)手語詞匯的采集匯聚,在這一過程中需要通過各地方聾人打手勢(shì)的長期積累、精細(xì)篩選,更需要制作臻于完善的文案來完成拍攝任務(wù),另外還需要操作軟件耗費(fèi)時(shí)間以完成標(biāo)注、轉(zhuǎn)寫等等,至此方可完成計(jì)算機(jī)專業(yè)手語語料庫的最終圓滿建設(shè)。

參考文獻(xiàn):

[1]李凱.韓梅.聾人手語動(dòng)漫教學(xué)系統(tǒng)的設(shè)計(jì)[J].智能計(jì)算機(jī)與應(yīng)用,2012,2(6):41-45.

[2]李凱,張書珍.計(jì)算機(jī)專業(yè)詞匯手語手勢(shì)的表達(dá)設(shè)想[J].中國聽力語言康復(fù)科學(xué)雜志,2004(3):36-37.

[3]李斌.用Elan建設(shè)單點(diǎn)方言多媒體語料庫[J].方言,2012(2):178-190.

[4]李恒.手語語言學(xué)方法論研究綜述[J].中國特殊教育,2012(6):22-26.

作者:孫筱玥 付南鈞 楊煉 李凱 韓梅 單位:天津理工大學(xué)聾人工學(xué)院