公務(wù)員期刊網(wǎng) 論文中心 正文

計算語言學(xué)視野下翻譯平臺的建設(shè)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算語言學(xué)視野下翻譯平臺的建設(shè)范文,希望能給你帶來靈感和參考,敬請閱讀。

計算語言學(xué)視野下翻譯平臺的建設(shè)

以往研究多為討論計算語言學(xué)對語言學(xué)的影響,馮志偉(1992)用人類對自然語言符號認識水平的新理論,探討計算語言學(xué)對傳統(tǒng)語言學(xué)的挑戰(zhàn)。[2]布買熱木•阿布拉(2004)認為計算語言學(xué)對語言學(xué)分支帶來了不同的沖擊和挑戰(zhàn)的同時又推進了語言學(xué)的發(fā)展。[3]計算語言學(xué)對傳統(tǒng)的句法學(xué)、形態(tài)學(xué)、語義學(xué)、邏輯語法、詞匯學(xué)等方面有著重要的影響作用。同時計算統(tǒng)計學(xué)的發(fā)展也給語言學(xué)帶來新的視角,例如,冀鐵亮等(2007)將語言學(xué)與統(tǒng)計方法結(jié)合建立漢語動詞子類框架類型集。[4]姚敏鋒(2010)描述了一種基于短語譯文組合的漢英機器翻譯系統(tǒng),對構(gòu)建一個漢英機器翻譯平臺有積極影響。[5]計算語言學(xué)與語言學(xué)之間的影響作用應(yīng)該是相互的。這些研究中側(cè)重討論了計算語言學(xué)對語言學(xué)的影響,接下來筆者將重點探討語言學(xué)對計算語言學(xué)的影響,以及計算語言學(xué)在翻譯方面的應(yīng)用。

計算語言學(xué)與語言學(xué)

隨著計算語言學(xué)在語言處理的理論與應(yīng)用方面研究不斷演化發(fā)展,語言學(xué)與計算語言學(xué)之間模糊的多面性關(guān)系逐漸形成。語言學(xué)在計算語言學(xué)的發(fā)展過程中,發(fā)揮著重要作用。計算語言學(xué)將計算科學(xué)與語言學(xué)結(jié)合并形成了對兩者分工明確的混合系統(tǒng),這個混合系統(tǒng)對翻譯平臺的建設(shè)具有很強的實踐指導(dǎo)作用。

(一)語言學(xué)對計算語言學(xué)的影響作用

計算語言學(xué)并非探討計算機語言的學(xué)科,[6]不是分解出來的關(guān)于數(shù)學(xué)語言學(xué)或者應(yīng)用語言學(xué)新的語言學(xué)分支,其研究對象既不是二進制的機器語言,也不是編寫計算機程序所用的程序設(shè)計語言,而是在人類認識世界和創(chuàng)造文明的過程中形成的自然語言。上世紀(jì)80年代,Lauri Kart-tunen發(fā)現(xiàn)應(yīng)用計算語言學(xué)與理論計算語言學(xué)共存且相互促進,同時理論計算語言學(xué)的分支也為理解人類語言結(jié)構(gòu)和使用發(fā)揮了重要作用。然而語言學(xué)和計算語言學(xué)之間關(guān)系隨著時間發(fā)生了很多變化。這些變化通過計算語言學(xué)的五個范式體現(xiàn)出來,在每一個范式中,語言學(xué)理論都發(fā)揮一定的作用,都對計算語言學(xué)研究產(chǎn)生不同的影響。第一個范式是直接啟用程序處理語言。操作者接受了相關(guān)的語言學(xué)理論教育,直接啟用如FORTRAN,COBOL等計算機程序或者匯編程序等進行語言處理。這個階段對語言學(xué)知識和處理方法之間沒有系統(tǒng)性分別。第二個范式是語言處理專業(yè)算法與方法的發(fā)展,如解析算法,限定性分析以及擴大的短語結(jié)構(gòu)語法。這種范式下發(fā)現(xiàn)了語言學(xué)知識和處理程序之間的分別,但研究方法的改進離不開語言學(xué)理論的指導(dǎo),需要一定程度地運用語言學(xué)理論知識。第三個范式是語言學(xué)形式體系的出現(xiàn)。

20世紀(jì)80年代出現(xiàn)了一系列新的語法形式體系,如HPSG(Head-DrivenPhrase Structure Grammar,中心語驅(qū)動短語結(jié)構(gòu)語法,吳云芳,2003),[7]LFG(Lexical-Functional Grammar,詞匯功能語法)等理論體系對計算語言學(xué)產(chǎn)生了影響,出現(xiàn)了形式與語義系統(tǒng)集合的語法模式體系,其形式模型與語言學(xué)理論緊密相連,因此許多模型體系被安排在語言學(xué)課程里教授探討。當(dāng)這些語言學(xué)的形式主義模型不能滿足實際應(yīng)用時,第四種范式很快運用于自然語言處理當(dāng)中并成為主導(dǎo)方法,即自然語言處理的專業(yè)方法。這樣研究者們將注意力集中于處理技術(shù)的提高,對語言及語言學(xué)的重視程度降低。第五種范式的出現(xiàn)是在計算語言學(xué)中的統(tǒng)計學(xué)方法在一些應(yīng)用領(lǐng)域難以進行時,自然語言處理開始重新考慮語言學(xué)的方法和知識源泉。自然語言處理中的統(tǒng)計學(xué)方法專家試著回歸語言學(xué)中的詞匯學(xué)或是試著建立基于短語結(jié)構(gòu)的統(tǒng)計模式。統(tǒng)計學(xué)和語言學(xué)方法模式的結(jié)合促成了計算語言學(xué)第五種范式的生成,即統(tǒng)計的和非統(tǒng)計的機器學(xué)習(xí)方法與語言學(xué)方法的創(chuàng)新性結(jié)合。隨著計算機技術(shù)的發(fā)展與語言理論的深入研究,前三種范式漸漸退出研究的中心地位,后兩種范式將計算語言學(xué)的重要方法統(tǒng)計學(xué)與語言學(xué)結(jié)合起來,成為自然語言處理的一個新的進步范式。語言學(xué)與計算語言學(xué)中的統(tǒng)計學(xué)方法的合理應(yīng)用才能促進語言研究的深入開展。因此,對二者的分工與結(jié)合形成的混合系統(tǒng)進行探討就顯得格外重要。

(二)計算語言學(xué)和語言學(xué)的分工與結(jié)合———混合系統(tǒng)研究

統(tǒng)計學(xué)的發(fā)展不斷改變著計算語言學(xué)與語言學(xué)之間的關(guān)系。統(tǒng)計學(xué)運用于計算語言學(xué)方面,與語言學(xué)理論相結(jié)合,其促進作用體現(xiàn)在混合系統(tǒng)研究中。在語言處理的一些領(lǐng)域中,設(shè)計混合系統(tǒng)的方法已經(jīng)顯示出了前景性的成果。第一個設(shè)計混合系統(tǒng)既包含語言學(xué)也包括計算機技術(shù)成分,使這兩種語言分析方法共同完成對詞匯短語句子等的處理任務(wù)。在混和機器翻譯研究中,混合系統(tǒng)的任務(wù)就是系統(tǒng)地為輸入的語言探索統(tǒng)計學(xué)與語言規(guī)則最理想的結(jié)合結(jié)果。由經(jīng)驗豐富的語言學(xué)家對輸入的語言進行一個詳細的語義分析,由最好的統(tǒng)計系統(tǒng)發(fā)現(xiàn)相對應(yīng)的輸出語言的詞匯短語或者句子鏈,并決定哪一類的輸出結(jié)果是最恰當(dāng)?shù)姆g。系統(tǒng)利用事先給定的語言學(xué)語法轉(zhuǎn)換規(guī)則對這些詞匯短語句子鏈集合進行譯文選擇組合,從而得到對應(yīng)的輸出語言語句。這種利用計算語言學(xué)技術(shù)與語言規(guī)則結(jié)合系統(tǒng)對詞匯短語句子進行翻譯探索的方法只是對混合處理系統(tǒng)的嘗試。另一個混合系統(tǒng)的設(shè)計方法就是基于對于整個語篇的研究理論。這種語篇混合系統(tǒng)是對第一個混合系統(tǒng)的補充,它不僅研究短語結(jié)構(gòu),更將短語結(jié)構(gòu)的匹配上升到了語篇的高度,是一個更高層次的探索。這樣,計算語言學(xué)與語言學(xué)的發(fā)展對于混合系統(tǒng)研究、混合機器翻譯與翻譯平臺的建設(shè)發(fā)揮著重要的作用。

計算語言學(xué)視角下的翻譯平臺建設(shè)

在中國對外貿(mào)易、文化以及科技交流的蓬勃發(fā)展對翻譯行業(yè)需求高漲的背景下,語言信息處理技術(shù)的進步給翻譯事業(yè)帶來的巨大變革和沖擊。環(huán)境的變化要求語言服務(wù)企業(yè)發(fā)現(xiàn)新的商業(yè)模式、采用新的戰(zhàn)略和新的管理模式,提高生產(chǎn)效率[8](俞敬松,2010)。很多語言服務(wù)企業(yè)每月百萬字級別的翻譯項目已經(jīng)屢見不鮮,要求在很短的時間按照預(yù)定的質(zhì)量標(biāo)準(zhǔn)完成大量的翻譯。對語言服務(wù)工作者提出全新的要求。然而傳統(tǒng)小作坊模式的“譯、審、校”手工翻譯流程顯然已經(jīng)不再適應(yīng)當(dāng)今大批量的、團隊協(xié)作的翻譯業(yè)務(wù)流程。現(xiàn)代語言信息處理等行業(yè)需要精通機器輔助翻譯的原理和應(yīng)用技術(shù)的人才及相關(guān)的自然語言處理技術(shù)的發(fā)展提高,因此探討在計算語言學(xué)視角下的翻譯平臺建設(shè)顯得格外重要,尤其是混合系統(tǒng)研究下的混合機器翻譯系統(tǒng)。

(一)語言規(guī)則是翻譯平臺建設(shè)中混合系統(tǒng)研究的前提條件

機器翻譯是當(dāng)前計算語言學(xué)研究的熱點和難點。要提高機譯的質(zhì)量,首先要解決的是語言本身問題而非程序設(shè)計問題;單靠程序來做機譯系統(tǒng),無法提高機譯質(zhì)量。目前的機器學(xué)習(xí)方法就是從相似的文本中獲得統(tǒng)計翻譯模型,但是對很多句法現(xiàn)象卻難以像傳統(tǒng)的語言學(xué)語法一樣正確地分析。如果語言學(xué)家們已經(jīng)理解并形成了對語言文本特殊情況的潛在分析,那么從句法和語義注解語篇學(xué)習(xí)中總結(jié)復(fù)雜規(guī)則是可能的。每種人類語言的語法都包括一小部分高度復(fù)雜的規(guī)則和一大部分相對簡單的現(xiàn)象。這一小部分高度復(fù)雜的現(xiàn)象要比那部分相對簡單的現(xiàn)象出現(xiàn)的多。這種傾斜的分布體現(xiàn)了的學(xué)習(xí)語言規(guī)則的價值和重要性。至今為止,我們還沒有自動的機器學(xué)習(xí)方法,正確的產(chǎn)出復(fù)雜的語言現(xiàn)象。這樣就提出疑問,如果沒有人類語言學(xué)習(xí)者開發(fā)的句法———語義正確方法的指導(dǎo),這些機器學(xué)習(xí)規(guī)則是否能夠被運用?另一方面,詞典和簡單篩選匹配的限定能夠容易地理解,很大程度上是因為其復(fù)雜性在于詞匯本身類別的結(jié)構(gòu),而不是詞語類別之間的簡單劃分。理解語言規(guī)則,設(shè)計這種混合機器翻譯系統(tǒng)的平臺顯得尤為重要。

(二)語料庫資源建設(shè)與語言信息處理技術(shù)

的提高為翻譯平臺建設(shè)中混合系統(tǒng)研究提供了資源與技術(shù)保證語言信息處理技術(shù)是新一代知識工程處理的核心支撐技術(shù),[9]更是機器翻譯中重要的技術(shù)保證。近年來,在自然語言處理技術(shù)等方面的研究中,語料庫資源的巨大價值已經(jīng)受到越來越多學(xué)者的關(guān)注和認可,特別是包含兩種語言互譯文本的語料庫,如雙語語料庫已經(jīng)成為機器翻譯、翻譯知識獲取、數(shù)據(jù)挖掘以及雙語詞典編纂研究不可或缺的重要資源。關(guān)于國內(nèi)漢外雙語語料庫的建設(shè)以及對齊加工和標(biāo)注多級自動對齊技術(shù)以及雙語平行語料庫在機器翻譯和翻譯知識獲取等方面的應(yīng)用技術(shù)目前已經(jīng)取得了很大進展。機器翻譯新技術(shù)的發(fā)展得益于雙語語料庫的出現(xiàn),有效改善了翻譯質(zhì)量。同時,雙語語料庫又是汲取翻譯知識的重要源泉,如翻譯詞典和翻譯模板等,從而進一步改進傳統(tǒng)的機器翻譯技術(shù)。

(三)混合機器翻譯系統(tǒng)是翻譯平臺建設(shè)的核心動力

目前翻譯平臺有很多,如網(wǎng)絡(luò)翻譯譯言網(wǎng)、谷歌翻譯等。但是翻譯平臺建設(shè)的核心動力在于機器翻譯系統(tǒng)。機譯系統(tǒng)可劃分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者由詞典和規(guī)則庫構(gòu)成知識源;后者由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識源,既不需要詞典也不需要規(guī)則,以統(tǒng)計規(guī)律為主。機器翻譯的研究是建立在語言學(xué)、數(shù)學(xué)和計算機科學(xué)這三門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合于計算機進行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式化和代碼化,計算機科學(xué)家給機器翻譯提供軟件手段和硬件設(shè)備,并進行程序設(shè)計。缺少上述任何一方面,機器翻譯就不能實現(xiàn),機器翻譯效果的好壞,也取決于這三個方面,而且直接關(guān)系到翻譯平臺的建設(shè)。計算語言學(xué)提供了一個新的視角,研究將計算語言學(xué)技術(shù)、語言學(xué)規(guī)則與大型語料庫有效結(jié)合,構(gòu)成一個語言處理的混合系統(tǒng)。利用計算機技術(shù)實現(xiàn)雙語對齊,結(jié)合語言學(xué)規(guī)則及專業(yè)術(shù)語語料庫,將計算機技術(shù)、語言規(guī)則與語料庫結(jié)合構(gòu)成全新的語言翻譯的標(biāo)準(zhǔn)庫,形成相對完善的語言資源庫,進一步促進翻譯平臺的建設(shè)和完備。計算語言學(xué)視角下的翻譯平臺建設(shè)可以應(yīng)用于語言服務(wù)產(chǎn)業(yè),不僅能夠快速有效地提高翻譯的效率及準(zhǔn)確率,而且有利于綜合性語資源庫的建設(shè),如大型語料庫建設(shè)等,以適應(yīng)國際間多層次全方位的交流及信息化時代語言服務(wù)的要求。

結(jié)語

計算語言學(xué)與語言學(xué)的發(fā)展及其相關(guān)理論研究為翻譯平臺建設(shè)提供了技術(shù)支持與理論保障。翻譯平臺建設(shè)的核心動力是混合機器翻譯系統(tǒng)的設(shè)計。語言規(guī)則為翻譯平臺建設(shè)中的混合系統(tǒng)設(shè)計提供了前提條件。語料庫資源建設(shè)與語言信息處理技術(shù)的提高是混合系統(tǒng)研究的重要資源與技術(shù)保證。計算語言學(xué)與語言學(xué)之間的相互促進對翻譯平臺的建設(shè)發(fā)揮著重要作用。目前雖然計算語言學(xué)在一些語言學(xué)研究領(lǐng)域取得了不錯的進展,但隨著互聯(lián)網(wǎng)的廣泛普及,語言信息處理需求越來越大,人們迫切需要用自動化的手段處理語言信息,仍需要語言工作者的深入研究。因此,未來的研究中應(yīng)重視理論語言學(xué)與計算語言學(xué)的影響作用,進一步探索計算語言學(xué)在語言研究、語言信息處理等領(lǐng)域的重要應(yīng)用。(本文作者:張曉艷、宋鐵花 單位:太原理工大學(xué)外國語學(xué)院、山西農(nóng)業(yè)大學(xué)文理學(xué)院)