前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了融合多語(yǔ)言交互下的在線翻譯輔助系統(tǒng)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,目前翻譯行業(yè)也逐漸引入該技術(shù)用來(lái)提升翻譯效果。文章以實(shí)現(xiàn)在線學(xué)習(xí)為目標(biāo),為了學(xué)習(xí)人員能夠在不斷糾正過(guò)程中進(jìn)行學(xué)習(xí),設(shè)計(jì)了一套端到端平臺(tái),該平臺(tái)將機(jī)器翻譯服務(wù)器集成到專(zhuān)業(yè)翻譯人員最常用的用戶(hù)界面中,實(shí)現(xiàn)在機(jī)器不斷從人的選擇中學(xué)習(xí)并根據(jù)特定領(lǐng)域或用戶(hù)風(fēng)格調(diào)整模型的同時(shí),節(jié)省學(xué)習(xí)人員后期的編輯工作,提升了在線翻譯過(guò)程中的輔助效果。
關(guān)鍵詞:機(jī)器學(xué)習(xí);翻譯行業(yè);端到端平臺(tái);翻譯模型
引言
在翻譯行業(yè)中,翻譯的效果至關(guān)重要,直接關(guān)系著業(yè)務(wù)人員的工作效率。如今,翻譯行業(yè)的高效性需求必須滿(mǎn)足快速的商業(yè)需求,為此,需要在較短的時(shí)間內(nèi)為用戶(hù)提供準(zhǔn)備高質(zhì)量的翻譯結(jié)果。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,文獻(xiàn)[1]中提出使用支持向量機(jī)(一種監(jiān)督學(xué)習(xí)模型)獲得了安德森雜質(zhì)模型的格林函數(shù),用來(lái)實(shí)現(xiàn)自學(xué)習(xí)提升。機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,為翻譯行業(yè)提供了可高效、快捷翻譯結(jié)果的途徑,即“人性化”翻譯,稱(chēng)為后期編輯(PE),該模式目前在翻譯行業(yè)中被證明是有效的[2],被稱(chēng)為是機(jī)器翻譯(MachineTranslation,MT),隨著MT功能的不斷完善,此工作流程已成為翻譯行業(yè)的重要內(nèi)容。PE過(guò)程本身就在不斷生成新的雙語(yǔ)數(shù)據(jù),此數(shù)據(jù)通常用于創(chuàng)建特定于域的語(yǔ)料庫(kù),可用于將系統(tǒng)從更廣泛的域改編為特定的域客戶(hù)端或樣式。在線學(xué)習(xí)(OnlineLearning,OL)范式指在PE過(guò)程中執(zhí)行這種調(diào)整[3]:每次用戶(hù)驗(yàn)證后期編輯的翻譯時(shí),系統(tǒng)都會(huì)在考慮到此數(shù)據(jù)的情況下進(jìn)行更新。因此,當(dāng)產(chǎn)生下一個(gè)翻譯時(shí),系統(tǒng)將考慮先前的版本,從而將產(chǎn)生更好的翻譯(或更切近于人類(lèi)語(yǔ)言用于規(guī)范)。OL范式已迅速引起研究人員和行業(yè)的關(guān)注,基于短語(yǔ)的統(tǒng)計(jì)MT系統(tǒng)從用戶(hù)后期編輯中逐步改編而成,最近,OL技術(shù)也被應(yīng)用于神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)[4],本文介紹了內(nèi)部OL框架的演示系統(tǒng),在該系統(tǒng)中,將翻譯服務(wù)器與翻譯程序的用戶(hù)友好界面SDLTradosStudio集成在一起,從而提升了多語(yǔ)言交互翻譯過(guò)程中的效率。
1系統(tǒng)設(shè)計(jì)
從用戶(hù)在PE流程中生成的后期編輯中提升翻譯效果,為此,通過(guò)即時(shí)更新系統(tǒng),即,一旦者確認(rèn)了句子,便會(huì)立即進(jìn)行更新,在用戶(hù)確認(rèn)編輯之后,立即使用源語(yǔ)句和后編輯作為培訓(xùn)來(lái)更新NMT(NeuralMachineTranslation)系統(tǒng)的模型。這種適應(yīng)可以在梯度下降之后進(jìn)行,梯度下降是神經(jīng)網(wǎng)絡(luò)的常規(guī)訓(xùn)練方法。本文設(shè)計(jì)的OL框架體系結(jié)構(gòu)由三個(gè)主要模塊組成:MT引擎、用戶(hù)界面和鏈接兩者的翻譯服務(wù)器。此外,還添加了一個(gè)日志記錄選項(xiàng),以使用戶(hù)能夠跟蹤擊鍵、時(shí)間和鼠標(biāo)移動(dòng)等信息,該系統(tǒng)的體系架構(gòu),如圖1所示。翻譯過(guò)程包括將機(jī)器翻譯傳遞到用戶(hù)界面,培訓(xùn)過(guò)程使用用戶(hù)提供的反饋對(duì)MT引擎進(jìn)行再培訓(xùn)。這兩個(gè)過(guò)程都是通過(guò)客戶(hù)端-服務(wù)器通信執(zhí)行的,接下來(lái),詳細(xì)描述各個(gè)模塊的具體功能。(1)機(jī)器翻譯引擎MT引擎的核心由生成翻譯的模型組成,可以在需要時(shí)進(jìn)行重新訓(xùn)練。每個(gè)翻譯項(xiàng)目都有其自己的模型,其模型是根據(jù)項(xiàng)目的需要設(shè)置的,所有模型都是基于神經(jīng)網(wǎng)絡(luò)的,并使用OpenNMT-py進(jìn)行了訓(xùn)練[5]。每個(gè)MT模型都有其自己的配置文件,其中包含個(gè)性化的翻譯和OL選項(xiàng),例如標(biāo)記化、子詞分段和學(xué)習(xí)率等。(2)翻譯服務(wù)器翻譯服務(wù)器與MT模型進(jìn)行通信,以生成翻譯并根據(jù)用戶(hù)的版本來(lái)修改系統(tǒng)。該服務(wù)器基于OpenNMT-py的REST服務(wù)器,并使用HTTP協(xié)議定義消息以服務(wù)于用戶(hù)的請(qǐng)求。翻譯服務(wù)器的代碼已公開(kāi)且可用,在OpenNMT-py中創(chuàng)建了一個(gè)分支,該分支具有此服務(wù)器并與其所有不同模型兼容。用戶(hù)界面和MT引擎之間的通信是通過(guò)GET和POST請(qǐng)求執(zhí)行的。服務(wù)器等待翻譯請(qǐng)求,收到請(qǐng)求后,這些請(qǐng)求將以JSON格式發(fā)送到機(jī)器翻譯引擎,當(dāng)用戶(hù)對(duì)機(jī)器翻譯片段進(jìn)行更正時(shí),將更正發(fā)送到翻譯引擎。(3)用戶(hù)界面在翻譯行業(yè)中,翻譯人員最常用的用戶(hù)界面是SDLTradosStudio。系統(tǒng)用戶(hù)界面,如圖2所示。用戶(hù)在如下情況自動(dòng)獲得機(jī)器翻譯輸出:?jiǎn)螕艚缑嬷芯€段的目標(biāo)部分,然后,用戶(hù)對(duì)片段進(jìn)行后期編輯,并在糾正翻譯后對(duì)其進(jìn)行確認(rèn)。SDL允許開(kāi)發(fā)TradosStudio插件來(lái)增強(qiáng)和擴(kuò)展該工具。此外,SDL擁有龐大的開(kāi)發(fā)人員社區(qū)[5],可通過(guò)附加軟件和應(yīng)用程序來(lái)更快的學(xué)習(xí)該框架。本文將自適應(yīng)框架整合為T(mén)radosStudio插件,該插件將用戶(hù)界面、TradosStudio與翻譯服務(wù)器互聯(lián)。當(dāng)用戶(hù)確認(rèn)后期編輯時(shí),已審核的細(xì)分將發(fā)送回MT引擎,以使用此新信息進(jìn)行重新訓(xùn)練。(4)日志記錄為了衡量PE過(guò)程中OL的翻譯效率和有效性,系統(tǒng)集成了工具來(lái)記錄在后期編輯給定文件中涉及的時(shí)間、擊鍵和鼠標(biāo)移動(dòng)等動(dòng)作。為此,Trados合并了Qualitivity[6]插件。該插件生成一個(gè)XML日志文件,其中包含每個(gè)段的所有按鍵時(shí)間信息,如圖3所示。利用這些日志信息,可以衡量將MT與OL一起用于后期編輯文件所需的工作量。使用專(zhuān)業(yè)翻譯人員在模擬和真實(shí)環(huán)境中進(jìn)行的初步實(shí)驗(yàn)[6]報(bào)告稱(chēng),MT系統(tǒng)生成的翻譯質(zhì)量有了顯著提高。
2實(shí)驗(yàn)分析
本章節(jié)分析了在用戶(hù)試用中獲得的結(jié)果,如表1所示。表1顯示了與使用參考樣本進(jìn)行更新的非NMT系統(tǒng)相比,NMT系統(tǒng)的翻譯質(zhì)量的結(jié)果[7-9]。通過(guò)這種綜合設(shè)置獲得的結(jié)果支持通過(guò)在線學(xué)習(xí)進(jìn)行智能化翻譯的有用性。在所有情況下,NMT系統(tǒng)都比非NMT系統(tǒng)獲得更好的TER和BLEU(機(jī)器翻譯的評(píng)價(jià)指標(biāo))。我們從TER的角度獲得的結(jié)果表明后期編輯這些樣本所需的人力更少。接下來(lái)進(jìn)行人工后期編輯實(shí)驗(yàn),三名專(zhuān)業(yè)翻譯參與了實(shí)驗(yàn)。對(duì)于NMT系統(tǒng)測(cè)試,所有后期編輯人員都使用相同的系統(tǒng)啟動(dòng)任務(wù),該系統(tǒng)使用每個(gè)人自己的后期編輯工具進(jìn)行調(diào)整。因此,在在線學(xué)習(xí)過(guò)程結(jié)束時(shí),每個(gè)后期編輯都獲得了相關(guān)的翻譯服務(wù)。對(duì)于靜態(tài)實(shí)驗(yàn),最初的NMT系統(tǒng)在整個(gè)過(guò)程中均保持不變,為了避免多次翻譯相同文本的影響,每個(gè)參與者在每種情況下后編輯了一個(gè)不同的測(cè)試集,如表2所示。該實(shí)驗(yàn)的測(cè)試結(jié)果如表3所示。這些數(shù)字是不同后期編輯所獲得結(jié)果的平均值,對(duì)于集合T1,每個(gè)句子的后期編輯時(shí)間的大幅減少尤其重要(每個(gè)句子平均7.5秒)。在測(cè)試集T2中,NMT系統(tǒng)的后期編輯時(shí)間也比非NMT系統(tǒng)的稍短一些,為0.7秒。
3總結(jié)
本文介紹了一個(gè)在線翻譯框架,該框架結(jié)合了通過(guò)在線學(xué)習(xí)對(duì)系統(tǒng)進(jìn)行即時(shí)調(diào)整的功能。這種模式允許翻譯人員/后期編輯人員產(chǎn)生更多具有人類(lèi)品質(zhì)的文本,即提升翻譯效率,因?yàn)橄到y(tǒng)不斷從用戶(hù)的后期編輯中學(xué)習(xí),從而避免了重復(fù)錯(cuò)誤。本文已將MT服務(wù)器集成到SDLTradosStudio用戶(hù)界面中,實(shí)驗(yàn)結(jié)果證明該系統(tǒng)在翻譯過(guò)程中有較高的效率。
參考文獻(xiàn)
[7]林寒.基于多語(yǔ)言交互的英語(yǔ)翻譯在線輔助系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2019,42(6):22-25.
[8]夏吾吉,華卻才讓?zhuān)谟邢逘顟B(tài)自動(dòng)機(jī)阿拉伯?dāng)?shù)字與藏文數(shù)詞自動(dòng)翻譯[J].計(jì)算機(jī)工程與科學(xué),2018,40(3):550-554.
[9]余倩.基于特征提取算法的交互式英漢翻譯系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(4):161-163.
作者:胡曉榕 單位:咸陽(yáng)師范學(xué)院