前言:想要寫出一篇引人入勝的文章?我們特意為您整理了語言學(xué)下語音助手Siri語言能力評估范文,希望能給你帶來靈感和參考,敬請閱讀。
【提要】本文在語言學(xué)視域下評估語音助手siri的語言能力。Siri在語言理解上只能處理最基本的情況,在語言生產(chǎn)上已較為完善。Siri和其他語音助手今后應(yīng)更加關(guān)注文字形式相同而語音不同的詞、不斷更新詞庫、關(guān)注方言問題、改進對話模式、增強學(xué)習(xí)能力。
【關(guān)鍵詞】語音助手;語言能力;Siri
如今,人工智能迅速發(fā)展,智能語音助手是人工智能的重要應(yīng)用領(lǐng)域。Siri是最早的智能語音助手,其語言能力在各類語音助手中位于前列。盡管語音處理技術(shù)發(fā)展迅速,語音助手仍有很大提升空間。本文在不高于45分貝的安靜場景展開測試,從語音、詞匯、語法、語用等角度評估語音助手Siri的語言能力。
一、語言理解能力評估
(一)語音
Siri對人正常的發(fā)音識別準(zhǔn)確率較高,基本可以正確理解人說的內(nèi)容。Siri對于人在說話過程中產(chǎn)生的語流音變,如同化、弱化、增音現(xiàn)象基本可以正確理解。對Siri說“難免”“喇叭”“快啊”幾個詞后,Siri都能轉(zhuǎn)換成對應(yīng)文字。Siri對于連續(xù)變調(diào)以及普通話中“一”(陰平)和“不”(去聲)在去聲音節(jié)前一律變?yōu)殛柶竭@一現(xiàn)象可以理解。對Siri說“我想吃水餃”“一個”“不要”,Siri都可以正確識別說出的話。Siri無法理解強調(diào)重音對含義的影響,Siri對于“我想吃一個蘋果”和“我想吃一個蘋果”(加點表示重音)回答相同。表達說話人語氣或情緒而與區(qū)別意義無關(guān)的發(fā)音長短不影響Siri對人說話含義的理解,換而言之,Siri無法感受并回應(yīng)人在情緒上的變化。對“我明天要去北京”(快且興奮)和“我明天要去北京”(慢且沮喪)的回答相同。Siri無法理解句調(diào)對含義的影響。對“我需要你的幫忙”(升調(diào))和“我需要你的幫忙”(降調(diào))回答相同。
(二)詞匯
Siri基本詞匯的詞匯量巨大,新造詞、古語詞、方言詞、外來詞等一般詞匯的詞匯量則有限。對“奧利給”回答“謝謝你,我會加油的”;對“你是打工人嗎”則無法回答。對“貓喜歡捉耗子嗎”提供的內(nèi)容是“貓為什么喜歡捉老鼠”;對“你是癟三嗎?”“你在耍什么把戲”則無法回答。此外,對于各種固定短語,Siri的掌握情況一般,通常調(diào)用搜索引擎進行檢索。漢語中同音詞較多,因此對同音詞的判斷是語言能力中極其重要的一部分。人類在溝通時通常可以借助語境正確判斷同音詞,而Siri目前尚無法做出準(zhǔn)確率較高的判斷?!拔蚁矚g看bēijù”默認(rèn)理解為“杯具”。但當(dāng)語境充足時:“我看了一場悲劇”“我買了一套杯具”,Siri則能做出判斷。Siri有時會通過用文字呈現(xiàn)出同音詞備選項的方式讓用戶對判斷錯的詞進行修改。由此來看,在判斷同音詞方面,Siri能力上不如人類,但一定程度上和人類具有同樣的思路——通過詢問的方式確定同音詞的具體情況。
(三)語法
Siri可以正確區(qū)分用戶不同語序的句子分別表示什么含義。對“我想吃飯”和“飯我想吃”均回答“好的請過目”并羅列飯店;對“我吃了一個香蕉”回答“好的。謝謝你愿意與我分享你的日?!保瑢Α耙粋€香蕉吃了我”則回答“我沒有聽明白你的意思”。Siri可以對用戶的不同句式做出正確回應(yīng)。Siri聽到“把通訊錄為我打開”會打開通訊錄。Siri能正確理解結(jié)構(gòu)簡單、意義簡單的句子。Siri可以正確回應(yīng)“給我講個笑話?!盨iri還能理解復(fù)雜結(jié)構(gòu)單句和復(fù)謂結(jié)構(gòu)單句。對“你認(rèn)為我是好人嗎”,回答“我還是不評論了”。此外,Siri也可以理解復(fù)句。對“因為我今天干了很多活所以我很累”,Siri雖不斷句,但正確回復(fù)了“聽我的,把ipad放下,先去睡一會兒吧,我會等著你”。Siri對用戶言語文字化過程中不加標(biāo)點,可見其不能準(zhǔn)確區(qū)分用戶說出的內(nèi)容屬于哪種語言單位。用戶說出“我今天有點累,我想睡覺了”,Siri會處理成“我今天有點累我想睡覺了”。Siri不擅長處理語法原因產(chǎn)生的歧義。對“幫我定下周四的鬧鈴(現(xiàn)在周四凌晨)”,回復(fù)“我無法設(shè)置一天以后的鬧鐘”,自動將“下周四”劃為整體,而不考慮“定下”為整體。
(四)語用
Siri在特定情況下可以理解由語言因素構(gòu)成的上下文語境(在對話中表現(xiàn)為口語的前言后語)。Siri對“我明天下午四點要去上海出差”,回答“我想搞清楚……你是指十二月十日星期四還是十二月十一日星期五”,此時用戶可以做出回應(yīng)。如果不是由Siri針對用戶言語進行提問,那么在用戶與Siri一來一回的對話后,用戶再說出的新的言語將被視作全新的對話,Siri在理解時不會將之前的對話納入該新對話的語境中。Siri對“我愛喝奶茶”,回答“了解”后,又對“請為我推薦一種飲品”,回答有關(guān)酒吧、茶餐廳的推薦,換而言之,Siri目前尚不具備多輪對話的能力。在特定情況下,Siri理解用戶言語會考慮情景語境,雖然Siri對場合、話題、以及用戶幾乎沒有了解,但對時間十分關(guān)注。凌晨時對“幫我訂一個明天早上七點的鬧鐘(周四)”,回答“鬧鐘已經(jīng)設(shè)置到上午七點(周四)”,而不是在周五設(shè)置鬧鐘。此外,根據(jù)測試來看,Siri幾乎不考慮文化語境與心理語境。Siri可以理解較為基礎(chǔ)的、有標(biāo)志的間接言語行為。對“你介意給我講個笑話嗎”,回答了一個笑話。但對于沒有提示標(biāo)志的就較為困難,其無法理解“我最近有點缺錢”暗示了我想借錢。綜上,Siri在語言理解上只能處理最基本的情況,還不能應(yīng)對口語中各式各樣的復(fù)雜情況,與人類語言理解能力差距較大。
二、語言生產(chǎn)能力評估
(一)語音
Siri的發(fā)音較人類更加標(biāo)準(zhǔn),不會造成理解困難。此外,Siri的發(fā)音具有許多人類的特征。Siri說話時會產(chǎn)生語流音變。Siri可以正確把握弱化現(xiàn)象,在引導(dǎo)Siri說出“喇叭”一詞后,Siri會自動對“叭”字做輕聲處理。在連續(xù)變調(diào)以及普通話中“一”(陰平)和“不”(去聲)在去聲音節(jié)前一律變?yōu)殛柶竭@一現(xiàn)象上,Siri與人類相同。例如“肯愛千金輕一笑”中的“一”是陽平。Siri說話時會有節(jié)律重音。對“你有喜歡的人嗎”,回答“我對地球上這些錯綜復(fù)雜的人際關(guān)系不是特別感興趣”。Siri說話基本沒有強調(diào)重音。Siri說話時會受到語氣或情緒的影響。對“快點”,回答“你看這么快可以嗎?我看我還是慢點的好”時,前一句速度快,后一句速度慢。Siri說話時有句調(diào)變化。對“快點”,回答“你看這么快可以嗎?我看我還是慢點的好”,前一句是升調(diào),后一句是降調(diào)。Siri說話時,停頓較為自然。Siri目前支持普通話和粵語兩種中文語音輸出形式。
(二)詞匯
Siri掌握的詞匯量足夠支持Siri表達出想表達的含義,且Siri會使用一定的固定短語。
(三)語法
Siri輸出的內(nèi)容以句子為主,基本沒有出現(xiàn)字、詞、短語、句組(不考慮例如“請為我朗誦一篇文章”之類的特殊要求)。Siri說出的句子在虛詞使用、語類選擇、語序安排、句式和語調(diào)使用上幾乎不會出現(xiàn)錯誤。綜上,Siri在語言生產(chǎn)上已較為完善,基本不會影響正常交流,也具有了一定的人類特征。
三、總結(jié)
Siri雖是較優(yōu)秀的語音助手,能夠應(yīng)對簡單對話,但與人類語言能力仍有較大差距。人類直接處理語音信息,而Siri處理語音轉(zhuǎn)化為文字后對應(yīng)的信息,故Siri對于文字形式相同而語音不同的詞的處理應(yīng)更謹(jǐn)慎,應(yīng)關(guān)注弱化、強調(diào)重音、與區(qū)別意義無關(guān)的發(fā)音長短、句調(diào)、語法原因造成的歧義等問題。詞匯變化速度較快,Siri應(yīng)不斷更新詞庫。Siri在語音識別與詞匯量上都應(yīng)更加關(guān)注方言問題。此外,目前Siri只會被動回答,不會主動提問或開啟話題,這種對話模式不同于人類。Siri不具備學(xué)習(xí)能力,無法在與人的對話中不斷學(xué)習(xí)新的信息,無法進行多輪對話。如果想使語音助手具備人格化特征則需要完善這兩點。Siri在評估中反映出來的不足是市場上多數(shù)語音助手共有的,如今市場上的語音助手均可據(jù)此進一步提高語言能力。
參考文獻
耿立波、劉濤、俞士汶、孫茂松、楊亦鳴2014《當(dāng)代機器語言能力的研究現(xiàn)狀與展望》,《語言科學(xué)》第1期。
李四維、程貴鋒、何雙旺、張笛2019《語音助手能力評估研究及趨勢分析》,《廣東通信技術(shù)》第12期。
作者:楊智惠 單位:蘇州大學(xué)文學(xué)院