前言:想要寫出一篇引人入勝的文章?我們特意為您整理了話題型微博情感分析策略范文,希望能給你帶來靈感和參考,敬請閱讀。
本文重點(diǎn)討論的是話題型微博的語言特點(diǎn)以及對其進(jìn)行情感分析時可以采取的策略。
話題型微博的語言特點(diǎn)
除了一些名人,微博的主人用的大都是網(wǎng)名,發(fā)表意見可以無所顧忌;微博的傳播往往是蒲公英式,一個微博主發(fā)出一條引人矚目的微博,就會形成一個主題,體現(xiàn)為標(biāo)簽,其他的微博會圍繞這個主題發(fā)表意見,下一輪微博還可能會針對上一輪微博發(fā)表意見,以此類推,于是就形成了一個帶有鮮明主題的話題型微博群。話題型微博群規(guī)模的大小取決于人們對該主題的關(guān)注程度。與一般的微博(謝麗星等,2012)不同,話題型微博的文本結(jié)構(gòu)形式?jīng)Q定了它的語言特點(diǎn):句子簡短,負(fù)面傾向多,語句口語化程度強(qiáng),表達(dá)情感強(qiáng)烈而理性評價淡化,評價對象在句中不直接出現(xiàn),語言不夠規(guī)范,等等。下面分別論述。
(一)句子簡短,單句多
微博有字?jǐn)?shù)限制,因而往往短小。話題型微博又因?yàn)橛幸粋€明確的話題,人們是圍繞這個話題發(fā)表意見,寫微博,只要表達(dá)了心情、態(tài)度,三言兩語也可,只字片語也行,所以與一般文體相比,話題型微博中句子相對簡短,單句居多。表1顯示了我們對400篇語言輿情評論文和20篇話題型微博平均句長的統(tǒng)計(jì)結(jié)果。從表1可以看出,評論文平均句長是38個字,而話題型微博平均句長只有20個字,幾乎只有評論文的一半。20個字,大約有10個詞,很難形成復(fù)句。
(二)觀點(diǎn)負(fù)面傾向多
話題型微博的形成是基于一定的社會話題和社會事件,而當(dāng)今社會引起關(guān)注的話題負(fù)面性較多,這就使得話題型微博在表達(dá)觀點(diǎn)時,以否定傾向居多。表2是我們對400篇評論文和20篇話題型微博中觀點(diǎn)句的統(tǒng)計(jì)結(jié)果。表2數(shù)據(jù)顯示,語言輿情評論文觀點(diǎn)句中,負(fù)面傾向的只占49.81%,將近一半,而話題型微博中負(fù)面傾向句卻占到了觀點(diǎn)句的80.02%,可以看出,話題型微博的負(fù)面傾向更加明顯。
(三)表達(dá)情感強(qiáng)烈而理性評價淡化
由于傳播空間的相對自由和匿名評論的相對隱秘,因而網(wǎng)友在表達(dá)觀點(diǎn)時會采用一些比較極端和激烈的形式,又因微博字?jǐn)?shù)的限制,無法以邏輯鮮明的論述方式進(jìn)行理性表達(dá),所以在話題型微博中,觀點(diǎn)句的表達(dá)往往感情色彩強(qiáng)烈,而理性評價淡化,臟話、粗話等表現(xiàn)力強(qiáng)的不雅語匯大量出現(xiàn),這也成為話題型微博觀點(diǎn)句在表達(dá)情感和態(tài)度時一種較廣泛的表達(dá)方式。
(四)口語色彩濃重,情感因子顆粒度加大
微博雖然用的是書面形式,但交際的實(shí)時性、互動性,使得它具有濃重的口語色彩,人們往往會使用一些口語化詞語把自己內(nèi)心的真實(shí)感受直接表達(dá)出來,體現(xiàn)句子觀點(diǎn)的情感因子顆粒度加大,往往不再是詞,而是短語。例如:(1)#假和尚摟女子#得瑟,使勁得瑟,被抓了吧(2)#90后暴打老人#我滴媽~!這還真特么爭氣一群欠收拾的(3)#90后暴打老人#什么玩意了。(4)#官員財產(chǎn)公示#有個鬼用,公示出來的也要有人信吖?其中的“得瑟、我滴媽、欠收拾、什么玩意、有個鬼用”口語色彩濃重,明確表達(dá)了說話人的觀點(diǎn),其中除了“得瑟”是詞,其余都是短語,甚至是短句。
(五)隱晦表達(dá)觀點(diǎn)
在話題型微博中,除了用一些很“給力”的詞語明確表達(dá)觀點(diǎn)外,人們還會采用一種隱晦的、非直接的方式,以言外之意表達(dá)觀點(diǎn)。如:(1)#食用油漲價#我可以說臟話嗎?這是一個疑問句,字面上看沒有表達(dá)任何觀點(diǎn),然而在“食用油漲價”這一語境下,可以理解為說話者表達(dá)的是一種想用說臟話來發(fā)泄的沖動,因而也就間接地表達(dá)了對話題不滿的情緒和貶斥的態(tài)度。(2)#三亞春節(jié)宰客#當(dāng)?shù)氐恼块T這么做的用意是什么?掩耳盜鈴?越抹越黑?還是讓游客永遠(yuǎn)不去三亞?應(yīng)該去測測智商了!“應(yīng)該去測測智商”表達(dá)了說話者對“當(dāng)?shù)卣块T”的不滿。(3)#假和尚摟女子#狐貍尾巴總會露出來的“狐貍尾巴總會露出來的”是對假和尚做壞事最終會被曝光的一種諷刺。(4)#韓寒方舟子之爭#我真叫您教主了,正話反話都讓您說了,您這邏輯是美術(shù)老師教的吧“您這邏輯是美術(shù)老師教的吧”,這個句子中也沒有情感詞,但根據(jù)標(biāo)簽的語境可以看出,是諷刺當(dāng)事人的邏輯性缺失。
(六)評價對象省略
由于話題型微博的話題標(biāo)簽與文本存在著密切的關(guān)聯(lián),網(wǎng)友在微博時,往往可以直接對整個話題或話題的某一部分進(jìn)行評價和表達(dá)態(tài)度,因而標(biāo)簽或者標(biāo)簽的一部分甚至標(biāo)簽外事物也就成為了評價對象。所以,話題型微博的評價對象常在文本中省略,觀點(diǎn)句更加短小精悍,甚至短小到一個短語、一個詞,也可以被人理解,不會造成傳播上的歧義。如:(1)#菲軍艦惡意撞擊#抗議!(2)#菲軍艦惡意撞擊#真可惡(3)#菲軍艦惡意撞擊#…欺人太甚(4)#菲軍艦惡意撞擊#可悲啊……上面這些觀點(diǎn)句都缺省了評價對象,在表達(dá)評價時只用了極簡短的話語,但讀者仍然能夠理解它們評價的對象:(1)的評價對象是整個標(biāo)簽“菲軍艦惡意撞擊”這件事,(2)是標(biāo)簽中的“菲軍艦”,(3)是標(biāo)簽中的“菲(律賓)”,(4)是標(biāo)簽之外的“中國”。
(七)語言不夠規(guī)范
含有大量非規(guī)范性的語言文字,也是話題型微博語言的一個特點(diǎn)。這種非規(guī)范性可能有幾個方面的原因:一方面,是非人為的原因造成的輸入失誤或常識上的漢字書寫錯誤;另一方面,微博表達(dá)自由,加之敏感話題在法律上的限制,會人為地加入一些噪聲、非規(guī)范詞、非規(guī)范符號和非規(guī)范語言格式。例如:(1)#瘋狂的大蔥#找點(diǎn)空閑,找點(diǎn)時間!帶著錢包常去url.cn/1T8Gpq淘寶小店去看看!(2)#假和尚摟女子#真TM不要Face。(3)#假和尚摟女子#不過這二和尚佛景不遜達(dá)摩釋迦,他們真的能做到‘色即是空,空即是色’???。。?!?4)#彭宇承認(rèn)撞了南京老太#我很愿意相信這是真的,但是!例(1)加入網(wǎng)站鏈接等噪聲;例(2)中英文混用,TM是“他媽”的拼音縮寫,不要Face是“不要臉”;例(3)標(biāo)點(diǎn)符號和中文內(nèi)容混用;“但是”作為一個連詞,功能一般是連接句子,往往不會作為句尾結(jié)束的標(biāo)志,但在例(4)中放在句尾,這種微博觀點(diǎn)句的表達(dá),是一種不完整的表達(dá)方式。上述話題型微博的語言特點(diǎn)就決定了在進(jìn)行情感分析時所采取的對應(yīng)策略。
話題型微博情感分析所采取的策略
情感分析及評價對象抽取,目前主要有兩種基本方法。一種是基于句型、句法、語義的詞典及規(guī)則方法(劉鴻宇等,2010;王素格等,2009;楊江,2011;朱嫣嵐等,2006),一種是基于標(biāo)注語料的機(jī)器學(xué)習(xí)方法(樊娜等,2010;王根等,2007;張博,2011;Peng等,2002)。我們認(rèn)為,情感分析,分析的是語言的意義,要想在對語言進(jìn)行深層理解的基礎(chǔ)上完成情感分析,規(guī)則的方法更有優(yōu)勢,所以主要采取的是基于語義的詞典加規(guī)則的方法,統(tǒng)計(jì)方法只在建立詞典確立詞條屬性、建立規(guī)則庫確定規(guī)則優(yōu)先級時發(fā)揮作用。針對話題型微博,我們主要采用了加大情感因子顆粒度,構(gòu)建基于短語的情感詞典,通過短語規(guī)則確定句子極性、重點(diǎn)研究否定形式、建立基于話題的OBJ表單等策略。
(一)構(gòu)建基于短語的情感詞典
識別觀點(diǎn)句,學(xué)界的通常做法是以情感詞作為依據(jù),帶有情感詞的是觀點(diǎn)句,否則就是非觀點(diǎn)句(這種以詞定句的做法顯然有問題,擬另文討論)。也有一些學(xué)者注意到了短語在情感分析中的作用(李鈍等,2008;TheresaWilson等,2005)。話題型微博中的觀點(diǎn)句由于情感表達(dá)強(qiáng)烈而理性評價淡化,各種臟話、粗話、口語詞語大量使用,加之很多非直接性的表達(dá),使得影響句子的情感因子的顆粒度加大,僅僅依靠傳統(tǒng)的情感詞典,依靠句子中是否有情感詞來進(jìn)行觀點(diǎn)句的判斷,會造成很多錯判,因此我們在基本情感詞典的基礎(chǔ)上,用人工方式增加了情感短語,構(gòu)建了一部基于短語的情感詞典。情感短語詞典突破了以詞為主要收錄對象的局限,將明確表達(dá)觀點(diǎn)的情感短語甚至短句都收錄其中,如“不得好死、不咋的、扯犢子、就好了、瞎折騰個屁、不是找抽嗎、什么玩意兒、沒一個好東西、好不到哪兒去、以為自己是誰啊、可以說臟話嗎、這是人的行為嗎、良心讓狗吃了”等等。當(dāng)然,一些明確表達(dá)觀點(diǎn)的口語詞、網(wǎng)絡(luò)用語和臟話也必須收錄到情感詞典中,如“得瑟、傻逼、狗逼、操蛋、犯賤、傻B、欠揍、找死”等,這樣包含這些情感短語和情感詞的觀點(diǎn)句就能夠被準(zhǔn)確地識別出來,從而在不降低準(zhǔn)確率的前提下,提高系統(tǒng)對觀點(diǎn)句的召回率。
(二)通過短語規(guī)則確定觀點(diǎn)句及其極性
話題型微博語言簡單,短句多,長句少;單句多,復(fù)句少。針對這種特點(diǎn),我們建立了短語規(guī)則庫,試圖解決情感短語詞典不能處理的那部分句子是否觀點(diǎn)句以及句子的極性問題,主要是長距離搭配形成的情感短語或者是有歧義的短語搭配。如:(1)#六六叫板小三#這種事是3方的責(zé)任;不能單獨(dú)怪哪一方;(2)#90后暴打老人#我們指責(zé)的不應(yīng)該是90后,人之初性本善,這是國家、學(xué)校、家長教育的責(zé)任。單純“責(zé)任”一詞,不一定表示評價,但(1)(2)中的“是……的責(zé)任”是一個表達(dá)負(fù)面評價的遠(yuǎn)距離搭配,中間可以加進(jìn)各種不同成分,基本都是評價對象。(3)#蘋果封殺360#這不是騰訊和360的問題,這是中國跟美國的問題。(4)#國旗下討伐教育制度#絕對不是教育制度的問題是教師的問題啊這兩個句子中都有“是……的問題”這樣的搭配,但句(3)中的“是……問題”不表示評價,不是情感短語,句(4)中的“是……問題”就表示對“教師”的評價,是情感短語。這樣的長距離、有選擇搭配,也只能靠短語規(guī)則來解決其觀點(diǎn)句的判定問題。短語規(guī)則主要采取關(guān)鍵詞匹配的模板形式。例句(1)(2)的識別規(guī)則為:是/v#[!,/w]的/u責(zé)任/n=#4:-1“=”前面是匹配模式,后面是操作。該規(guī)則表示,當(dāng)“是”后越過一些不包括逗號的成分而出現(xiàn)“責(zé)任”時,就將該句判定為觀點(diǎn)句,并給出負(fù)面傾向的極性。
(三)建立否定形式規(guī)則庫
話題型微博觀點(diǎn)句具有負(fù)面傾向居多的特點(diǎn)。負(fù)面觀點(diǎn)句的表達(dá)主要靠兩種手段,一種是具有負(fù)面傾向的情感詞或情感短語,一種是運(yùn)用否定形式表達(dá)。利用情感短語以及短語規(guī)則識別出來的觀點(diǎn)句,其傾向極性都在詞典或規(guī)則上明確標(biāo)注著,所以觀點(diǎn)句的傾向極性識別不成問題。問題較大的是有否定形式的觀點(diǎn)句,一般的否定會改變句子的傾向極性。如:(1)#韓寒方舟子之爭#急急忙忙起訴,絕非上策。(2)#菲軍艦惡意撞擊#我們的政府不夠強(qiáng)硬,每次都是強(qiáng)烈抗議,別人鳥你么?(3)#90后當(dāng)教授#現(xiàn)在的教授真是越來越不值錢了!!(4)#官員財產(chǎn)公示#沒有公平,沒有正義,處處充斥著欺詐。遇到這種情況,只需規(guī)則的操作部分在情感詞的極性值上乘以-1,就可以解決句子的極性判斷問題。但否定形式的情況極其復(fù)雜,并不都是一個簡單的“乘-1”就能解決的問題。如:(5)#官員財產(chǎn)公示#太不和諧了吧(6)#洗碗工留剩菜被開除#有些事情合情并不一定合理(7)#假和尚摟女子#沒有不沾腥的和尚。。。。(8)#官員財產(chǎn)公示#所謂的民主,就是你是民,我是主??梢钥吹?,在(5)中,因?yàn)槌潭雀痹~“太”的存在,在改變傾向極性的同時,加強(qiáng)了情感強(qiáng)度;(6)中,因?yàn)橛小耙欢ā?,否定程度弱化?(7)中,否定詞語連用,就變成了對“沾腥”的肯定;(8)中的“所謂”一般不會看作是否定詞,但它確確實(shí)實(shí)改變了“民主”的極性。針對這些情況,我們在語料中盡可能全面地搜集了可以改變句子極性的詞語,形成了一個否定形式詞集,并就各種否定類型建立規(guī)則庫,以保證這類觀點(diǎn)句傾向極性的準(zhǔn)確判斷。規(guī)則的基本形式同短語規(guī)則。
(四)建立基于話題的OBJ表單
話題型微博語言話題集中,評價對象往往省略,它的評價對象或者是標(biāo)簽,或者是標(biāo)簽的一部分,或者在句子的上文或下文,因此在句內(nèi)根本無法提取到評價對象。針對這種情況,我們在評價對象提取模塊中建立了一個基于話題的OBJ表單。例如下面4個觀點(diǎn)句,標(biāo)簽話題都是“六六叫板小三”,句中都沒有評價對象。但仔細(xì)分析,這4個觀點(diǎn)句的評價對象依次為整個標(biāo)簽、六六和小三、六六、小三。這說明,對于話題型微博來說,評價對象缺省的觀點(diǎn)句,可以通過回溯話題標(biāo)簽的方式,在標(biāo)簽中提取評價對象。(1)#六六叫板小三#無聊…(2)#六六叫板小三#都賤貨!(3)#六六叫板小三#維護(hù)自己的愛情,做的對,給力(4)#六六叫板小三#破壞別人家庭,變態(tài)。OBJ表單必須建立在話題的基礎(chǔ)上。“六六叫板小三”這一話題下的“無聊”是評價“六六叫板小三”這件事的,“官員調(diào)研”這一話題下也有“無聊”,則是評價“官員調(diào)研”這一現(xiàn)象的,“蘋果封殺360”這一話題下的“無聊”則是評價“蘋果封殺360”這一事件的。應(yīng)說明的是,建立OBJ表單比較適合話題型微博,換一種文體,也許不一定有效。
系統(tǒng)及其工作流程
運(yùn)用上述策略,我們構(gòu)建了一個基于情感短語詞典以及語義規(guī)則的情感分析系統(tǒng)CUCsas。系統(tǒng)包括分詞標(biāo)注模塊、短語和句子規(guī)則解釋器、評價對象提取規(guī)則解釋器和一個OBJ模塊。其中的分詞標(biāo)注模塊與一般的不同,為做情感分析,在原有分詞詞典和規(guī)則庫的基礎(chǔ)上,又加進(jìn)了幾部與情感分析相關(guān)的詞典,主要的三部是:一部用戶詞典Usrsas,專門儲存情感分析需要切分出來的詞和短語并賦予詞性;一部添加了情感短語、帶有“po(褒)、ne(貶)”標(biāo)記的情感詞典Dicsas,用于給待分析語料中的情感因子進(jìn)行標(biāo)記;一部褒貶值詞典Dicsvl,Dicsas中的所有詞語在這里都要根據(jù)語感人工賦給一個從1至-1之間的情感值,用于計(jì)算情感因子的情感度。短語和句子規(guī)則解釋器對短語和句子規(guī)則進(jìn)行解釋,實(shí)現(xiàn)對句子的情感度計(jì)算;評價對象提取規(guī)則解釋器對評價對象提取規(guī)則進(jìn)行解釋,實(shí)現(xiàn)一般情況下評價對象的提取。OBJ模塊是對評價對象提取規(guī)則的補(bǔ)充,實(shí)現(xiàn)對復(fù)雜情況的處理,例如句中評價對象省略的情況。該系統(tǒng)工作流程見圖1。
實(shí)驗(yàn)結(jié)果及其分析
運(yùn)行系統(tǒng)CUCsas,以中國計(jì)算機(jī)學(xué)會(CCF)2012年主辦的第一屆中文微博情感分析評測提供的評測語料為對象,對20篇話題型微博語料進(jìn)行了觀點(diǎn)句識別、觀點(diǎn)句極性識別和觀點(diǎn)句評價對象提取的實(shí)驗(yàn)。表3是實(shí)驗(yàn)結(jié)果(也是評測結(jié)果)。上述成績在本次參加評測的34支隊(duì)伍提交的53組結(jié)果中,任務(wù)1觀點(diǎn)句識別獲得第二名(第一名微平均F值為0.784),任務(wù)2觀點(diǎn)句極性識別獲得第三名(第一名微平均F值為0.850),任務(wù)3觀點(diǎn)句評價對象識別(包括寬松和嚴(yán)格)獲得第一名(嚴(yán)格評測微平均第二名的成績?yōu)?.225)。雖然相對成績還可以,但我們深知,這三項(xiàng)任務(wù)的絕對成績即正確率還不高:任務(wù)1的最好成績F值還不到80%;任務(wù)二相對較好,達(dá)到85%;任務(wù)3,我們的成績最好,但即使寬松評測,F(xiàn)值還不足40%??磥?,情感分析,離實(shí)用化的要求還有相當(dāng)一段距離,任重道遠(yuǎn)。我們對系統(tǒng)分析結(jié)果中識別錯誤的句子進(jìn)行了分析和歸納,產(chǎn)生錯誤主要有以下幾個原因。(1)在觀點(diǎn)句及其極性的識別上,由于規(guī)則方法本身的限制,使得我們建立的情感詞典和規(guī)則庫很難覆蓋全部語言現(xiàn)象和微博全部的語料,例如“#彭宇承認(rèn)撞了南京老太#這事兒還有人信啊…”,這條微博沒有被系統(tǒng)識別為觀點(diǎn)句,因而極性識別和評價對象提取也都沒有再繼續(xù)進(jìn)行。但是從這條微博內(nèi)容來看,明顯帶有說話人對彭宇這件事情的強(qiáng)烈不滿和質(zhì)疑,應(yīng)該是觀點(diǎn)句。再回溯到我們建立的情感詞典,其中“誰信呢”作為一條情感短語已收錄其中,但是這條微博變換了語言形式。如果能在情感詞典中建立一個“還有人信啊”的短句條目,那么這條微博也能在系統(tǒng)中進(jìn)行正確分析。(2)對微博語料進(jìn)行預(yù)處理時,由于分詞錯誤使得一些詞不能與情感詞典中的詞條匹配,因而造成了觀點(diǎn)句識別上的流失,例如“#皮鞋果凍#以前敢吃,現(xiàn)在不敢吃了,想想都好惡心”,在分詞的時候,因?yàn)椤昂脨骸北环衷谝黄穑皭盒摹眱蓚€字被切開,因而無法到情感詞典進(jìn)行匹配。(3)微博語言表達(dá)上的隱晦、非直接性,使得系統(tǒng)在處理深層語用時也會出錯,例如“#皮鞋果凍#JS有點(diǎn)良心吧”這一觀點(diǎn)句,系統(tǒng)分析結(jié)果顯示為肯定傾向,但是從這句話的深層語義分析,是表示對“JS(奸商)”的一種諷刺,是勸誡他們應(yīng)該有點(diǎn)良心,應(yīng)該是否定傾向。(4)由于微博語料的非規(guī)范性,錯別字和標(biāo)點(diǎn)符號的誤用現(xiàn)象比較普遍,這也在很大程度上影響了規(guī)則的匹配,造成一些觀點(diǎn)句評價對象的提取錯誤。例如,“#彭宇承認(rèn)撞了南京老太#———老百姓太不容易了,希望我們的黨能領(lǐng)導(dǎo)人民好好走下去?!边@一觀點(diǎn)句,由于“老百姓”前面有一個標(biāo)點(diǎn)符號,因而在進(jìn)行規(guī)則匹配時候,這個標(biāo)點(diǎn)符號也被算到評價對象中來,評價對象就成為了“———老百姓”,在嚴(yán)格評測中就是個錯誤。另外,對觀點(diǎn)句極性的認(rèn)識不同,也造成系統(tǒng)分析結(jié)果與評測答案不一致,如“#菲軍艦惡意撞擊#轉(zhuǎn)向舵是不會失效的,更不會這么巧”這句微博,系統(tǒng)認(rèn)為是觀點(diǎn)句,因?yàn)檫@句微博體現(xiàn)了對菲軍艦撞擊原因的質(zhì)疑,但是評測答案認(rèn)為這句微博是非觀點(diǎn)句。
幾點(diǎn)啟示
(一)規(guī)則方法不是完全無用
我們針對話題型微博的語言特點(diǎn),采用基于短語情感詞典及語義規(guī)則的方法構(gòu)建了一個情感分析系統(tǒng),在中國計(jì)算機(jī)學(xué)會組織的第一屆中文微博語言情感分析評測中取得了相對較好的成績,這是我們始料未及的。毋庸置疑,從上個世紀(jì)90年代以后,統(tǒng)計(jì)方法就成為語言信息處理的主流,規(guī)則方法被冷落,甚至被嗤之以鼻。但事實(shí)證明,規(guī)則方法也不是全無用處,如能和語料庫方法結(jié)合,它在處理某些領(lǐng)域語言時可能還有一定優(yōu)勢。
(二)語言計(jì)算要加強(qiáng)對語言的分析
語言畢竟是人說出來的話,是一個十分復(fù)雜的系統(tǒng),語言的復(fù)雜性,無論怎么強(qiáng)調(diào)都不過分。那么在對語言進(jìn)行計(jì)算,尤其是在對語言做“情感分析”這樣的內(nèi)容計(jì)算時,如果不顧及語言本身的特點(diǎn),一味統(tǒng)計(jì),很難取得理想的效果。我們相信,參加這次評測的那些兄弟團(tuán)隊(duì),在計(jì)算上都是一流的高手,如果能在有效的統(tǒng)計(jì)手段中加進(jìn)對語言的深層分析,肯定能取得更加理想的成績。
(三)語言計(jì)算要注重語域
語域是哈利迪提出的一個概念,大致相當(dāng)于語篇類型。語言的復(fù)雜性不僅體現(xiàn)在它結(jié)構(gòu)、內(nèi)容的復(fù)雜,還在于不同的場合、不同的交際主題與目的、不同的交際對象,就會形成不同的語域。各語域之間在語言結(jié)構(gòu)形式及表達(dá)手段上都有很大不同。因此,想要使用一種方法就能放之四海而皆準(zhǔn),構(gòu)建一個系統(tǒng)就能包打天下,就能解決所有語域的問題,根本是不可能的?;仡櫽?jì)算語言學(xué)的歷史,上個世紀(jì)60~80年代計(jì)算語言學(xué)的發(fā)展時期(馮志偉,2011),人們主要是基于句型、句法、語義提出一些理論、一些方法,然后在受限語言(某個應(yīng)用領(lǐng)域如火車時刻查詢,或幾十、上百個句子)中去實(shí)現(xiàn),以驗(yàn)證這種理論和方法的可行性,因此出現(xiàn)了計(jì)算語言學(xué)百家爭鳴、理論方法眾多的研究局面。90年代后,計(jì)算語言學(xué)提出了新的研究目標(biāo),進(jìn)入了大規(guī)模真實(shí)文本處理時期,新的目標(biāo)決定了新的方法、手段,于是語料庫方法盛行,統(tǒng)計(jì)方法成為主流。計(jì)算語言學(xué)發(fā)展到今天,時間又過去了20年,研究實(shí)踐告訴我們:我們還是對語言的復(fù)雜性估計(jì)不足。處理大規(guī)模真實(shí)文本,處理非結(jié)構(gòu)化的大數(shù)據(jù),應(yīng)該是計(jì)算語言學(xué)的終極目標(biāo),在做具體的語言工程、處理具體的語言內(nèi)容時,還要關(guān)注不同的語域,針對不同的受限語言采取不同的分析方法和計(jì)算策略。表面看起來,從上世紀(jì)60~80年代的“受限語言”,到今天的“關(guān)注不同語域”,似乎畫了一個圓,又回到了原點(diǎn),但這不是簡單的回歸,而是一種螺旋式上升,是計(jì)算語言學(xué)的語言處理又進(jìn)入了一個新境界。(本文作者:侯敏、滕永林、李雪燕、陳毓麒、鄭雙美、侯明午、周紅照 單位:中國傳媒大學(xué)/國家語言資源監(jiān)測與研究有聲媒體中心)