?

情感隱喻計算及其應用研究

2015-03-20 08:03林鴻飛張冬瑜鄭樸琪
大連理工大學學報 2015年6期
關鍵詞:源域語料隱喻

林鴻飛,張冬瑜,楊 亮,鄭樸琪

(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)

0 引 言

人工智能是一門致力于賦予計算機擁有人類智慧的學科,旨在讓計算機既具有超越人類的感知計算能力,同時又能夠具有較好的情感交流能力.為了讓計算機理解人類的情感,需要深入了解和挖掘人類自身的情感特征,而情感隱喻是人類情感表達的重要方式.在此背景下,情感隱喻計算的研究具有重要的理論和應用價值.

隨著互聯網的蓬勃發展,特別是微博、論壇、社交網站等網絡媒介的迅速崛起,公眾廣泛參與到社會事件、政治活動、產品服務等方面的評論中,由此產生了海量具有豐富情感傾向的評價性信息.這些信息往往含有大量的隱喻,人們迫切希望計算機能夠快速地分析和處理這些文本評論所傳遞的情感,從而滿足產品銷售、輿情監控以及信息預測等方面的需求.

隱喻不僅在語言交流中占有重要地位,也是人們理解抽象概念的主要方式,人們常常使用隱喻對難以描述的未知概念進行認知與表達[1].例如,在隱喻句“時間是金錢”中,通過“金錢”這個熟悉而具體的源域概念實現了對“時間”這個抽象目標域概念的表述.基于生理體驗的人類情感也是一種抽象、難以描述的概念,通常需要用隱喻來表達[2].

一般來說,隱喻有兩種情感表達方式[3]:一是用隱喻直接描寫情感,指用隱喻描寫情感狀態和行為.例如使用隱喻句“He was boiling inside”“他的肺要氣炸了”來表達“生氣”的情感;“I′m feeling down”“她整日以淚洗面”來表示“傷心”;“She beamed with pleasure”“小明頓時心花怒放”來表達“高興”.二是通過隱喻構建情感,即用隱喻觀察、傳遞、構建情感.例如“整條馬路都癱瘓了”“會議引發了一場暴風雨”“Lisa is a peach”.這些隱喻雖然不是對情感的直接描述,但是卻傳遞出了“焦慮”“厭惡”“喜愛”等情感.情感隱喻是用以描述或構建情感的隱喻[2],它們比“生氣”“傷心”“高興”等對情感的直接表達更加生動、形象,是情感概念建立與表達的主要方式.

日常交流中每3 個句子就會出現一句隱喻[4],隱喻的普遍性以及在情感表達中的重要地位決定了情感隱喻計算研究的重要性.然而情感隱喻屬于思維領域[5],認知的特性決定了其計算模型和方法需要模擬人類智能,對諸如“How can I kill a process”“她是只母老虎”這樣具有非字面義(non-literal meaning)的語言進行分析和解釋.因此,情感隱喻計算是自然語言處理及人工智能研究面臨的一項棘手任務和嚴峻挑戰,是情感計算向縱深發展的關鍵問題之一.

情感隱喻的研究開始于Lakoff等的《我們賴以生存的隱喻》[1],距今已經有30多年的歷史,期間涌現了大批學者和研究成果.尤其最近十余年,隨著互聯網技術迅猛發展和人工智能的迫切需求,隱喻及情感計算研究有了很大的進展.學者們重視隱喻在思維和語言中的核心地位,提出了大量隱喻計算模型以及隱喻的情感分析方法.由此,情感隱喻計算開始了全新的探索并取得了很多有價值的成果,但同時也面臨著巨大的困難和挑戰.

基于上述分析,可以認為對于情感隱喻的計算應以認知語言學為理論指導,以情感詞匯本體、情感常識庫、情感隱喻知識庫等為基礎,以機器學習、自然語言處理、文本挖掘等方法為技術支撐,實現由定性到定量的情感隱喻分析與計算,從而輔助相關隱喻研究者開展相應的工作,提高隱喻識別和理解的效率與精度.

本文首先對情感隱喻計算的發展歷程加以梳理,然后從相關情感隱喻理論基礎出發,從資源建設、隱喻的識別與理解、情感隱喻識別與理解三個方面總結和分析情感隱喻計算的研究進展,并探討情感隱喻計算研究的應用,最后提出面臨的挑戰和對未來的展望.

1 歷史回顧

1.1 初始階段

這個階段從兩千多年前的亞里士多德時期一直到20世紀的七八十年代,以隱喻的語言學研究為主要成果,構建了隱喻本質和工作機制等主要理論框架.早在兩千多年前的亞里士多德時期,隱喻被看作是用一種事物替代另一種事物的修辭現象,這種修辭觀在隱喻研究中占據了長期的統治地位.直到20世紀七八十年代,以Lakoff為代表的學者們從認知語言學角度對隱喻進行了研究,指出人類思維的概念體系是通過以人體體驗為基礎的隱喻建立起來的,把隱喻看作是對抽象、復雜的情感進行概念化的重要手段.其中以Lakoff的《我們賴以生存的隱喻》以及Ricoeur[6]、Ortony[7]等學者的論著為主要代表.對情感隱喻進行深入研究并做出突出貢獻的是語言學家Kvecses,他以Lakoff的概念隱喻理論為框架,發展和完善了情感隱喻相關的理論和研究方法[8].Lakoff建立在認知基礎上的隱喻理論幾乎滲透到了隱喻研究的每個學科和領域,成為當代隱喻研究最重要的理論依據.

1.2 形成階段

從20世紀的80年代到21世紀初,隱喻的跨學科研究越來越廣泛和深入,尤其是自然語言處理的不斷成熟,隱喻自動處理研究正式開始并形成了基本的計算思路和框架.這個時期出現了許多隱喻自動處理和情感分析的技術和方法,其中以基于知識和基于統計為兩種主要方法,并且開展了通用的語義知識庫以及專門的隱喻知識庫語料資源建設研究.例如WordNet[9]是通用知識庫的代表,組織了詞匯語義信息及其相互關系;專門的隱喻知識庫包括 Master Metaphor List(MML)[10]等.

“情感計算”是由美國麻省理工學院的Picard在1997 年提出的研究領域[11],當初主要關注圖像識別領域的人臉表情識別.后來隨著互聯網的迅速發展,逐步擴展到文本情感計算,主要通過文本包含的情感語義因素進行情感分析,而對于隱喻的情感計算研究還沒有開展.語料資源建設也以手工構建為主,規模較小,缺乏隱喻知識自動獲取及推理等功能.

1.3 發展階段

進入21世紀以來,隨著自然語言處理、人工智能技術的突飛猛進以及情感計算研究的深入,基于隱喻語料庫的統計研究方法相對于手工構建規則的方法表現出越來越強勁的優勢和發展勢頭,學者們提出了基于統計技術的隱喻計算模型和方法[12-14],隱喻的情感計算研究也逐步展開[15].具體地說,詞匯語義及詞匯獲取技術的提高使準確獲取語料庫中的詞匯、領域、關系等信息變為可能,再加上機器學習性能的改善,大規模情感隱喻自動處理具有了新的方法和途徑.

與傳統的基于手工構建知識的方法相比,基于統計的方法更加高效、準確、穩定,還可以處理大規模數據,情感隱喻語料資源的規模進一步擴大.隱喻計算和情感計算研究雖然都取得了進展,但是兩者結合的情感隱喻計算研究缺乏,情感隱喻計算研究仍處在初步探索階段[16-19]:大部分隱喻識別與理解研究仍局限于某一領域或者特定類型的語篇;面向隱喻的情感計算多數停留在對情感隱喻褒貶的分析上而缺少喜怒哀樂等多類別情感的研究;情感隱喻的語料資源建設數量不足,尤其在隱喻的情感標注等方面缺乏系統、深入研究.

在這個階段,情感隱喻計算得到了一些會議、期刊和組織機構的關注.國際著名的計算語言學會議ACL從2012年起主辦了關于自然語言處理技術下隱喻計算模型專題研討會,至今舉辦三屆,收錄了關于隱喻語料標注、隱喻情感計算模型以及隱喻情感特征提取等研究成果.一些自然語言處理的著名國際會議EMNLP、LREC 以及人工智能領域的AAAI、ACII、HCI等最近幾年都出現了隱喻及情感計算相關主題研討會.國內外許多大學和研究機構也廣泛開展了情感計算研究,例如歐洲的日內瓦大學、伯明翰大學、約克大學、飛利浦公司;美國的卡內基梅隆大學、麻省理工學院、IBM 公司;日本的東京大學、早稻田大學、索尼公司;國內的北京大學、廈門大學、浙江大學、哈爾濱工業大學等.另外,值得注意的是近幾年的公共評測,推動了情感隱喻計算方法的進步.ACL在2015年組織的語義評測中首次加入了Twitter中比喻性語言的情感分析任務;著名的國際文本檢索會議(TREC)以及亞洲語言信息檢索評測會議(NTCIR)每年都有情感分析相關任務;國內第一個中文情感分析評測COAE 開始于2008年,極大地促進了中文情感分析的發展.

2 理論基礎

2.1 概念隱喻理論

概念隱喻理論認為隱喻是用已知概念理解未知概念的認知過程,其工作機制是從源域到未知概念目標域的映射[1].人類在認知過程中會遇到許多難以描述的復雜概念,這時就會通過隱喻的方式用其他已知概念去理解和構建復雜的未知概念.例如在隱喻“效率是生命”中,就是利用“生命”去解釋“效率”這個概念,“生命”的屬性諸如“珍貴”通過映射的方式延伸到了“效率”的概念上.隱喻映射的基本表達式是“X is Y”,其中X 代表未知概念,Y 代表已知概念.“X is Y”,即用Y 來構建概念X 的時候,是把Y 的概念結構映射到了X上.事實上,X 映射的只是Y 的部分而非全部屬性,至于映射與Y 的哪部分屬性相關由經驗知識、文化、語境等因素決定.Lakoff等[20]把隱喻源域到目標域概念結構的映射分為源域結構的位置、源域的關系、源域的屬性和源域的知識.例如,在“LIFE IS A JOURNEY”這個概念隱喻中包含了如圖1所示的映射.

圖1 概念隱喻映射LIFE IS A JOURNEYFig.1 Mapping of conceptual metaphor LIFE IS A JOURNEY

2.2 情感隱喻理論

情感建立在人類體驗的基礎上,是認知過程中重要的組成部分[2].然而情感抽象且豐富,諸如喜、怒、哀、樂等情感很難表達與描述.在這種情況下,人們常常把情感隱喻化,使用隱喻描述與表達抽象的情感.例如“怒發沖冠”“跑斷腿”“眉開眼笑”“I′m six feet off the ground”等.因此,以人類經驗為前提的情感隱喻是將抽象、模糊情感概念化的主要方式.情感隱喻主要分為兩類:一類是情感的隱喻構建,即用隱喻觀察、傳遞、構建情感,隱喻并不是對某種情感的直接描述,例如“這是部讓我這輩子都不想再進電影院的電影”;另一類是情感的隱喻表達,即用隱喻描寫情感狀態和情感行為,例如“She got red with anger”.

人類具有很多共同的生理機制和心理體驗,因此以人體體驗為基礎的情感隱喻在不同語言中具有相似的概念映射系統[5].例如英語和漢語都存在以“體溫下降”作為“恐懼”情感的隱喻,因此出現了“她的話使他不寒而栗”“他嚇得手腳冰涼”“The story chills my blood”等隱喻表達.研究顯示,人類語言分享著很多基本相同的情感概念隱喻[2].語言學家Kvecses[21]在對多種語言大量分析的基礎上對情感隱喻共性以及跨語言與文化的多樣性進行了廣泛深入研究,依據心理狀態概括總結了體溫變化、皮膚顏色(狀態)變化、身體動作等七大類基本情感概念隱喻.

3 資源建設

3.1 Master Metaphor List(MML)

Master Metaphor List[10]是一個以情感和心理為主要方面的隱喻數據庫,包括203個隱喻映射以及對應的隱喻實例.數據庫中的映射以本體的方式組織(例如,隱喻“Anger is hot fluid in a container”是更加普遍的隱喻“Anger is heat”的特殊示例),從出版文獻、在線論壇以及學生作文中收集隱喻實例,手工編輯而成.

數據庫包括心理事件(mental events)、情感(emotions)、事件結構(event structure)和其他(others)4個隱喻范疇.在此范疇下根據隱喻的目標域劃分為69個詞條以及詞條下的203個隱喻類別及映射.在情感(emotions)隱喻范疇中,共有憤怒(anger)、愛(love)等6個詞條.詞條下的隱喻類別又包括源域、目標域、例句和注釋,個別類別中還有特殊情況下的子類別(special sub-case).

例如,在詞條“EMOTION”下的“EMOTIONAL STABILITY IS CONTACT WITH THE GROUND”類別示例如圖2所示.

該示例由6 個部分組成.首先是詞條“EMOTION”下的隱喻類別“EMOTIONAL STABILITY IS CONTACT WITH THE GROUND”,然后列出了8個例句以及此類隱喻的源域(Source domain)和目標域(Target domain).注釋對此類隱喻的來源和相關類別進行了解釋說明,最后還列出參考書目.

圖2 詞條示例Fig.2 Demo of lexical item

Master Metaphor List(MML)以概念隱喻理論為指導,對隱喻進行了較為清晰、系統的分類與解釋,是較容易理解的概念隱喻資源.因此,大量隱喻計算研究以MML 為基礎展開,同時很多隱喻數據資源在建設中都借鑒了MML的理論和方法,其中包括MetaBank、Metalude、Hamburg Metaphor Database等許多有影響力的隱喻數據庫.但是MML中對映射的理論框架并不明晰,并且根據專家的直覺建立隱喻概念,缺少充足的詞匯證據證明其重要性,這導致了諸如情感概念化等結論令人質疑.另外,MML 情感隱喻的目標域概念中只包含了生氣、愛、希望等最基本類別,劃分層級過于粗略;雖然源域概念相對較多(34個),但是也沒有更細層級的劃分.

3.2 Metalude

Metalude[22]是一個包括9 000多個詞條的英語隱喻在線交互語料庫.與MML 相同,Metalude也是以概念隱喻理論為基礎,根據源域和目標域來排列和組織語料庫中的隱喻.其語料主要來源于 The Oxford English Dictionary、 Collins COBUILD English Dictionary、 Cambridge International Dictionary of English等英語詞典.Metalude最大的特點是其收集的隱喻都是已經固定的/詞匯化的隱喻,這點與MML憑借知覺的隱喻研究完全不同.Metalude根據詞匯學理論對“詞匯化隱喻”制定了嚴格的識別標準:所收錄詞匯必須在當代英語詞典中有隱喻義項出現,收錄的隱喻基本類別出現在詞典中的詞匯數目不能少于6個,并且這些詞匯在Cobuild Bank 英語數據庫中出現的頻率至少要達到200次.

Metalude把隱喻目標域分為6個基本類,源域分為4個基本類,此外目標域和源域還包括不同層級的子類別.

目標域6 個基本類:(1)價值、數量、質量(values,quantities &qualities);(2)情感、經驗、關系 (emotions,experience & relationship);(3)思維、言語(thinking &speaking);(4)活動、運動(activity & movement);(5)人類、人類感知、社會(human,senses &society);(6)事物、物質(things &substances).

源域4個基本類:(1)事物和物質(things &substances),包括物體、植物、物質、金錢、液體、食物等;(2)人體、動物和感覺(human body,animal &senses);(3)活動和運動(activity &movement);(4)位置和空間(place &space).例如,“情感是空間”就是源域與目標域基本類別構成的概念隱喻,此概念下又包括源域為“上下”的4類情感隱喻“情感是高”“高興是高”“傷心是低”“平靜是平衡”以及相應的例句.如圖3所示(坐標的列是目標域基本類,坐標的行是源域基本類).每個隱喻類別下又包含若干詞條,詞條由字面義、隱喻義、詞性、實例等信息組成.

圖3 Metalude的源域和目標域的基本類Fig.3 The root analogy of source and target domain in Metalude

Metalude從概念和詞匯兩個層次標注了語料,對隱喻的源域和目標域進行了較為細致的劃分,并且詞條的字面意義和隱喻意義都有中文標注,非常有利于中英隱喻對比研究以及面向中國學生的英語教學.但是,構建初期在詞匯數據收集的時候,對于隱喻類別項的選擇過分依賴認知科學理論而忽視了隱喻的語義網絡,因此Metalude中隱喻類別的選擇和劃分還不夠系統.并且由于該語料庫的構建目的之一是幫助英語學習者的詞匯學習,所以規定每個基本類別所轄的詞條不超過50個,這樣就不得不減少一些類別中具有價值的詞條.在這種情況下,各類別下詞條的數量設置也不夠完善.

3.3 Hamburg Metaphor Database(HMD)

Hamburg Metaphor Database[23]是一個包含了1 656個隱喻實例的法、德雙語隱喻知識庫.語料主要來源于一些特定領域的報紙等媒體資源,從概念和詞匯兩個方面進行語料標注.其中的概念隱喻標注部分以Master Metaphor List為基礎并加以擴充,使用WordNet數據庫作為詞匯標注的資源.HMD 建設項目從2002年開始,初期160多條實例由漢堡大學的碩士研究生手工編輯,按照概念隱喻的基本框架對法語和德語隱喻源域和目標域進行了對應的翻譯和標注.

起初的目標并不是為了自然語言處理提供數據資源,而是用于社會語言學的研究.后來HMD在隱喻實例概念標注的基礎上增加了詞匯標注,并開發了自動標注技術,獲取1 000多條新增隱喻實例,并逐漸發展為主要服務于隱喻計算的語料資源.

HMD 的標注結構如圖4所示.從圖中可以看出,HMD 標注了隱喻實例的來源信息,包括語料庫中書籍、刊物的作者、標題、卷號、頁數、出版日和文件名,文章來源信息的作者、標題、年份、地址、出版者等信息.給隱喻實行編號,并標注語言類型、實例、隱喻詞、隱喻意義、字面意義、源域和目標域.其中源域和目標域的標注使用了兩套標簽,一套是根據MML 的概念隱喻建立的英語標簽,另一套是對應的德語或者法語標簽.

圖4 HMD 標注結構Fig.4 HMD label structure

HMD 使用德語和法語語料建設資源,是隱喻資源建設跨語言研究的代表.但是由于文化等原因,概念隱喻在不同語言中存在著不對應的問題.例如,HMD 構建中發現,德語的概念域標簽有時會比英語的Master Metaphor List 更加具體,甚至有時候在德語語料庫中發現的隱喻概念在MML中根本不存在.尤其對于表述社會團體的概念較為常見,例如,德語的概念隱喻“政黨是家庭”在英語的MML數據庫中并不存在.

3.4 VU Amsterdam Metaphor Corpus

作為BNC Baby語料庫的子庫,VU Amsterdam Metaphor Corpus[24]是目前規模最大的手工標注隱喻語料庫.它在2010年10月完成語料標注,包括新聞文本、學術文本、小說和會話4種體裁,規模達到200 000個英語單詞.VU Amsterdam Metaphor Corpus從語言方面對隱喻詞匯進行了標注,并沒有涉及隱喻概念標注.按照隱喻標記詞(例如like、as等)的有無對語料庫中的隱喻進行分類和組織,并把“擬人”單獨列為一項隱喻類別.

Pragglejaz Group在標注中設計了一套隱喻識別程序 MIPVU (Metaphor Identification Procedure VU),依據嚴格的詞匯界定及詞義的字典釋義對隱喻進行字面義與隱喻義的劃分并進行系統識別.這是在他們以前的MIP識別程序基礎上的改進和補充,利用Fleiss′Kappa統計分析方法得出其標注一致性達到了0.85.

VU Amsterdam Metaphor Corpus已經廣泛應用到隱喻計算的研究中,并對俄語等其他語言的隱喻語料庫標注起到了指導作用.其中的隱喻識別程序MIPVU 降低了隱喻識別中的主觀性,也得到了廣泛的應用.但是研究仍然停留在語言層面上,并沒有對隱喻在概念層面上的識別給予關注.

3.5 SentiWordNet

SentiWordNet[25]是一個面向情感分類和觀點挖掘應用的開源詞匯資源.從SentiWordNet 1.0到升級版的SentiWordNet 3.0,目前全世界已有超過300個研究組織得到授權,在各種情感研究課題中使用.SentiWordNet 是 在SentiWordNet同義詞集自動標注的基礎上建立起來的.每個同義詞集都包含褒、貶、中性3個級別及每個級別下的得分pos(s)、neg(s)和obj(s).每個得分在[0,1.0].具有多種語義的詞語可能具有不同的級別和得分,其得分總和為1.例如在形容詞“estimable”語義為“may be computed or estimated”的同義詞集中的情感標注為中性得分1.0,貶0,褒0;然而在語義為“deserving of respect or high regard”的同義詞集中為褒0.75,貶0,中性0.25.

該詞典為情感分析提供了重要的資源,但是情感分類仍簡單劃分為褒、貶、中性,缺少更細致的情感劃分.

3.6 中文情感語義資源建設

中文的情感語義資源隨著中文信息處理技術和情感分析技術的發展,也獲得較為長足的發展,從無到有,主要體現在北京大學的“漢語概念詞典CCD[26]”,Dong 等 的“知 網Hownet[27]”,臺灣大學的“情感極性詞典NTUSD”[28],大連理工大學的“情感詞匯本體[29]”“情感語料庫[30]”“情感常識知識庫[31]”等一系列情感語義資源,初步解決了情感分類的語義基礎,但是對于隱喻的情感分析所需要的知識體系更為復雜和精細,構建的成本更大,牽涉到認知科學、語言學和計算機科學,造成目前的漢語情感隱喻的知識庫和評測語料極度缺乏.

4 情感隱喻識別與理解

情感隱喻識別與理解是情感隱喻計算的主要部分,重點研究作者如何通過隱喻把文本話題的情感傳遞給讀者,是一種更具挑戰性的情感計算研究.與字面語言相比,隱喻是典型的非字面表達,常常通過隱晦、間接的語言表達情感.例如在句子“你就是個備胎”中,并沒有情感詞匯出現,“備胎”的字面義也沒有情感因素,但是其隱喻義“排在第二的情人”卻能傳遞出說話者不滿、生氣的負面情感.如果再去考慮隱喻出現的語境或者作者對于目標域概念的態度,情感隱喻計算將更具挑戰性.

目前情感隱喻識別和理解處在剛剛起步階段,對詞匯特征關注較多,以識別和理解本體、喻體語義的矛盾沖突為總體思路,包括基于語義知識和基于機器學習兩種主要方法.基于語義知識方法的基本思路是把情感隱喻知識和規則形式化為語義分析器,可以對輸入情感隱喻進行分析和理解.基于機器學習的基本思路是從大規模語料資源中“學習”領域知識,從而進行情感隱喻識別或實現以源域與目標域間相似度計算為基礎的情感隱喻理解.早期研究中基于語義的方法較多,近10年來隨著機器學習的飛速發展,基于機器學習的方法在情感隱喻計算中得到了較快的發展.下面對主要工作加以簡單回顧.

4.1 基于語義知識的方法

Fass[32]是最早對隱喻文本識別技術進行研究的學者之一,在Wilks[33]有關語義選擇優先中斷工作的基礎上,手工構建語義選擇限制知識,判斷字面意思和語境意思是否存在語義上的沖突,從而完成隱喻識別.例如,在句子“My car drinks gasoline”中,動詞“drink”的主語應該是具有生命的語義類,而“my car”是沒有生命的,句子主語和謂語產生了語義沖突,據此識別為隱喻.Fass開發了一個met* 系統,能夠對字面義、隱喻、轉喻和異常進行區分.該系統首先根據是否違反語義選擇限制判斷是字面義還是非字面義,在非字面義的情況下,繼續使用手工構建的語義限制(例如container for content),檢驗是否是轉喻或者具有轉喻關系.如果系統不能識別出轉喻,就繼續在知識庫中尋找隱喻或者隱喻關系.例如,句子“My car drinks gasoline”的框架結構可以表示為(car,drink,gasoline),因為car并不具有animal語義下位關系,所以不能滿足優先語義的框架(animal,drink,liquid).另外,系統在非轉喻和隱喻的情況下,會給出語義異常類的辨別結果.Fass的方法依靠手工構建的語義選擇限制知識,其規模有限.

在最近的研究中,Wilks等[34]改進了Fass的方法,從詞典VerbNet和WordNet中獲取語義優選知識,自動識別那些已經固定的、詞匯化的隱喻.這種方法假設一個單詞在WordNet中的首要(最主要)詞義并不是它在所在句子的語境詞義,但是有一個WordNet中的次要詞義滿足該詞的語境,那么這個詞就是隱喻用法,WordNet中的次要詞義就是它的隱喻義.例如在句子“She married a brick”中,“brick”的首要詞義是“a physical object”,而“marry”的語義優先選擇應該是“people”,但是“brick”的第二個詞義是“a reliable person”,滿足優選語義,判定為隱喻,“a reliable person”為隱喻義.Wilks等使用語義分類器識別詞典注釋中動詞的名詞主題和它們的語義角色,從而提取出WordNet中上位詞,并把它們定義為語義優選.與手工構建語義知識相比,這種方法自動獲得語義優選限制,但是這種依靠詞典中詞義注釋順序的方法有時候并不準確.例如,有些詞在WordNet中的首要詞義就是隱喻的詞義,而第二詞義才是字面意思,此外Wilks等對自己工作的評價是沒有對隱喻和轉喻進行區分.

Strzalkowski等[35]從詞匯和語義特征兩個方面對情感隱喻進行了研究.隱喻映射被劃分為概念和關系兩種主要表達方式.概念包括源域概念和目標域概念,關系是指從源域中“借用”到目標域的概念.例如,在隱喻“Government regulations are crushing small businesses”中,句子主語“government regulations”和謂語動詞“crush”產生了語義沖突,crush是從源域概念(例如physical burden)中借用的動詞應用到目標域概念中,這種隱喻映射表達被稱為“關系”表達式.據此,Strzalkowski等把目標域和源域(概念或者關系)的隱喻表達分別根據情感詞典劃分出情感,再通過社會語言學理論基礎上建立的模型Affect Calculus識別整個隱喻句子的情感極性.實驗表明這種方法對于本體的情感為中性(neutral)的情感隱喻識別具有較高的準確率,但對情感詞典依賴性較大,并且是對隱喻內部的情感識別,對于語境等因素沒有考慮.

4.2 基于機器學習的方法

Zhang等[36]對幾種特別類型隱喻表達的情感進行研究,包括:實體隱喻(即概念隱喻“情感是實體”下的隱喻表達,例如“Anger ran through me”“Fear drags me down”);食物隱喻(即概念隱喻“情感是食物”下的隱喻表達,例如“X is a pizza”);動物隱喻(即概念隱喻“情感是動物”下的隱喻表達,例如“Lisa is a pig”);憤怒隱喻(即概念隱喻“憤怒是容器里液體中的熱”下的隱喻表達,例如“She exploded completely”);尺寸隱喻(即隱喻中傳遞情感的尺寸的形容詞,例如“Shut your big fat mouth”).其基本思路是在句法和語義分析基礎上,使用包括決策樹、樸素貝葉斯、支持向量機的機器學習方法,并根據WordNet和WordNet-affect詞典中的領域知識辨別語義和情感等信息.以“實體隱喻”為例,對于句子“Anger runs through me”,Rasp句法識別工具首先識別出句子的結構“nnl(a singular common noun subject:anger)+vvz(present-tense lexical verb phrase:runs)+ppiol(object:me)”,并把主語名詞“anger”送到語義詞典中,然后句子的語義和句法結構就被標記出來“e3-(semantic tag:anger)+vvza(runs)+ppiol(me)”.標注的句子作為分類器(決策樹、樸素貝葉斯、支持向量機)的訓練集,用于識別此類型的隱喻表達.然后識別出的隱喻表達通過WordNet-affect的情感領域標簽進行情感處理.例如,當分類器識別出輸入句子“Panic is dragging me down”為實體隱喻類型后,再使用WordNet-affect辨別其主語“panic”的情感為“害怕”“負面情感”,即panic:fear(negative emotion).Zhang等嘗試了對多種類型的情感隱喻進行研究,但其概念隱喻并沒有考慮文化差異性,其研究對英語之外其他語言并不具有普遍適用性.

Kozareva[37]開展了多語言隱喻情感極性和效價識別研究.從政治演講、政治相關網站和在線報紙等資源中收集數據,建立了英語、西班牙語、俄語和波斯語4種語言的數據集.其中以句子級別的隱喻句為主,也包括一些短語.一般情況下,其語境定為隱喻句前后的一個句子(最多3個句子).采用人工的方式對隱喻句的情感極性和效價進行標注,其中情感極性分為“正”(positive)、“負”(negative)兩種,效價級別從-3 到+3.并且標注者還要提供語境、本體、喻體、比喻部分的信息.然后利用機器學習的方法,把情感極性任務作為分類問題處理.同時參考心理學家關于語境特征和觸發詞表的研究建立特征集,從隱喻本身、語境和源域、目標域等幾方面研究其對于情感的影響.但是其研究僅限于政治管理領域,應用范圍較小,情感種類也僅限于褒貶而沒有涉及多種類情感.

近年來,深度學習研究方法在許多研究領域取得了不錯的效果,其中詞嵌入[38]是一種將詞表示為連續詞向量的技術,其已被廣泛用于多個自然語言處理的任務中.然而,詞嵌入技術也存在一些弊端,即所得到的詞向量的質量依賴于訓練的語料,且不能有效地利用結構化數據,缺少語義信息等.最近一些研究表明[39],將語義信息等結構化數據加入詞向量訓練過程中,可以得到更為高質量的詞向量.基于豐富的隱喻語料庫資源,可將結構化的隱喻語料知識融入詞向量訓練過程,使得詞向量可以學習到相關隱喻信息,即獲取一些概念層面的詞義信息.在“學習”了結構化的隱喻語料知識后,根據該詞向量間的相似度進行重排序,可以在一定程度上幫助研究者解決隱喻識別和隱喻理解的問題.

此外,語言通常被認為具有明顯的樹結構,也就是說,在進行語法或語義組合時,通常不是按照詞的順序進行組合,而是先組合語法或語義關系比較近的詞或短語.基于以上的語言學理論,在引入深度學習技術處理自然語言問題時,可利用語言的樹結構來構建深度神經網絡結構,即遞歸神經網絡[40].在隱喻識別方面,很多研究人員采用基于語法搭配的方法進行隱喻識別.而隱喻識別在一定程度上可被看作是語義關系分類任務,用以識別兩個距離較遠的實體之間的語義關系,它們中間的詞往往對序列模型構成干擾,通過結合語句的句法分析樹型結構,則有助于排除這些干擾,再結合以句法樹結構構造的遞歸神經網絡等相關深度學習模型,可對隱喻較為有效地識別.

5 情感隱喻計算應用

網絡評論的急速增加迫切需要利用計算機自動分析處理這些情感信息,這使得情感計算研究得到了廣泛的關注和應用.目前的應用領域主要包括智能機器人、用戶評論分析、信息預測、輿情監控、問答系統、機器翻譯等.但是情感隱喻的應用研究還處于起步階段,所以下面以機器翻譯、問答系統、評論分析為例,對情感隱喻計算的應用前景進行簡要論述.

5.1 機器翻譯

情感隱喻的識別是機器翻譯最棘手的問題之一,目前句子層面的機器翻譯主要采用直譯的方法,其結果和人工翻譯具有很大差距.在機器翻譯中融入情感隱喻計算可以很大程度上提升翻譯的性能,具體來說,就是在翻譯的過程中搭建一個隱喻識別引擎,以情感詞匯本體和隱喻本體為基礎,以機器學習技術和模式識別方法為手段,將包含隱喻的句子作為輸入,對源語言與目標語言的隱喻關系進行匹配和識別,輸出隱喻的本體和喻體等信息,從而進一步提升機器翻譯的精確性,彌補隱喻內容因直譯而帶來的歧義,輔助并提升機器翻譯的整體性能.

例如“她是父母的掌上明珠”這個隱喻句的百度翻譯結果是“She is a pearl in the palm of parents”.由此可以看出,直譯的翻譯方式不能翻譯出像“She is the apple of her parents′eye”這樣地道的譯句.其根源在于計算機對復雜語言知識和規律認識有限.在這種情況下,情感隱喻語料資源可以讓計算機獲得人類具有的“知識”,采用以語義為核心的翻譯方法,實現從源語到譯語語義層面的轉換,使機器翻譯更加接近人類對語言的理解,從而提高翻譯性能.例如,情感隱喻語料資源可以幫助機器翻譯實現以下功能:通過英漢喻底建立關聯,獲取知識庫中已有且標注的同喻底隱喻;對輸入的隱喻句子進行成分分析,運用實體識別與抽取算法抽取句中對應的本體與喻體信息,并計算該信息與知識庫中情感隱喻的語義相似度;根據相似性結果排序,推薦相似性較高的K個翻譯結果作為候選結果;引入Frequently Asked Questions(FAQ)機制,即常見的問題項目與對應問題的解答,記錄用戶的采納結果,重復利用,實現高質量的情感隱喻的機器翻譯.因此,情感隱喻計算研究,尤其是情感隱喻識別在機器翻譯中具有廣闊的應用前景.

5.2 聊天機器人

聊天機器人是一個用來模擬人類對話或者聊天的程序,作為問答系統的延伸和擴展,聊天機器人不僅需要對用戶所提出的問題進行回答,同時要充分地把握用戶在聊天中的情感趨勢,給出符合用戶情感狀態的答案,并能夠適當對后續聊天中的情感走向進行引導.因此,情感隱喻計算對聊天機器人性能的提升至關重要.例如,聊天機器人需要根據對話內容,理解用戶在聊天中所提到的雙關語,并根據其隱含的意思給出符合用戶心理的回答.

聊天機器人的隱喻理解同樣也需要搭建一個情感隱喻識別引擎,該引擎將用戶聊天內容作為輸入,以情感隱喻的喻底作為輸出,充分領會本次會話的上下文信息,同時借助情感隱喻語義資源和各種領域知識,給出相應的回答內容.通過情感隱喻識別引擎聊天機器人能夠更深層次地把握用戶所關心的話題和情感的變化,從而展開更為人性化的對話.

5.3 評論分析

對于產品或者服務的用戶評論分析是情感計算中的應用熱點.分析和挖掘用戶評論中所蘊含的情感需要借助情感常識庫和情感隱喻本體等資源.首先,需要基于這些資源對用戶評論中的情感隱喻詞匯進行抽??;然后,根據詞匯所具有的情感來判別句子整體所具有的情感傾向性,特別是與隱喻相關的情感;最后,從整體上挖掘出用戶的情感狀態,并根據用戶現有狀態調整產品和服務的供應,提升用戶的滿意度.

國內外很多產品評論的海量信息中會有大量情感隱喻存在,例如評論電影時人們會說“真是個鬼才導演!”“國產片的頂配”;對一款旅行社旅游產品可能評論“太腐敗了!”.但是目前對于用戶評論情感分析基本方法是在自動獲取評論的基礎上,挖掘出產品主要評價詞和屬性信息,然后分析處理.據此國內外研發了很多評論情感分析系統:例如對產品網絡評價信息進行情感分析,并提供個性推薦[41];對在線購物產品評價意見進行分析和可視化展示[42],根據在線評論的情感分析結果進行廣告推薦等[43].由于情感隱喻計算研究剛剛起步,在以上過程中很少有研究關注其中的情感隱喻.這導致了情感計算中因為忽略大量存在的非字面語言——情感隱喻而出現精度問題.因此,情感隱喻計算有助于對網絡評論中情感的理解,可以進一步提高人機交互的性能,為用戶和制造商提供決策參考.

6 結 語

本文從情感隱喻計算研究歷程回顧開始,從情感隱喻資源建設、情感隱喻識別與理解相關研究及應用幾個方面論述了情感隱喻計算的研究進展,最后提出以下幾點面臨的問題和挑戰.

(1)情感隱喻分類問題.目前情感隱喻計算中對于情感類別基本上是“褒、貶”的二情感分類,而很少有“喜、怒、哀、樂”等多情感分類研究.然而現實文本中存在著豐富情感,因此要求計算機能夠理解甚至生成人類的各種情感.但是由于多類別情感語料的缺乏,多類別情感隱喻計算成為了一項困難的任務和有待解決的問題.

(2)資源建設問題.情感隱喻的認知性決定了它對知識具有很強的依賴性.因此情感語料庫、情感詞匯本體等資源建設對于情感隱喻計算非常重要.但是目前專門用于情感隱喻計算的資源建設極度缺乏,現有的隱喻資源主要針對普遍出現的概念隱喻,較少考慮到隱喻的情感計算問題.面向情感隱喻計算的資源建設也需要結合語言學研究成果,開展情感隱喻的概念層面和語言層面的研究.目前面臨著情感隱喻的特征形式、情感語義標注體系、人工標注的主觀性和個體差異等諸多具有挑戰性的問題.

(3)文化差異問題.情感隱喻在不同語言和文化中存在顯著的差異.語言學家對于情感隱喻在不同文化中的形成機制以及相似性和差異性做了大量研究,但目前這些研究成果并沒有廣泛應用于情感隱喻計算研究中.因此,利用語言學與心理學研究成果,充分考慮情感隱喻在不同文化中的差異性,建立具有適用性的計算模型將是一個新的課題.

(4)研究方法問題.目前情感隱喻研究仍較為依賴語義關系,基于機器學習的方法主要通過在海量語料中“學習”得到相應的模式或規則,對情感隱喻進行識別,但是缺乏對隱喻的“理解”,缺乏先驗知識引導,識別的精度不理想.隨著深度學習的興起,通過深度學習技術對語料中的情感隱喻知識進行“提煉”,可以更好地輔助計算機理解情感隱喻,以指導計算機更為準確地識別情感隱喻,實現情感隱喻的可計算化.

[1] Lakoff G,Johnson M.Metaphors We Live By[M].Chicago:The University of Chicago Press,1980.

[3] Goatly A.Metaphor as resource for the conceptualization and expression of emotion[M]//Ahmad K.Affective Computing and Sentiment Analysis:Emotion,Metaphor and Terminology.Berlin:Springer-Verlag,2011:19-27.

[4] Richards I A.The Philosophy of Rhetoric [M].London:Oxford University Press,1936.

[6] Ricoeur P.The Rule of Metaphor[M].London:Routledge,1978.

[7] Ortony A.Metaphor and Thought[M].Cambridge:Cambridge University Press,1979:72-123.

[9] Miller G A.WordNet:a lexical database for English language[J].Communications of the ACM,1995,38(11):39-41.

[10] Lakoff G,Espenson J,Goldberg A,etal.Master Metaphor List,Second Edition[DB/OL].(1991-01-01)http://araw.mede.uic.edu/~alansz/metaphor/METAPHORLIST.pdf.

[11] Picard R W.Affective Computing[M].Cambridge:MIT Press,1997.

[12] Shutova E.Models of metaphor in NLP [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.East Stroudsburg: Association for Computational Linguistics,2010:688-697.

[13] Shutova E,SUN Lin.Unsupervised metaphor identification using hierarchical graph factorization clustering[C]//Proceedings of NAACL-HLT 2013.Atlanta:ACL,2013:978-988.

[14] 田 嘉,蘇 暢,陳怡疆.隱喻計算研究進展[J].軟件學報,2015,26(1):40-51.TIAN Jia,SU Chang,CHEN Yi-jiang.Computational metaphor processing[J].Journal of Software,2015,26(1):40-51.(in Chinese)

[15] 林鴻飛,許 侃,任 惠.基于詞匯范疇和語義相似的顯性情感隱喻識別機制[J].大連理工大學學報,2012,52(5):761-766.LIN Hong-fei,XU Kan,REN Hui.Mechanism of dominant sentimental metaphor identification based on lexical domain and semantic similarity [J].Journal of Dalian University of Technology,2012,52(5):761-766.(in Chinese)

[16] Ghosh A,LI Guo-fu,Veale T,etal.SemEval-2015 task 11:Sentiment analysis of figurative language in Twitter [C]// Proceedings of the International Workshop on Semantic Evaluation.Denver:[s n],2015.

[17] Reyes A,Rosso P.On the difficulty of automatically detecting irony:beyond a simple case of negation [J].Knowledge and Information Systems,2014,40(3):595-614.

[18] Veale T.A context-sensitive,multi-faceted model of lexico-conceptual affect [C]//50th Annual Meeting of the Association for Computational Linguistics,ACL 2012- Proceedings of the Conference.East Stroudsburg:ACL,2012:75-79.

[19] Turney P D,Neuman Y,Assaf D,etal.Literal and metaphorical sense identification through concrete and abstract context[C]//EMNLP 2011-Conference on Empirical Methods in Natural Language Processing,Proceedings of the Conference.East Stroudsburg:ACL,2011.

[20] Lakoff G,Turner M.More Than Cool Reason:A Field Guide to Poetic Metaphor [M].Chicago:University of Chicago Press,1989.

[22] Goatly A,Project LLE,Lingnan University.Metalude—Metaphor at Lingnan University [DB/OL].(2002-01-01)http://www.ln.edu.hk/lle/cwd03/lnproject_chi/introduction.html.

[23] Lonneker-Rodman B.The Hamburg Metaphor Database project:issues in resource creation [J].Language Resources and Evaluation,2008,42(3):293-318.

[24] Steen G J,Dorst A G,Herrmann J B,etal.VU Amsterdam Metaphor Corpus[Z].Oxford:Oxford Text Archives,2010.

[25] Baccianella S,Esuli A,Sebastiani F.SentiWordNet 3.0:An enhanced lexical resource for sentiment analysis and opinion mining[C]//Proceedings of the Seventh Conference on International Language Resources and Evaluation.Valletta:LREC,2010.

[26] 于江生,俞士汶.中文概念詞典的結構[J].中文信息學報,2002,16(4):12-20.YU Jiang-sheng,YU Shi-wen.The structure of Chinese concept dictionary[J].Journal of Chinese Information Processing,2002,16(4):12-20.(in Chinese)

[27] DONG Qiang,DONG Zhen-dong.Hownet and the Computation of Meaning [M].London:World Scientific Publishing Company,1988.

[28] Ku L W,Lo Y S,Chen H H.Using polarity scores of words for sentence-level opinion extraction[C]// Proceedings of NTCIR-6 Workshop Meeting.Tokyo:NTCIR,2007:316-322.

[29] 徐琳宏,林鴻飛,潘 宇,等.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.XU Lin-hong,LIN Hong-fei,PAN Yu,etal.Constructing the affective lexicon ontology [J].Journal of the China Society for Scientific and Technical Information,2008,27(2):180-185.(in Chinese)

[30] 徐琳宏,林鴻飛,趙 晶.情感語料庫的構建和分析[J].中文信息學報,2008,22(1):116-122.XU Lin-hong,LIN Hong-fei,ZHAO Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22(1):116-122.(in Chinese)

[31] 陳建美,林鴻飛.中文情感常識知識庫的構建[J].情報學報,2009,28(4):492-498.CHEN Jian-mei,LIN Hong-fei.Constructing the affective common sense knowledge base [J].Journal of the China Society for Scientific and Technical Information,2009,28(4):492-498.(in Chinese)

[32] Fass D.met*:A method for discriminating metonymy and metaphor by computer [J].Computational Linguistics,1991,17(1):49-90.

[33] Wilks Y.A preferential pattern-seeking semantics for natural language inference [J].Artificial Intelligence,1975,6(1):53-74.

[34] Wilks Y,Adam D,James A,etal.Automatic metaphor detection using large-scale lexical resources and conventional metaphor extraction[C]//Proceedings of the First Workshop on Metaphor in NLP.Atlanta:NLP,2013:36-44.

[35] Strzalkowski T,Shaikh S,Cho K,etal.Computing effect in metaphors[J].Communications of the ACM,2008,57(1):107-113.

[36] ZHANG Li,Barnden J.Affect and metaphor sensing in virtual drama[J].International Journal of Computer Games Technology,2010:512563.

[37] Kozareva Z.Multilingual affect polarity and valence prediction in metaphor-rich texts[C]//ACL 2013-51st Annual Meeting of the Association for Computational Linguistics,Proceedings of the Conference.East Stroudsburg:ACL,2013.

[38] Mikolov T,Sutskever I,Chen K,etal.Distributed representations of words and phrases and their compositionality [J].Eprint Arxiv,2013:3111-3119.

[39] Rothe S,Schütze H.AutoExtend:Extending word embeddings to embeddings for Synsets and Lexemes[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics.Beijing:Association for Computational Linguistics,2015.

[40] Mikolov T,Karafiát M,Burget L,etal.Recurrent neural network based language model [C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,INTERSPEECH 2010.Bonn:International Speech Communication Association,2010:1045-1048.

[41] LI Nan,Wu D D.Using text mining and sentiment analysis for online forums hotspot detection and forecast [J].Decision Support Systems,2010,48(2):354-368.

[42] XU Kai-quan,Liao S S,LI Jie-xun,etal.Mining comparative opinions from customer reviews for competitive intelligence [J].Decision Support Systems,2011,50(4):743-754.

[43] QIU Guang,HE Xiao-fei,ZHANG Feng,etal.DASA:Dissatisfaction-oriented advertising based on sentiment analysis [J].Expert Systems with Applications,2010,37(9):6182-6191.

(第55卷卷終)

猜你喜歡
源域語料隱喻
基于參數字典的多源域自適應學習算法
成長是主動選擇并負責:《擺渡人》中的隱喻給我們的啟示
《活的隱喻》
基于語料調查的“連……都(也)……”出現的語義背景分析
從映射理論視角分析《麥田里的守望者》的成長主題
對《象的失蹤》中隱喻的解讀
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
德里達論隱喻與摹擬
Reliability assessment consideringdependent competing failure process and shifting-threshold
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合