?

視頻實時評論的深度語義表征方法

2019-02-20 08:33吳法民呂廣奕何偉棟
計算機研究與發展 2019年2期
關鍵詞:彈幕檢索語義

吳法民 呂廣奕 劉 淇 何 明 常 標 何偉棟 鐘 輝 張 樂

1(中國科學技術大學軟件學院 合肥 230051)2 (中國科學技術大學計算機學院大數據分析與應用安徽省重點實驗室 合肥 230027)

Fig. 1 Time-sync comments for videos圖1 視頻實時評論

隨著互聯網技術的進步,在線共享媒體已經得到了突飛猛進的發展,并極大地豐富了人們的生活.與此同時,一種被稱作“彈幕”的新型視頻實時評論在國內外視頻共享平臺中越來越受到大家的關注,如中國的bilibili、愛奇藝、優酷,日本的niconico等網站,彈幕在視頻中扮演著極其重要的角色.在這些視頻共享平臺中,用戶可以在觀看視頻的同時發送評論消息(稱為彈幕).與傳統評論不同,彈幕評論可以在視頻的播放過程中實時呈現,增進了用戶之間的互動,改善了用戶的體驗.彈幕不僅包含文本信息,還包含該評論在視頻中出現的時間信息,即:允許用戶針對視頻中的某個片段進行實時評論,使得在播放視頻時,評論像“大量子彈飛過屏幕”,“彈幕”也因此得名[1].

彈幕機制具有諸多特點.一方面,彈幕實時性的特點使得其與視頻的聯系更加密切,視頻實時評論在很大程度上影響視頻的流行程度[1-3].有研究表明,視頻的流行程度和該視頻之前的評論觀點以及評論數據量呈正相關性[2,4].另一方面,在觀看視頻的同時閱讀或發送彈幕,也成為了一種獨特的社交方式,這種觀眾之間通過評論交流的方式極大地滿足了現代人排解寂寞的心理需求,使得越來越多的用戶更青睞于觀看帶有彈幕的視頻.因此,作為一種眾包短文本的代表,彈幕拉近了人與互聯網信息的關系,也促進了人與人之間的交流,成為以人為中心的媒體信息交互紐帶.總的來說,以彈幕為代表的眾包短文本,對于在線媒體分享平臺,甚至娛樂產業都有著重要意義,而針對此類短文本展開研究,為推薦系統、計算廣告學以及人工智能等領域的發展提供了新的機遇,對于互聯網、經濟、教育、科研等行業具有巨大價值.

然而在彈幕帶來新機遇的同時,這種面向視頻的眾包短文本分析也存在著諸多挑戰,如圖1所示.首先,由數以萬計的用戶生成的彈幕數據具有很高的噪聲.彈幕的噪聲主要源于2方面:一方面,用戶的彈幕內容具有隨意性.在共享視頻評論的場景下,用戶受到其他用戶或者自身情緒的影響,可能發布與視頻內容無關的彈幕,如:“看餓了…”、“Σ(° △ °|||)︴”等.另一方面,用戶的表達方式具有隨意性.在通常情況下,用戶不會像一般的評論那樣刻意嚴謹的對待所發布的彈幕內容,進而會產生一些輸入的錯誤,比如“何暈東好堎”,事實上是用戶想表達“何潤東好嫩”,但由于拼寫時帶有方言導致產生了錯別字.這些表達均具有偶然性,不屬于用戶約定行為,因此沒有規律難以過濾,給彈幕的理解和研究帶來了困難.其次,彈幕中充斥著大量網絡用語.視頻彈幕來源于網絡共享視頻平臺,具有網絡平臺的共有特性,存在大量網絡用語和不規范的表達.比如數字的諧音:“233”來源于“哈哈”笑的表情庫,被用來指代“啊哈哈”,表示大笑的意思,“7456”則指代“氣死我了”等;英語拼音的諧音:“海皮”在視頻評論中可能就是指代“happy”縮寫;漢字的諧音:由于為了增加幽默效果和方言種類繁多等導致的替用,比如“內流滿面”指代“淚流滿面”等.這些網絡用語的大量使用進一步增加了彈幕相關研究的困難.最后,彈幕文本中普遍蘊含著隱含語義.這一點在以動漫為代表的ACG(animation,comic,game)視頻中體現得尤為明顯.由于視頻觀眾中存在各種小眾群體,這些群體經過長時間的交流,約定俗成了一系列獨特的表達,如“前方高能”、“失蹤人口回歸”;與此同時,對于像“元首”、“哲學家”、“老師”等詞語在某些特定劇情下則具有和原來完全不同的含義 ;而諸如“鬼畜”、“藍藍路”等則屬于完全新造的詞語.彈幕中的隱含語義,有悖于正常的自然語言,如何正確理解彈幕的深度含義是對彈幕及視頻進行分析建模的最大挑戰.綜上所述,視頻實時評論的高噪聲、不規范表達和隱含語義等特性,使得傳統自然語言處理(natural language processing, NLP)技術具有很大局限性,因此亟需一種容錯性強、能刻畫短文本的深度語義理解方法.

針對以上挑戰,本文提出了一種基于循環神經網絡(recurrent neural network, RNN)的深度語義表征模型.該模型建立在“相近時間段內的視頻實時評論具有相似語義”的假設上,實現將離散的、不定長的文本序列映射為連續取值的、低維的語義向量,使得語義向量能夠精準地刻畫對應彈幕所表達的語義信息.特別地,該模型由于引入了字符級別的循環神經網絡,避免了彈幕噪聲對文本分詞帶來的影響;而在實現語義表征的過程中,通過使用神經網絡,使得所得的語義向量能夠對彈幕進行更深層次的刻畫,表達其隱含語義.在此基礎上,針對彈幕文本具有隱含語義的特點,本文進一步設計了基于語義檢索的彈幕解釋框架,同時作為對語義表征結果的驗證.該框架利用語義向量創建索引,從而對于給定彈幕,通過檢索與其語義相似但表達不同的彈幕來對其進行解釋.

最后,本文設計了序列自編碼、詞袋特征索引、編碼器解碼器等多種對比方法,并通過BLEU(bilingual evaluation understudy)、流暢度、多樣性等多種指標以及人工評價對本文所提出的模型進行充分驗證.實驗結果表明這種基于循環神經網絡的深度語義表征模型能夠精準地刻畫彈幕短文本的語義,也證明了關于彈幕相關假設的合理性.

1 相關工作

本節將從彈幕分析及應用、表征學習模型、文本表征模型這3個方面介紹視頻實時評論(彈幕)的相關工作.

1.1 彈幕分析及應用

彈幕視頻是一種新型視頻互動方式,以其獨特的互動交流方式備受廣大互聯網和視頻愛好者的喜愛,并迅速風靡國內外視頻共享平臺,如對于中國的bilibili、愛奇藝、優酷,日本的niconico等網站,彈幕視頻扮演著極其重要的角色.然而目前關于彈幕視頻的研究還很少.國內外對于彈幕的分析大多停留在基于彈幕的統計特征,以統計和自然語言處理技術,研究視頻實時評論情況以及視頻評論和視頻之間的關系.其中,基于統計的有:文獻[5]提出基于統計的方法識別一個彈幕評論的詞匯是否是個外來詞或視頻內容無關詞.基于自然語言處理的有:文獻[6]借助自然語言處理技術和統計學知識,研究視頻評論的情感和視頻流行度之間的關系;鄭飏飏等人[7]利用自然語言處理技術,提取彈幕中的情感數據實現對視頻的評論的情感可視化,獲取網絡視頻的情感特征和走勢,并通過給視頻打情感標簽的方式,達到從情感角度實現視頻的檢索.文獻[8]提出基于時間的個性化主題模型(TPTM),該模型結合視頻評論,為相應時間段的視頻生成主題標簽.文獻[9]提出了基于語義關聯的視頻標簽提取方法,通過對彈幕數據的相似度分析,建立語義關聯圖,根據關聯圖的模型獲取視頻的主題分布給視頻打標簽,同時根據提取的彈幕主題信息,過濾跟視頻無關的彈幕.文獻[10]提出了基于隱語義模型的網絡視頻推薦算法(video recommender fusing comment analysis and latent factor model, VRFCL),從網絡視頻入手,分析觀看者對某特定視頻的感情傾向值,抽取評論關鍵詞作為視頻元數據,從隱語義特征的角度建立用戶-視頻二元組.然而,目前這些基于統計和自然語言處理技術的研究,并不能解決視頻實時評論的高噪聲、不規范表達和隱含語義等問題.

1.2 表征學習模型

深度學習是一種多層描述的表征學習,把原始數據通過一些簡單的非線性的模型轉變成為更高層次的、更加抽象的表達.通過積累足夠多的上述表征轉化,機器能學習非常復雜的函數[11].深度學習中的重要思想就是自動提取特征,也就是表征學習,故深度學習有時也被稱作表征學習或者無監督特征學習[12],通過設定所需達到的學習目標,自動地從原始數據學習有效的特征,而無需具體的領域知識作為先導[13].近些年,深度學習在語音識別、圖像處理、文本處理等多個領域取得重大進展,證明了表征模型是個很有效的處理方式[14].

學術界和工業界的研究者,將深度學習、表征學習等算法應用在語音領域,通過將語音特征學習和語音識別的目標轉化為對原始光譜或可能的波形的特征學習的過程[15],給語音識別帶來巨大影響和突破性的成果.2012年,微軟發布了新版本的音頻視頻搜索服務語音系統,正是基于表征學習[16].在音樂方面,表征學習的應用使得在復調轉錄中擊敗了其他技術,獲得了極大改善,并贏得了MIREX音樂信息檢索比賽[17].圖像識別方面,早在2006年通過MNIST數字圖像分類,以1.4%的錯誤率優勢超越了支持向量機[18],從此在數字圖像識別方面表征學習一直保持獨特的優勢.鑒于表征學習在數字圖像識別方面的效果,相關專家學者利用表征學習從數字圖像的識別,應用到自然圖像的識別.比如在ImageNet數據集上,通過表征學習實現了將錯誤率從26.1%下降到15.3%的突破[19].

自編碼器是深度學習中非常常見的一個表征模型框架.該框架最早使用在機器翻譯領域,機器翻譯是把一種語言轉換成另一種語言的過程,即輸入一個文本序列,輸出另外一個語義相同但是結構不同的文本序列.隨著自動編碼框架在機器翻譯領域的成功應用并取得不錯的效果,該框架已經從機器翻譯擴展到其他領域.輸入數據到編碼器,解碼器還原出原始的輸入數據,自動編碼器可以分為2個部分,即編碼器和解碼器.編碼器部分生成語義向量,當前使用最多的表示技術是循環神經網絡,實際應用過程中根據處理問題的情況,經常用到是基于循環神經網絡的變種模型:長短期記憶神經網絡(long short-term memory, LSTM)、門控制單元循環神經網絡(gated recurrent unit, GRU)、雙向循環神經網絡(bidirectional recurrent neural network, BiRNN)等模型.解碼器是對編碼器生成的序列進行解碼的過程,最常見的模型是循環神經網絡語言模型 (recurrent neural network language model, RNNLM)[20],在自然語言處理中具有很好的效果,越來越受到自然語言處理相關領域的人員的重視.Glorot等人[21]通過提取出評論的深層特征,解決了傳統文本分類算法跨領域分類不理想的問題.文獻[22]采用深度自編碼器,通過改進詞匯的翻譯模型,從而有效地提取特征集,在機器翻譯過程中取得很好的效果.

1.3 文本表征模型

近年來,隨著深度學習技術在自然語言領域的發展,詞表征模型由于其低維、連續的特征表示方式和挖掘文本潛在語義的能力,在自然語言處理領域越來越受到重視.通過對文本數據進行深層次的抽象和挖掘,建立數據表征來進行特征表示和復雜映射,從而訓練有用的表征模型.Hinton等人[23]引入分布式表征用于符號數據的分布式表示,Bengio等人[24]首次將詞分布式表征通過神經網絡模型應用于上下文的統計語義模型.基于學習詞的分布式表征又稱詞嵌入,Collobert等人[25]通過增加卷積層開發了senna系統,實現了在語言建模、詞性標注、命名實體識別、語法分析等任務中共享表征.文獻[26-27]指出自然語言處理領域通過將詞、字符轉化為低維的實數向量的詞嵌入技術,使得處理結果得到明顯改進和提升.文獻[28]設計了一個字符級別的雙向LSTM的循環神經網絡(RNN)模型,該模型在語言表征和詞性標注(part-of-speech tagging, POS)標簽方面展現出強大的性能.在機器翻譯領域,文獻[29]對原輸入數據或目標輸出數據使用字符級別的RNN結構,產生一個“字符-字符”的翻譯生成結構.在隱含語義表示方面,深度語義匹配模型(deep structured semantic models, DSSM)[10]利用多層神經網絡把搜索關鍵詞和文檔注入到低維空間,通過計算相似度,挖掘隱含語義.在信息檢索領域,使用字符的n-gram作為神經網絡的輸入,進行信息檢索模型的訓練[30].

2 問題定義與方法

傳統自然語言處理技術具有很大局限性,無法解決視頻實時評論的高噪聲、不規范表達和隱含語義等特性,因此亟需一種容錯性強、能刻畫深度語義的短文本理解方法的需求.本文基于“相近時間段內的視頻實時評論具有相似語義”的假設,提出了一種基于循環神經網絡(RNN)的深度語義表征模型,并設計了基于語義檢索的彈幕解釋框架.本節對相關問題、深度語義表征模型、基于語義檢索的彈幕解釋框架進行介紹.

2.1 問題定義

彈幕跟視頻和時間具有高度關聯性,按如下格式符號化一個彈幕:D=Vid,Did,s,t,其中Vid是彈幕所在視頻的標識符,Did是彈幕的標識符,s是彈幕的文本內容,t為彈幕的時間,該時間為彈幕在視頻中出現的時刻.

定義1. 視頻實時評論的深度語義表征.給定的彈幕D=Vid,Did,s,t,該表征的目的是通過D學習一個表征模型(編碼器)φ,使得對于任意彈幕Did可獲取相應的語義向量vi=φ(si),并且滿足對任意的si,sj的真實語義相似或具有相關性,則vi,vj具有相近的距離,否則vi,vj距離較遠.

視頻實時評論的深度語義表征模型學習過程中,需要使用語義相似或相關彈幕進行訓練,關于語義相似性彈幕的獲取存在如下2個挑戰:

1) 若語義相似或相關彈幕的獲取采取人工標注的方式獲取,將會帶來巨大的人力成本,同時也會限制模型的實際應用范圍.

2) 鑒于模型的實際應用性,需能自動獲取語義相似彈幕.然而,如何使選取的語義相似彈幕具有最佳近似語義相似性,是語義相似彈幕獲取的最大挑戰.

鑒于語義相似彈幕獲取的挑戰,本文從彈幕的特征出發,分析彈幕數據的特點.彈幕實時性的特點,使得其與視頻的聯系更加密切,導致視頻的同一個情節、一個畫面出現的彈幕大多數都是基于這個情節或者畫面的評論;另一方面,在觀看視頻的同時閱讀或發送彈幕,也成為了一種獨特的社交方式,有時候,彈幕的內容不一定是針對視頻內容的評價,很可能是彈幕發送者之間的對話,也有可能出現某個觀眾很感興趣的彈幕,其他彈幕發送者對該彈幕的評價.然而,不管是對視頻內容的評價還是彈幕發送者之間的交互,特定時間內的彈幕一般都具有相似性.通過對彈幕特性的研究和大量的統計,本文提出彈幕語義相似性假設.

假設1. 彈幕數據語義相似性假設.基于視頻的實時評論是對視頻內容的評價或彈幕發送者之間的交互,往往一個情節、一個畫面中一起出現的評論具有語義相似性,相近時間段內的實時評論具有語義相似.

視頻中會有視頻場景突然轉換的場景,往往伴隨著彈幕的語義也會跟著轉換.同時,當出現觀眾感興趣的彈幕,往往也會伴隨著彈幕話題的轉變.這種彈幕語義的突然轉變,是彈幕語義相似性假設的一大挑戰.然而,無論視頻情節、畫面還是彈幕發送者的話題都具有連續性,當彈幕數據量達到一定時,這種干擾情況比例很少.接下來,通過定義對語義相似彈幕的獲取進行量化,以便能通過實驗對彈幕語義數據語義相似性假設的合理性和科學性進行驗證.

定義2. 語義相似彈幕.對有Vid,Did,s,t格式的彈幕,若Vidi=Vidj,|ti-tj|<δ,則si,sj為語義相似彈幕.其中,δ的取值需根據實驗結果,選取合適的大小.

由語義相似彈幕的定義,可以得到語義相似彈幕集合G={s1,s2,…,sn},?si,sj∈G,i,j∈{1,2,…,n},有|ti-tj|<δ.

接下來介紹實現深度語義表征的方法和損失函數.根據語義相似彈幕的定義,可以對彈幕按時間切分,尋找語義相似彈幕.基于自編碼是深度學習領域非常常用的框架,已成功用于降維和信息檢索任務并且在機器翻譯、文本生成方面具有獨特的優勢,為了挖掘語義相似彈幕的深層語義表征,本文采用自編碼方法,學習輸入彈幕數據的特征,生成語義向量.下面介紹彈幕的自編碼.

對于彈幕文本s,自編碼過程如下:

其中,φ表示編碼過程,φ(s)為對彈幕s的編碼,生成s的語義向量v;ψ表示解碼過程,ψ(v)為對彈幕語義向量v的解碼,解碼生成彈幕s′.

實現深度語義表征,必須保證彈幕在經過自編碼進行重構的同時,保證語義相似彈幕的語義向量距離相近,通過選取合適的損失函數,使得對任意的語義相似的彈幕si,sj,其語義向量vi,vj具有相近的距離.下面介紹深度語義表征的損失函數.

定義3. 深度語義表征的損失函數.深度語義表征的損失函數由彈幕重構的損失函數Lrec和相似彈幕語義向量的距離損失函數Lsem構成.其中彈幕重構的損失函數為每一步的似然函數的負對數之和,如式(2)所示:

(2)

語義向量之間的距離采用余弦相似度,兩語義向量余弦距離越大越相似.語義向量距離的損失函數Lsem如式(3)所示,以達到訓練過程中可以不斷最小化損失率.

(3)

深度語義表征的訓練過程就是不斷地最小化Lrec+Lsem的損失率以達到收斂.

在語義相似彈幕深度語義表征的基礎上,針對彈幕文本具有隱含語義的特點,本文進一步設計了基于語義檢索的彈幕解釋框架,同時作為對深度語義表征結果的驗證.本文對基于語義檢索的彈幕解釋框架的語義相似彈幕檢索過程給出如定義4所示的定義.

定義4. 基于語義的相似彈幕檢索.初始彈幕s+,使用已經訓練好的深度語義表征模型進行編碼φ(s+),生成s+的語義向量v+,在深度語義表征空間中檢索與語義向量v+距離最近的k個語義向量,組成語義相似向量集合{v1,v2,…,vk},分別對檢索到的語義向量使用已經訓練好的深度語義表征模型進行解碼,生成s+的語義相似彈幕集合ss+.

基于語義檢索的彈幕解釋框架可以檢索初始彈幕的語義相似彈幕,以解決彈幕文本具有隱含語義不易理解的問題,同時,通過比較初始彈幕與初始彈幕檢索到的語義向量之間的語義相似性,對語義表征結果的應用驗證進行驗證.

2.2 深度語義表征模型結構

基于假設1:同一個視頻的彈幕,如果時間間隔小于δ,為語義相似彈幕.本節對深度語義表征模型訓練過程和模型結構進行相關介紹.

Fig. 2 Deep semantic representation training圖2 深度語義表征訓練

接下來從字符表征層、GRU單元、編碼器、解碼器4個方面,對基于字符級別編碼解碼的循環神經網絡模型進行介紹.

Fig. 3 RNN model based on character-based encode-decode圖3 基于字符級別編碼解碼的循環神經網絡模型

1) 字符表征層.字符表征層是一個線性(linear model)結構模型.字符表征輸入為字符ci,轉化成字符ci的one-hot向量xi,向量的維度等于詞表的大小m,是個高維稀疏向量,其中詞表為模型訓練數據和測試數據中所有字符的無重復的集合,詞表的大小即集合的字符個數.通過分布式表示(distributed representations)將高維稀疏向量xi轉化為α維分布式表示向量li,以達到降維.彈幕逐字符輸入字符表征層,通過轉化one-hot向量并進行分布式表示,最終字符表征層的輸出為該字符的分布式表示向量,作為GRU單元的輸入.

2) GRU單元.在傳統RNN模型中,輸入li,第i步的值為gi=σ(Uli+Wgi-1),其中U為li作為輸入時的權重,gi-1為上一步的值,W為上一步值gi-1作為本步輸入時的權重,σ為非線性激活函數.針對傳統RNN難以保存長距離信息的缺點,LSTM和GRU,通過在隱藏層計算時,引入門(gate)的機制來解決RNN的梯度消失的問題,以達到處理長序列依賴.GRU[31]可以看作是LSTM的變種,它的門單元結構與LSTM非常相似,都在一定程度上解決了長距離依賴問題,使梯度可以更好地傳播而不用面臨太多梯度衰減的影響.GRU將LSTM中的遺忘門和輸入門用更新門替代,GRU需要的參數較少,訓練速度較快,而且需要的樣本也較少.LSTM具有較多的參數,當大量樣本的情況,可能會很難訓練得到最優模型.因此采用GRU處理彈幕數據,GRU通過更新門,決定是否保留上一步的狀態和是否接受此本步的外部輸入.GRU單元接受字符表征層的輸出和GRU單元上一步的值作為輸入,輸出是維度為β的向量.

2.3 基于深度語義表征的彈幕檢索

在基于循環神經網絡(RNN)的深度語義表征模型的基礎上,進一步設計了基于語義檢索的彈幕解釋框架.該框架利用語義向量創建深度表征空間,從而對給定的初始彈幕,通過檢索與其語義相似但表達不同的上下文相關彈幕來對其進行解釋,同時作為對語義表征結果的應用驗證.

對彈幕數據,劃分為訓練數據和測試數據,訓練集用于建立深度語義表征空間,測試數據中的彈幕作為初始彈幕,通過基于空間劃分的索引,對深度語義表征空間檢索其上下文相關的彈幕.其中上下文相關彈幕為初始彈幕通過基于語義檢索的彈幕解釋框架檢索所得的語義相似彈幕.

彈幕語義檢索的彈幕解釋框架如圖4所示,分為如下過程:

1) 建立深度語義空間模型

通過訓練好的深度語義表征模型,對訓練數據進行編碼,生成語義向量,組成語義向量集合.

2) 基于空間劃分的索引

高維空間中的近似最近鄰(approximate nearest neighbor, ANN)[32]查詢問題是一個基本的查詢范式,尤其是在在數據挖掘、信息檢索、推薦系統等領域的相似性查詢上有重要的應用價值.局部敏感散列(locality sensitive hashing, LSH)是近似最近鄰搜索算法中最流行的一種,它有堅實的理論依據并且在高維數據空間中表現優異[33].由于能夠克服維度災難,且算法的精度和效率能夠滿足應用需求,因而在許多應用中都被使用,比如圖像、視頻、音頻和DNA序列等相似性查詢[34].

Fig. 4 Time-sync comment for videos explanation framework based on semantic retrieval圖4 基于語義檢索的彈幕解釋框架

對生成的語義向量集合,使用局部敏感散列(LSH)算法建立高維數據空間索引,按照語義向量之間的距離,進行高維空間劃分.

3) 初始彈幕語義檢索

依次從測試數據中逐條選取彈幕作為初始彈幕,使用訓練好的深度語義表征模型進行編碼,生成語義向量.利用初始彈幕生成的語義向量通過基于空間劃分的索引,查找最近的k個語義向量,使用訓練好的深度語義表征模型解碼生成上下文相關彈幕,作為初始彈幕的解釋.

3 實驗驗證

3.1 數據集介紹

實驗數據來源于國內知名視頻共享平臺bilibili(https:www.bilibili.com)爬取的真實的彈幕數據,彈幕數據集如表1所示:

Table 1 Bullet-Screen Data Set表1 彈幕數據集

所有的彈幕數據隨機劃分為訓練數據和測試數據,訓練數據用于訓練深度語義表征模型和建立深度語義表征空間,測試數據作為初始彈幕,用于彈幕語義檢索.其中訓練數據取彈幕數據的90%,剩下的10%作為測試數據.

3.2 實驗步驟

實驗步驟分為數據預處理、模型訓練過程、語義檢索.

1) 數據預處理

鑒于彈幕數據存在高頻、熱點等重復出現的情況,如“哈哈哈哈哈”、“前方高能”、“23333”等,為防止語義檢索出現檢索的上下文彈幕存在大量與初始彈幕完全相同的彈幕,給語義檢索的驗證帶來困難,同時考慮對比方法中檢索出上下文相關彈幕完全和初始彈幕一樣的情況,影響實驗評測的科學性,本文對彈幕進行去重.

根據語義相似性定義,存在δ使得得到的語義相似彈幕集合G={s1,s2,…,sn}里面的彈幕語義相似.此時面臨的問題為δ取值的選取,若δ過大,語義相似彈幕集合G中無關彈幕過多,導致G中的彈幕平均語義相似度低,影響模型的表征效果;若δ小,語義相似彈幕集合G中彈幕過少,導致噪聲占的比重反而更大.因此,需要選擇合適的δ對彈幕進行切分,使得所得到的語義相似性集合G的平均語義相似度最高.然而,δ的取值獲取需要根據模型訓練的結果進行定量分析,即其他參數不變的情況下不斷改變δ的取值,使得模型損失函數的損失率最低,選取此時的δ作為最終的δ.雖然一開始無法確定最優的δ的大小,但是數據預處理部分必須對彈幕進行按δ切分,得到當前切分時間片δ的語義相似度彈幕集合.本文,在δ選取時,最初通過人為觀察選擇一個δ值,在此δ的情況下,根據模型訓練結果進行調整.考慮最初δ的選取,過大或者過小,都會給最終δ的擬合帶來大量的訓練次數,所以最初δ選擇為3 s.

據對彈幕數據的人工觀察,進一步,本文發現一定時間段內,彈幕數量越多,這段時間內彈幕的語義相似度越高;一定時間段內,彈幕越少,噪聲的可能性越大,語義相關性越小.同時如果一定時間內,彈幕數據越多噪聲彈幕的所占比重也越少,所造成的干擾的影響也越小.結合此規律,對按一定時間段切分的語義相似彈幕集合,根據長度排序并篩選.

為了便于字符級循環神經網絡的處理,彈幕長度設置為定長.鑒于過短或者過長的彈幕,所占比重很少、對模型意義不大,通過人工對彈幕數據的觀察,選取長度在(5,20)之間的彈幕.同時對于彈幕數據設置成定長21,不足部分補0.

2) 模型訓練過程

① 模型初始化

② 數據輸入

每次取batch_size個語義相似彈幕集合,并在其每個彈幕集合中隨機取2條彈幕,作為模型的數據輸入.

③ 參數選取

結合模型訓練過程,不斷調整彈幕切片時間(slice time)T、字符表征向量的維度(word repre-sentation dimension)α、GRU單元彈幕表征向量的維度(bullet-screen representation dimension)β、每輪訓練所取語義相似度集合數據數量(batch size)、學習率(learning rate),使語義表征模型的損失率最低并保持一定范圍內變動.經過多次訓練,最終選取的參數如表2所示,記錄此時的訓練次數(nloop)、損失率(loss rate),保存此時的訓練模型.

Table 2 The Parameter of Model表2 模型參數選取

3) 語義檢索

利用訓練好的深度語義表征模型,對訓練數據解碼生成深度語義空間,深度語義空間是所有訓練數據的語義向量在空間的分布.對深度語義空間的語義向量建立基于空間劃分的索引.對測試彈幕逐條選取作為初始彈幕,經過訓練好的深度語義表征模型進行解碼,生成初始彈幕的深度語義向量,并基于空間劃分的索引檢索與初始彈幕語義相近的語義向量,對檢索到的語義向量經過訓練好的深度語義表征模型的解碼,解碼生成上下文相關彈幕,其中上下文相關彈幕即為檢索到的與初始彈幕語義相似的彈幕.本實驗根據檢索的相似語義距離,每條初始彈幕選取語義距離最近的10條語義向量.最終,每條初始彈幕存在10條上下文相關彈幕,并且語義相似度依次遞減.

3.3 對比方法

為了驗證基于語義檢索的彈幕解釋框架,本文設計了如下3個對比方法.

1) 序列自編碼.si∈G,G為相似彈幕集合,si={c1,c2,…,cn},si的語義向量vi,序列自編碼模型損失函數為如式(4)所示,訓練彈幕自編碼語義表征模型.初始彈幕通過訓練好的序列自編碼模型解碼,解碼生成語義向量,利用基于語義檢索的彈幕解釋框架,檢索與初始彈幕語義距離最近的10個向量作為語義相似向量,并對檢索到的語義相似向量使用訓練好的序列自編碼模型進行解碼生成上下文相關彈幕.

(4)

2) 詞袋特征索引.使用詞袋模型將訓練數據中的彈幕轉化為向量,建立語義向量空間.通過初始彈幕的語義向量在語義空間尋找相似向量.

(5)

3.4 評價指標

本節通過BLEU-4、流暢度、多樣性、人工評測對實驗結果進行評價.

BLEU[35]是一種流行的機器翻譯評價指標,用于分析候選詞和參考序列中n元組共同出現的程度,不考慮詞的位置.本實驗用初始彈幕檢索所得上下文彈幕和初始彈幕所在的語義相似集合的彈幕的n元單位切片(n-gram)進行比較,并通過計算出匹配片段的個數來計算得分.匹配的片段數越多,檢索的上下文相關彈幕越好.BLEU值的取值范圍是0~1的數值,只有2個彈幕完全一樣的情況下才會取值1.本實驗n=4,即BLEU-4標準.

除此之外,流暢度和多樣性也是評價上下文相關彈幕的重要指標[36],其中流暢度衡量了檢索的上下文相關彈幕在表達上與人類自然語言相似程度,多樣性衡量了檢索的上下文相關彈幕表達的豐富程度.具體而言,流程度和多樣性指標的定義如下:

定義5. 流暢度.T0表示所有彈幕(訓練數據和測試數據)的n-gram劃分塊集合,T表示檢索的上下文相關彈幕n-gram劃分塊集合.

(6)

本實驗對流暢度的n-gram中n設置為n∈{2,3,4,5,6}.

對于初始彈幕檢索出來的10條上下文相關彈幕隨機取3條進行n-gram劃分,得到該初始彈幕上下文相關彈幕的n-gram劃分塊集合T.逐個取T中的元素t,并將t的權重設置為len(t),若存在T0中則取1,若不存在取0,得到該初始彈幕上下文相關彈幕的流暢度.本實驗最終的流暢度為所有初始彈幕的上下文相關彈幕的流暢度的求和均值.

定義6. 多樣性.對初始彈幕的上下文相關彈幕兩兩選取,進行n-gram劃分.

(7)

本文結合彈幕這類短文本特點,多樣性的n-gram中n設置為n∈{1,2,3}.

為了更好地從語義的角度評測檢索的上下文相關彈幕與初始彈幕的語義相似性,進一步,本文提出了人工評測[26],具體指標的定義如下:

定義7. 人工評測.

(8)

其中,Ts表示所有上下文相關彈幕,|Ts|為上下文相關彈幕的數量.Tc表示為所有初始彈幕,c∈Tc表示彈幕c與初始彈幕相似.

通過人工對上下文相關彈幕進行標注,若與初始彈幕語義相似則為1,否則為0,得分為所有取值之和除以所有上下文彈幕個數.鑒于語義相似性,無法單純從字面進行判別并且不同評測者對相似性的判定和理解可能存在偏差,人工評測部分采取多人評測.評測過程中,對于每條上下文相關彈幕若有一半以上結果認為與初始彈幕語義相似,則此彈幕判定為語義相似彈幕.

3.5 結果分析

實驗的結果如表3所示,深度語義表征模型從BLEU、流暢度、多樣性、人工評測方面都取得了較好的效果.其中多樣性、人工評測2項指標得分高于其他模型,可見基于語義檢索的彈幕解釋框架,能檢索與其語義相似但表達不同的彈幕,從而驗證深度語義表征模型的合理性.其中BLEU、流暢度2項指標詞袋模型得分高于其他模型,是由于詞袋模型是通過向量檢索,所得到的彈幕是原有檢索空間存在的彈幕而非根據初始彈幕生成的上下文相關彈幕,所以BLEU和流暢度得分取值較高,超過其他模型的得分.同時,考慮到詞袋模型可能存在多條上下文彈幕與初始彈幕相同,影響結果的科學性和合理性,在數據預處理部分對重復彈幕進行了剔除.因此,詞袋特征索引模型人工語義相似度評測結果的得分優于編碼器解碼器模型和序列自編碼,低于深度語義表征模型.

Table 3 Performance of These Models表3 實驗驗證結果

綜上所述,通過在BLEU、多樣性、流暢性、人工評測,對本文所提出的模型進行了充分驗證.結果表明這種基于循環神經網絡的深度語義表征模型能夠精準地刻畫彈幕短文本的語義,也證明了關于彈幕相關假設的合理性.

3.6 案例分析

在實驗結果的基礎上,通過案例對檢索的上下文相關彈幕和初始彈幕語義進行分析.首先通過初始彈幕與上下文相關彈幕的語義關系,利用上下文相關彈幕對初始彈幕進行解釋,使用語義相似彈幕集合分析解釋的合理性.然后,結合彈幕語義和彈幕視頻之間的關聯,通過彈幕視頻分析檢索彈幕和初始彈幕的語義關系.

結合案例使用上下文相關彈幕解釋初始彈幕,使用語義相似彈幕集分析解釋的合理性.如圖5所示,黃色為初始彈幕,白色為初始彈幕的語義相似彈幕,紅色為基于語義檢索的彈幕解釋框架檢索出的上下文相關彈幕.初始彈幕“五毛…五毛”,包含隱含語義,很難理解語義.通過檢索出來的上下文相關彈幕,很好地解釋了“五毛”的語義,同時根據語義相似彈幕也驗證了解釋的合理性.對于如初始彈幕為“哈哈哈哈”,檢索出來的上下文相關彈幕中出現了“噗哈哈哈哈,結局很贊呢!”、“23333我不行了”、“哈哈哈哈哈哈哈達”.檢索的上下文彈幕和初始彈幕存在大量重復的字符,恰恰正是初始彈幕的相似語義的表達.其中“2333”正是代表初始彈幕“哈哈哈”的語義,如圖6所示.

Fig. 5 Case study figure 1圖5 案例展示1

Fig. 6 Case study figure 2圖6 案例展示2

結合彈幕語義和彈幕視頻之間的關聯,對檢索得到的上下文相關彈幕,通過結合視頻進行解釋分析,比如彈幕“這才是開始”,從彈幕文本的自身角度,很難理解此句彈幕所表達的真實語義,通過深度語義檢索出來的相似彈幕為“不敢放大看”、“這個最嚇人”等令人費解的語句.結合初始彈幕“不敢放大看”的視頻標識符和時間,定位到所在視頻的出現地方.通過人工驗證,此視頻為一部恐怖片,彈幕所出現的情節是靈異事件的開場部分.通過視頻本身的內容,很好地驗證了初始彈幕檢索出來的上下文彈幕的合理性.

綜上所述,通過具體案例分析得到的上下文相關彈幕大多是初始彈幕和視頻情節的語義相似解釋和表達,從而也驗證了檢索的上下文相關彈幕的合理性和準確性.

4 結論和展望

針對視頻實時評論的高噪聲、不規范表達和隱含語義等特性,使得傳統自然語言處理技術具有很大局限性,本文提出了一種基于循環神經網絡(RNN)的深度語義表征模型.該模型由于引入了字符級別的循環神經網絡,避免了彈幕噪聲對文本分詞帶來的影響,在實現語義表征的過程中,通過使用神經網絡,使得所得的語義向量能夠對彈幕進行更深層次的刻畫,表達其隱含語義.在此基礎上,針對彈幕文本具有隱含語義的特點,本文進一步設計了基于語義檢索的彈幕解釋框架,同時作為對語義表征結果的驗證.本文設計了包括序列自編碼、詞袋特征索引、編碼器解碼器等多種對比方法,并通過BLEU、流暢度、多樣性等多種指標以及人工評測對本文所提出的模型進行了充分地驗證,表明這種基于循環神經網絡的深度語義表征模型能夠精準地刻畫彈幕短文本的語義,也證明了關于彈幕相關假設的合理性.

本文在研究彈幕深度語義表征的基礎上,提出基于彈幕深度語義表征的彈幕語義檢索,用于解決高噪聲、不規范表達和隱含語義等特性.針對視頻實時評論的研究未來可進一步從以下4點更深入的研究:1)彈幕數據較傳統的短文本最大區別在于用語的隨意性,任何人都能發表自己的看法,而不同的人擁有不同的風格,因此利用用戶ID信息對語義的分析可能有一定的幫助,更好地體現彈幕的價值.2)若對視頻類型進行分類,分析不同類別視頻中用戶行為的差異性,將具有巨大價值.3)未來的工作進一步將通過實驗對諸如搜索引擎搜索結果、論壇評論、微博等短文本適用性進行探究,并將本文中對視頻短文本的分析推廣到搜索引擎搜索結果、論壇評論、微博等短文本.4)若考慮引入文本生成模型,在彈幕深度語義表征模型的基礎上,進行彈幕生成,設計彈幕自動回復、評論自動生成,將具有重大實際應用價值,也是未來的研究方向之一.

猜你喜歡
彈幕檢索語義
真實場景水下語義分割方法及數據集
瑞典專利數據庫的檢索技巧
在IEEE 數據庫中檢索的一點經驗
一種基于Python的音樂檢索方法的研究
搞笑彈幕一籮筐
拜托了,彈幕君
當四大名著遇上彈幕
“吃+NP”的語義生成機制研究
情感形容詞‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的語義分析
漢語依憑介詞的語義范疇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合