?

基于集成神經網絡的短文本分類模型

2018-07-19 02:31高云龍左萬利
吉林大學學報(理學版) 2018年4期
關鍵詞:語料庫短文語義

高云龍, 左萬利, 王 英, 王 鑫

(1. 吉林大學 計算機科學與技術學院, 長春 130012; 2. 吉林大學 符號計算與知識工程教育部重點實驗室, 長春 130012;3. 長春工程學院 計算機技術與工程學院, 長春 130012)

0 引 言

深度學習網絡在計算機視覺、語音識別等領域中已取得許多成果[3]; 在自然語言處理領域, 深度學習網絡雖沒有取得系統性的突破, 但也受到廣泛關注[4]. 卷積神經網絡(convolutional neural networks, CNN)通過結合局部感知區域、共享權重、空間或時間上的降采樣, 充分利用數據本身包含的局部性等特征優化網絡結構, 并保證一定程度上的位移及變形的不變性; 相比于前饋深層神經網絡, 遞歸神經網絡(recurrent neural networks, RNN)更重視網絡的反饋作用, RNN通過增加當前狀態與過去狀態之間的聯系, 具有一定的記憶功能, 從而有利于捕獲短文本內部結構之間的依賴性.

短文本分類模型的構建本質上是學習文本數據中所包含的特征[5], 按照提取特征及分類策略的不同, 本文將短文本分類模型分為兩種: 基于語義分析的短文本分類模型和基于神經網絡的短文本分類模型. 基于語義分析的短文本分類模型通常通過更多關注文本內在的語義結構、內容及文本間的關聯, 實現對短文本邏輯結構建模, 提取語義特征, 降低特征空間的維度. 在目前基于語義分析的分類模型中, 通常采用詞的分布式表示以及基于LDA(latent Dirichlet allocation)主題模型進行特征提取兩種策略. 在詞的分布式表示算法中, 短文本中的每個詞以詞向量的方式表示[6]. Ma等[7]利用Word2Vec工具在語料庫上進行訓練, 得到了短文本中詞的分布式表示, 并假設詞向量分布服從高斯分布, 利用Bayes框架得到了良好的分類效果. 文獻[8]提出了一種用于表示詞向量的全新方案: 將詞向量分為兩個子向量, 分別用于提取形態以及句法、語義方面的特征, 并通過實驗證明其具有較好的表達效果. 使用LDA主題模型提取語義特征是基于語義分析的短文本分類模型中主要的一種策略, Phan等[9]通過使用pLSA和LDA在主題特征空間構造短文本的特征向量, 并結合最大熵和支持向量機(SVMs)模型進行分類, 取得了較好的實驗結果. Chen等[10]提出了提取多粒度主題的方案, 可更好地描述短文本語義信息, 從而提高分類效果. Kim[11]首次將CNN應用到句子模型的構建中, 并提出了幾種變形. Socher等[12]提出了基于遞歸自編碼的半監督學習模型, 該模型可有效學習短文本中多詞短語及句子層次的特征向量表示, 在預測情感分析中取得了較好的效果. He等[13]采用多種不同類型的卷積和池化, 實現對句子的特征表示, 并利用所學習到的特征表示構建句子相似度模型. Socher等[14]提出了RNTN模型, 該模型通過使用解析樹中低層的詞向量組合, 計算解析樹中高層節點的向量表示, 根節點即代表短文本的特征向量, 從而提取出短文本的語義特征. 基于神經網絡的分類模型由于使用詞向量數據, 并且不依賴于特定語言的句法, 因此在不同類型的數據集或不同的語言中都顯示出了良好的擴展性和有效性. 基于以上研究, 本文提出一個基于集成神經網絡的短文本分類模型C-RNN, 主要貢獻包括: 1) 用CNN構造擴展詞向量, 從而使數值詞向量可有效描述短文本中形態、句法及語義特征; 2)利用RNN網絡對短文本語義進行建模, 進一步構造短文本的高級抽象特征.

1 短文本分類模型C-RNN框架

本文提出的基于集成神經網絡的短文本分類模型(C-RNN)可分為如圖1所示的三部分.

1) 按文獻[8]的擴展詞向量構造方式, 利用CNN網絡將短文本中的詞轉換為長度固定的詞向量;

2) 利用LSTM網絡進一步對短文本語義信息進行抽象, 并利用隱含節點之間的聯系編碼短文本內部結構之間的依賴關系;

3) 將LSTM網絡的輸出作為softmax分類層的輸入, 計算短文本中詞對于目標類別的概率, 從而分析短文本所屬的目標類別.

圖1 C-RNN模型結構Fig.1 Structure of C-RNN model

2 構建短文本分類模型C-RNN

2.1 詞向量模型

文獻[8]提出一種全新的詞向量形式, 即對于短文本中每個詞w, 其詞向量表示為u=(rw,rch), 其中: rw為詞語級別的詞向量, 用于捕獲句法、語義層次的特征; rch為字符級別的詞向量, 用于捕獲詞匯形態層次的特征. 本文采用類似的擴展詞向量表示方式, 即對于短文本中的每個詞w, 其詞向量表示為u=(rw2v,rch), 其中rw2v是由Word2Vec工具在語料庫上訓練得到的詞匯數量特征表示[15].

假設用于描述語料庫中字符特征的詞匯量為Vchr. 對于包含T個字符特征{ch1,ch2,…, chT}的詞匯w, 首先按下式將特征cht轉換為其對應的向量表示:

僅可通過線性化誤差模型辨識的誤差包括僅可過測量辨識的誤差包括δl21,δl23,δl33,δl43;僅可通過間接計算所得的誤差項包括δλ2x,δλ2z,δλ3z,δλ4z;可通過線性化誤差模型和測量辨識的誤差包括δl13,δθ13y,δθ13x,δθ21z,δθ21y,δθ23y,δθ23x,δθ33y,δθ33x,δθ43y,δθ43x。

rchr=Wchrvch,

(1)

其中: Wchr∈dchr×|Vchr|為轉換矩陣; vch∈|Vchr|為標識向量, 對應特征位置元素為1, 其他位置元素置0. 此時, 詞w對應的向量組為將該向量組作為卷積層的輸入, 進一步提取特征向量:

(2)

2.2 LSTM提取短文本語義信息

LSTM(long short-term memory)是一種典型的RNN網絡, 不同于普通的RNN網絡, LSTM模塊具有忘記門、輸入門、輸出門和記憶存儲單元4個主要部分, LSTM模型的結構如圖3所示. LSTM通過各部分的協作, 實現信息的記憶及長短期依賴信息的提取。短文本內部空間區域之間存在大范圍的相互依賴性, 編碼這種依賴關系對短文本的句法、語義分析具有重要作用.

圖2 構造字符級別特征向量模型的結構Fig.2 Structure of constructing char-level feature vector model

圖3 LSTM模型結構Fig.3 Structure of LSTM model

LSTM通過稱為“門”的結構去除或增加信息到細胞狀態. 門是一種使信息選擇式通過的方法, 其定義為

2.3 C-RNN模型分類層

對于詞個數為N的短文本ST中的每個詞wn, 利用LSTM網絡得到其語義表示hn, 并作為softmax分類器的輸入. 對于目標類別j, 得到的概率為

pj=p(j|hn;θ),

(9)

其中θ為C-RNN模型的參數. 則短文本ST屬于類別j的概率為

(10)

通過以上計算可得短文本ST所屬的類別為

(11)

3 實驗分析

3.1 實驗數據集

為驗證模型的有效性, 本文采用如下幾種標準數據集進行實驗, 語料庫均可通過開源網站獲得.

1) SST(stanford sentiment treebank)[14], 情感分類語料庫, 每個句子作為1條影評, 共有5種類別標簽, 分別為very positive, positive, neutral, negative, very negative;

2) WSD(Web snippet dataset)[9], Web片段數據集, 共有8種類型, 包括商業、體育、健康等.

語料庫的參數列于表1, 其中:C表示目標類數;L表示平均句子長度;N表示數據集大小; |V|表示詞的規模; Test表示測試集大小.

表1 語料庫參數

3.2 卷積層隱含節點個數K對模型的影響

卷積層隱含節點作為特征提取層, 通過與前一層的局部感受相連, 并提取該局部的特征, 該局部特征一旦被提取后, 其與其他特征間的位置關系也隨之確定; 由于每個節點都提取一種特征, 因此卷積層節點個數K決定CNN所提取的特征總數.K值對于C-RNN模型的影響如圖4所示. 由圖4可見, 在兩組數據集中, 實驗結果一致: 當K值較小時, 由于無法提取足夠的特征, 從而導致無法準確描述短文本的信息; 而當K值較大時, 通常出現特征提取冗余的現象, 此外, 隱含節點個數的增加即模型參數的增長, 對于時間、空間的需求也相應提高.

3.3 稀疏化系數q值選取對模型的影響

CNN模型通過增加稀疏性約束調節模型的復雜度, 在降低模型復雜度的同時, 提高模型的分類精度. 在經驗范圍內, 通過設置不同的q值, 得到的實驗結果如圖5所示. 由圖5可見, 當q取值過大或過小時, 模型的復雜度也隨之改變, 從而模型的分類精度也依次發生變化. 當q值過大時, 模型過于稀疏; 當q值過小時, 模型容易出現過擬合現象.

圖4 K值選取對泛化誤差的影響Fig.4 Influence of value K selection on generalization error

圖5 q值選取對泛化誤差的影響Fig.5 Influence of value q selection on generalization error

3.4 采用擴展詞向量對模型的影響

圖6 擴展詞向量與普通詞向量對模型的影響Fig.6 Influence of extended word vectors and common word vectors on models

C-RNN模型采用擴展詞向量作為模型的輸入, 相比于采用Word2Vec工具生成的普通詞向量, 擴展詞短文本中詞的形態級別特征的數值抽象, 從而使擴展詞向量可作為短文本形態、句法及語義多層次的特征描述. 相對于K值和q值的最優解, 本文分別采用擴展詞向量及由Word2Vec工具生成的普通詞向量作為C-RNN的輸入, 得到的實驗結果如圖6所示. 由圖6可見, 擴展詞向量通過多層次的特征抽象, 相比于普通詞向量, 可更好地反映短文本的特征, 從而有利于提高模型的分類準確率.

3.5 C-RNN與其他模型的比較

將C-RNN模型與其他短文本分類模型進行對比, 對于數據集SST和WSD, 實驗結果列于表2. 由表2可見, 本文提出的C-RNN模型在短文本分類問題上具有較好的泛化能力, 實驗結果優于大部分模型.相比于CharSCNN模型[16], C-RNN模型通過使用LSTM網絡增加信息記憶功能, 從而有利于捕獲短文本內部結構之間的依賴性, 實現了對短文本語義信息的建模, 提高了分類的準確性; 相比于RNTN模型[14], C-RNN模型在判別短文本類別時不需要構造句法分析器, 不依賴于某一特定語言, 具有良好的魯棒性; 相比于Multi-L[10]和Proposed[7]等基于語義分析的分類模型, C-RNN模型通過集成CNN和LSTM模型, 可有效地提取從詞到短文本的數值特征, 從而構造出更有效的抽象特征, 提高了分類精度.

綜上可見, 本文提出的C-RNN模型通過使用擴展詞向量, 可有效描述短文本中的特征信息; 通過使用LSTM網絡增加信息記憶功能, 從而有利于捕獲短文本內部結構之間的依賴性, 實現了對短文本語義信息的建模, 提高了模型的分類效果.

表2 模型分類精度對比(%)

猜你喜歡
語料庫短文語義
語言與語義
《語料庫翻譯文體學》評介
KEYS
Keys
批評話語分析中態度意向的鄰近化語義構建
“社會”一詞的語義流動與新陳代謝
“吃+NP”的語義生成機制研究
基于JAVAEE的維吾爾中介語語料庫開發與實現
語篇元功能的語料庫支撐范式介入
短文改錯
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合