?

基于稀疏編碼器與集成學習的文本分類

2017-03-23 20:57楊洪余
科技創新與應用 2017年6期
關鍵詞:文本分類

摘 要:文本分類在文本預處理中占據著重要的地位,針對文本分類過程中輸入數據維數高,導致特征提取,分類器選擇困難等問題,提出一種基于稀疏自動編碼器與集成學習的文本分類算法。該算法首先通過稀疏自動編碼器進行輸入數據的特征表示,然后利用極限學習機作為基分類器進行文本分類,最后通過Adaboost集成學習方法將基分類器組合成為分類效果更好的集成分類器。實驗結果表明,該方法可以有效提高文本分類的準確度。

關鍵詞:極限學習機;稀疏自動編碼器;集成學習;文本分類

1 概述

隨著現代社會的發展,互聯網成為了人們獲取文本信息的重要手段。然而網上的信息雜亂無章,使得人們很難快速而準確的獲得所需要的文本信息。因此如何有效的對文本進行分類,幫助用戶找到所需的信息成為當代信息技術領域的一個重要課題[1]。

本文提出利用深度學習中的稀疏自動編碼器自動選取文本的特征,然后利用極限學習機作為基分類器進行文本的分類,最后結合Adaboost集成學習方法將極限學習機作為基分類器組合成一個效果更好的分類器。實驗結果表明,該算法在文本分類方面,可以有效地提高文本分類的準確性。

2 相關理論基礎

2.1 稀疏自動編碼器

稀疏自動編碼器(sparse auto encoder,SAE)是利用人工神經網絡的特點構造而成的網絡。稀疏自動編碼器的訓練過程分為兩個步:第一步是預訓練,即先利用無監督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓練算法確定網絡的參數。第二步是微調,其思想是整個網絡視為一個整體,用有監督學習的方法優化整個網絡的參數,由于SAE訓練過程的復雜性,具體過程可參考文獻[2]。

2.2 極限學習機

針對傳統神經網絡訓練過程時間漫長,優化困難等缺點,新加坡南洋理工大學的黃廣斌教授提出了一種全新的單隱層前饋神經網絡-極限學習機(Extreme Learning Machine,ELM)[3],該網絡能夠以極快的學習速度達到較好的泛化性能,從而解決了傳統神經網絡學習速度緩慢的限制。該網絡主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經元通過激活函數把輸入的數據進行變換,然后把變換后的數據輸出到輸出層,在網絡中輸入層和隱藏層的權值是隨機設置的,只有隱藏層到輸出層的權值需要求解,因此加快了網絡的學習速度。

2.3 Adaboost分類器

由于單個分類器通常無法滿足分類任務的要求,因此需要通過集成學習來構建并結合多個分類器來完成分類任務,這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓練集訓練出一個基學習器,再根據基學習器的變現對訓練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續收到更多關注,然后基于調整后的樣本分布來訓練下一個基學習器;如此重復進行,直到基學習器數目達到指定的值,最終將這幾個基學習器進行加權結合。Adaboost是一種迭代算法,具體訓練過程可參考南京大學周志華教授編寫的機器學習課本中關于Adaboost算法的章節。

3 SEA文本分類算法

在本文中,結合稀疏編碼器,極限學習機與Adaboost這三種機器學習方法提出SEA文本分類算法,該算法的工作流程如圖1所示。

該分類算法的第一步為輸入,輸入的是經過了向量化表示的文本,但沒有經過任何的手工特征提取。第二步是利用SAE算法對數據的重建能力自動選擇文本的特征,用SAE算法選擇的文本特征可以有效地復原原始文本信息。第三步是利用ELM分類器作為該算法的基分類器,ELM作為第四步中的基分類器參與訓練,最后一步是輸出該文本屬于哪一類。

4 實驗結果與分析

4.1 實驗數據集與評價指標

本文選用的分類文本數據來源于新聞數據集[5],該數據集復旦大學計算機信息與技術系李榮陸提供,數據集標注比較規范,規模適中,適合于進行文本分類的仿真實驗。

在文本分類中常用的評價指標有準確率P(Precision)和召回率R(Recall),公式如下:

P=M/(M+N),R=M/(M+T)

其中,M為正確分類到該類的文本數,N為錯分到該類中的文本數,T為屬于該類確誤分為別類的文本數。

4.2 實驗結果

為驗證本文提出的SEA文本分類模型,需要將文本數據集進行預處理,對于SEA模型來說,就是進行文本分詞。本實驗文本分詞采用的是NLPIR漢語分詞系統,其主要功能包括中文分詞,詞性標注,命名實體識別,用戶字典功能等,是國內比較成熟,用戶較多的中文文本分詞系統。經過文本預處理后,按照本文提出的SEA文本分類模型進行實驗,并和幾種經典的分類算法做對比。在本實驗中Adaboost集成學習算法中基分類器的個數設置為10個,基分類器ELM中隱藏層的個數設置為輸入層的0.75倍,稀疏自動編碼器中隱藏層數設置為4,實驗結果如表1和表2所示。

從表1和表2可以看出隨著文本數量的增加,SEA模型的分類準確率和召回率逐漸提高,這是由于在訓練數據集較小時,稀疏編碼器對自動提取的文本特征變現地不是很理想,容易造成SEA分類模型產生過擬合現象,從而影響分類準確率和召回率。SVM算法在訓練數據集比較小時,變現良好,這是由于在訓練數據較少時,可以較容易地找到分類超平面,在數據量變大時,由于計算量的增大,使得計算量變大,導致計算得到的超平面效果不好,使得分類準確率和召回率不斷下降。BP和ELM算法都隨著訓練數據的增大,其分類準確率和召回率在不斷變大,這是由于隨著訓練數據的增大,BP和ELM可以更有效的提取輸入數據的特征,但ELM算法相比BP算法變現得更好,這是由于BP算法可能無法收斂到最優值,導致分類算法的準確率下降。

綜上所述,本文提出的SEA文本分類模型可以有效的提高文本分類的準確率和召回率,尤其是隨著訓練數據集的不斷增大。

5 結束語

文本分類在文本處理中占據著重要的地位,其分類的好壞直接影響著后續的文本處理,如何有效地對文本分類是一個重要的研究課題。本文結合稀疏自動編碼器,極限學習機與Adaboost集成學習方法提出SEA文本分類方法,實驗結果表明該分類方法可以有效將文本分類過程中的特征提取和分類器結合在一起,從而提高了分類結果的準確性。

參考文獻

[1]秦勝君,盧志平.稀疏自動編碼器在文本分類中的應用研究[J].科學技術與工程,2013,13(31):9422-9426.

[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.

[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.

[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.

[5]http://www.nlpir.org/?action-viewnews-itemid-103.

作者簡介:楊洪余,碩士研究生,研究方向為數據挖掘與文本處理。

猜你喜歡
文本分類
基于樸素貝葉斯的Web文本分類及其應用
基于組合分類算法的源代碼注釋質量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網絡答疑反饋系統
基于K—means算法的文本分類技術研究
文本分類算法在山東女子學院檔案管理的應用
不同情境下中文文本分類模型的表現及選擇
基于內容的英語錄音教材標注研究與應用
多核SVM文本分類研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合