?

多標簽文本分類研究綜述

2024-01-24 08:52李楚貞江濤
電腦知識與技術 2023年34期
關鍵詞:特征提取深度學習

李楚貞 江濤

摘要:文章旨在對多標簽文本分類的最新研究進行全面回顧。首先,介紹其定義和過程,然后,詳細說明了多標簽文本分類方法并總結其研究趨勢和差距,多標簽文本分類方法為該領域的研究提供參考并指導未來研究。

關鍵詞:多標簽文本分類;深度學習;特征提取

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2023)34-0071-03

開放科學(資源服務)標識碼(OSID)

0 引言

自引入深度學習以來,多標簽文本分類方法已取得重大進展,但仍存在一些問題和挑戰。隨著標簽數量的增加,與每個文本相對應所有可能的標簽組合呈指數增長。在提取文本之后,使用哪種分類方法來提高文本分類的速度和準確性是其中一個挑戰。本文重點從多標簽文本分類方法出發闡述其優缺點。

1 多標簽文本分類

多標簽文本分類方法根據預定義的標簽集是否具有層次關系大致可分為平面多標簽文本分類和層次多標簽文本分類。

平面多標簽文本分類方法的預定義標簽集中的標簽與標簽之間沒有層次結構。常見的平面多標簽的分類方式,主要包括了基于詞典的方式、基于機器學習的方式,以及基于深度學習的方式。

1.1 基于詞典的方法

早期的基于詞典的方法是一種半監督方法。它根據與每個標簽相關詞典中的單詞數量為文檔分配標簽,并使用這一分類標準將文檔分類為多個單獨的類別。文獻[2]中使用了與領域無關的方法來自動生成詞典,節省了時間和精力。它將文檔中的文本向量與詞典中包含的每個標簽相關聯的詞匯進行匹配,從而實現準確分類?;谠~典的分類方法簡單明了,但它分類的背后是假設每個詞典中的所有單詞都具有相同的重要性。這在實踐中是不合理的。此外,基于詞典的方法忽略了多詞現象和多義現象,并且詞典可能是不完整的。

1.2 基于機器學習的方法

問題轉換方法與算法自適應方法,是兩個最常用的基于機器學習的多標簽文本分類方法。問題轉換方法主要有二元相關(BR)[3]、分類器鏈(CC)[4]、標簽冪集分解(LP)[5],算法自適應方法主要有ML-DT[6]、Rank SVM[7]和ML-KNN[8]。表1和表2分別對問題轉換方法和算法自適應方法進行總結。盡管部分方法可以捕獲標簽的相關性,但它們都只能捕捉標簽之間一階或二階的相關性,而無法捕獲高階的相關性。

1.3 基于深度學習的方法

1) 基于CNN方法

BP-MLL是最早將神經網絡模式運用到MLTC的方法。它使用一個完全連接的網絡和排名損失進行分類。2014年,在BP-MLL的基礎上,Nam等人[9]將損失函數修改為交叉熵損失函數,同時使用AdaGrad優化算法和dropout技術,在大規模文本分類中取得了較好的性能。Kurata等人[10]使用CNN對多標簽文本分類任務進行了建模,它將句子中的單詞以單詞向量的形式疊加到句子矩陣中,再通過卷積和池化操作捕獲單詞之間的語義特征。Yang等人[11]還提供了一個雙孿生CNN系統(HSCNN)來處理多標簽文本類型的不均衡問題。該網絡采用混合機制,頭標簽采取單一結構,尾標簽采取孿生網絡結構。

上述方案都是完善CNN的架構以滿足多標簽文本分類。盡管這種方法相對簡單,但使用池化操作會導致位置信息的丟失,并且當文本過長時,CNN不利于捕捉上下文之間的關系。

2) 基于RNN方法

在使用RNN時,經常使用改進的RNN算法,包括Hochreiter等人提出的LSTM和Cho等人提出的GRU來解決長期依賴性問題。

Xiao等人[12]提出了一種基于Word2vec和LSTM的文本分類模型。他們使用Word2vec來克服高維問題,再通過訓練LSTM分類模型,有效地對專利文本進行分類。Gao等人[13]將LSTM應用于多標簽文本分類。首先,LSTM用于獲得蛋白質序列數據的長距離依賴性特征,然后對特征向量進行一維卷積處理。為了提高分類的準確性,Gao等人[13]采用基于多標簽排序的損失函數和RMSProp優化算法。Zhou等人[14]提出具有注意機制的BiLSTM模型。該模型可以自動提取分類問題中最重要的特征。Liu等人[15]提出了一種基于BiGRU和注意力機制的BGRUA模型來識別HTTPS流量服務。

3) 基于混合的方法

為改善分類效果,研究者們建議將CNN與RNN相結合。Jang等人[16]提出了一個采用注意力機制的Bi-LSTM+CNN混合模型。它首先采用了Word2vec生成詞向量,然后再通過CNN獲得句子的局部特征。然后,再把局部特征饋送到Bi-LSTM中來獲得全局特征。Salur等人[17]提出了一種新的混合模型,該模型將不同的單詞嵌入與各種算法(LSTM、Bi-LSTM、CNN和GRU) 相結合。Xiao等人[18]設計了一種電能質量擾動的綜合分類方法。它將CNN-GRU、ResNet-GRU和Inception-GRU三種方法集成在一起。為了提高對真實數據的分類性能,采用了“預訓練和再訓練”方法,作者將其方法與典型的深度學習方法和傳統的分類方法作了對比,結果顯示它在五個評價指標上性能更好。Dong等人[19]結合標簽嵌入和自交互注意機制對文本進行分類。這是首次嘗試在文本分類中使用自交互注意捕捉文本中所有句子之間的交互信息。Wang等人[20]證明標簽有助于獲得更重要的單詞進行分類。

為了考慮標簽之間的相關性,Yang等人[21]首次提出把多標簽分類任務當作序列生成問題。盡管該模型可以獲得標簽之間的相關性,但解碼器基于其先前預測的標簽來預測下一個標簽。因此,模型最終結果在很大程度上取決于標簽的順序和分布。此外,該模型的編碼器僅使用BiLSTM來讀取文本序列。BiLSTM雖可以捕捉文本的全局特性,但卻無法捕捉文本的局部特征以及詞匯在文本中的位置信息。Liao等人[22]對多標簽分類序列生成模型進行修改。該模型不僅捕獲文本的局部特征與全局語義信息還考慮了標簽和標簽之間的相互關系,但該方法的預測結果仍然取決于標簽的順序,且誤差容易累積。為了避免誤差積累,Wang等人[23]提出一種基于動態路由的序列生成模型。該方法在隱藏層之后增加了動態路由聚合層,并實現了通過路由參數的全局共享來減少誤差積累的影響。為了避免依賴于標簽順序,Yang等人[24]提出了序列集模型,該模型通過強化學習進行訓練,但它只能減少而不是完全消除標簽序列的影響。Qin等人[25]提出自適應RNN序列預測模型,該模型可以發現最佳標簽順序,但它會產生較高的計算成本,因為它的訓練目的是找到最可能的標簽集,而不是標簽序列。Yang等人[26]提供了多標簽深層森林(MLDF)的技術,它通過多層的標簽樹法來建立深層森林,而標記相關性則是利用逐層表示的方法來實現的。Wang等人[27]設計基于推理的多標簽推理器(ML Reasoner) 。它能夠利用標簽之間的信息,同時避免標簽順序敏感性的問題,但計算量大。

2 結論

本文重點闡述了多標簽文本分類中的分類方法,分析各種方法的優點和局限性。學者們已經證明標簽的相關性可以提高分類性能,但目前的分類方法大部分都只能減少標簽的順序依賴,無法完全消除標簽的順序依賴性問題,因此在以后的研究中將從這方面展開。

參考文獻:

[1] 劉心惠,陳文實,周愛,等.基于聯合模型的多標簽文本分類研究[J].計算機工程與應用,2020,56(14):111-117.

[2] HMEIDI I,AL-AYYOUB M,MAHYOUB N A,et al.A lexicon based approach for classifying Arabic multi-labeled text[J].International Journal of Web Information Systems,2016,12(4):504-532.

[3] BOUTELL M R,LUO J B,SHEN X P,et al.Learning multi-label scene classification[J].Pattern Recognition,2004,37(9):1757-1771.

[4] READ J,PFAHRINGER B,HOLMES G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333-359.

[5] TSOUMAKAS G,KATAKIS I.Multi-label classification[J].International Journal of Data Warehousing and Mining,2007,3(3):1-13.

[6] CLARE A,KING R D.Knowledge discovery in multi-label phenotype data[M]//Principles of Data Mining and Knowledge Discovery.Berlin,Heidelberg:Springer Berlin Heidelberg,2001:42-53.

[7] ELISSEEFF A,WESTON J.A kernel method for multi-labelled classification[M]//Advances in Neural Information Processing Systems .The MIT Press,2002:681-688.

[8] ZHANG M L,ZHOU Z H.ML-KNN:a lazy learning approach to multi-label learning[J].Pattern Recognition,2007,40(7):2038-2048.

[9] NAM J,KIM J,LOZA MENCíA E,et al.Large-scale multi-label text classification—revisiting neural networks[M]//Machine Learning and Knowledge Discovery in Databases.Berlin,Heidelberg:Springer Berlin Heidelberg,2014:437-452.

[10] KURATA G,XIANG B,ZHOU B W.Improved neural network-based multi-label classification with better initialization leveraging label co-occurrence[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA,USA:Association for Computational Linguistics,2016:521-526.

[11] YANG W. MSCNN: a monomeric-siamese convolutional neural network for extremely imbalanced multi-label text classification[C]//Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP),2020.

[12] XIAO L Z,WANG G Z,ZUO Y.Research on patent text classification based on Word2Vec and LSTM[C]//2018 11th International Symposium on Computational Intelligence and Design (ISCID).IEEE,2018:71-74.

[13] GAO Z Y,SUN L J,WEI Z H.A multi-label classifier for human protein subcellular localization based on LSTM networks[C]//Proceedings of the 2018 International Conference on Advanced Control,Automation and Artificial Intelligence (ACAAI 2018)Paris,France:Atlantis Press,2018:248-252.

[14] ZHOU P,SHI W,TIAN J,et al.Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers).Stroudsburg,PA,USA:Association for Computational Linguistics,2016:207-212.

[15] LIU X,YOU J L,WU Y L,et al.Attention-based bidirectional GRU networks for efficient HTTPS traffic classification[J].Information Sciences,2020,541:297-315.

[16] JANG B,KIM M,HARERIMANA G,et al.Bi-LSTM model to increase accuracy in text classification:combining Word2Vec CNN and attention mechanism[J].Applied Sciences,2020,10(17):5841.

[17] SALUR M U,AYDIN I.A novel hybrid deep learning model for sentiment classification[J].IEEE Access,2020,8:58080-58093.

[18] XIAO X G,LI K C.Multi-label classification for power quality disturbances by integrated deep learning[J].IEEE Access,1809(9):152250-152260.

[19] DONG Y R,LIU P Y,ZHU Z F,et al.A fusion model-based label embedding and self-interaction attention for text classification[J].IEEE Access,2019,8:30548-30559.

[20] WANG G Y,LI C Y,WANG W L,et al.Joint embedding of words and labels for text classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Stroudsburg,PA,USA:Association for Computational Linguistics,2018.

[21] YANG P C,SUN X,LI W,et al.SGM:sequence generation model for multi-label classification[EB/OL].[2022-10-20].2018:arXiv: 1806.04822.https://arxiv.org/abs/1806.04822.pdf.

[22] LIAO W Z,WANG Y,YIN Y C,et al.Improved sequence generation model for multi-label classification via CNN and initialized fully connection[J].Neurocomputing,2020,382:188-195.

[23] 王敏蕊,高曙,袁自勇,等.基于動態路由序列生成模型的多標簽文本分類方法[J].計算機應用,2020,40(7):1884-1890.

[24] YANG P C,LUO F L,MA S M,et al.A deep reinforced sequence-to-set model for multi-label classification[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2019:5252-5258.

[25] QIN K C,LI C,PAVLU V,et al.Adapting RNN sequence prediction model to multi-label set prediction[EB/OL].[2022-10-22].2019:arXiv:1904.05829.https://arxiv.org/abs/1904.05829.pdf.

[26] YANG L,WU X Z,JIANG Y,et al.Multi-label learning with deep forest[EB/OL].[2022-10-22].2019:arXiv:1911.06557.https://arxiv.org/abs/1911.06557.pdf.

[27] WANG R,RIDLEY R,SU X A,et al.A novel reasoning mechanism for multi-label text classification[J].Information Processing & Management,2021,58(2):102441.

【通聯編輯:唐一東】

猜你喜歡
特征提取深度學習
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于Daubechies(dbN)的飛行器音頻特征提取
一種基于LBP 特征提取和稀疏表示的肝病識別算法
有體驗的學習才是有意義的學習
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
基于DSP的直線特征提取算法
基于MED和循環域解調的多故障特征提取
Walsh變換在滾動軸承早期故障特征提取中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合