?

基于DeepMeSHⅡ模型的生物醫學文獻多標簽分類

2023-11-02 13:02
計算機應用與軟件 2023年10期
關鍵詞:分類器排序標簽

張 子 寒

(復旦大學計算機科學技術學院 上海 200433)

0 引 言

隨著互聯網的飛速發展,信息量出現了指數級增長的勢頭。如果不對信息進行及時的分類存儲,將造成大量的無效信息,只能以噪聲的形式存在于數據庫中。因此,如何整合與處理大量信息成為亟待解決的問題,而通過使用機器學習方法進行文本多標簽分類來減少人力的投入,則成為當前NLP研究中的一大熱點。

文本多標簽分類就是對一段文本信息進行自動分類的過程。與單分類問題相比,各個文本有可能被劃分為多個類別而非單個類別,因此多標簽分類問題更為符合當前實際問題中數據分類以及索引的需求。在生物醫學領域中,科研人員以不同語言發表了大量的論文,取得了豐碩的成果。如何對于文獻進行整理和數據分類,使研究成果充分為后人所用是目前該領域面臨的緊迫問題。通過進行多標簽分類對文檔進行檢索,對于生物文本挖掘和信息檢索有著重要的應用[1-3]。然而,完整的人工索引是昂貴的和勞力密集型的——為了準確有效地索引期刊文章,標注人員必須仔細閱讀論文確定文章的主題內容,才能給出準確的標簽。本文研究的自動醫學多標簽分類方法可以節省大量的人工資源。

PubMed數據庫[4]建立在國立生物醫學信息中心(the US National Center for Biotechnology Information,NCBI)平臺上,它是一個免費的文獻搜索工具,可以提供生物醫學方向的論文和摘要等搜索功能。目前PubMed擁有主要來自MEDLINE的三千多萬條生物醫學文獻的信息。為了方便檢索和編撰,醫學主題詞MeSH(Medical Subject Headings)是美國國立醫學圖書館對于生物醫學文獻統一使用的標簽集,對MEDLINE/PubMed數據庫標注時就選擇利用MeSH這一主題詞來對藏書進行索引。美國國立醫學圖書館每年投入大量時間與金錢,雇用專業的主題詞標注人員對數據庫中的論文進行標注,據估計索引一篇生物文獻的平均成本約為9.4美元[5]。MeSH詞匯表數量很大,為了涵蓋生物醫學領域的所有方面知識,截至目前已經有近30 000個常用的MeSH標簽。

為了鼓勵全球研究人員設計新的有效MeSH索引模型和推進這個研究領域,BioASQ(Biomedical Semantic Indexing and Question Answering)[6]由歐盟資助支持,從2013年起每年舉辦一次[7]。BioASQ是關于生物醫學語義索引和問題回答的挑戰賽,每年都有生物醫學專家作為合作伙伴和第三方的支持者參與該比賽。通常每年的BioASQ比賽分為兩個任務,分別是taskA(MeSH語義索引)和taskB(問答)。在MeSH語義索引任務中,主辦方提供給參賽者文獻的期刊名、標題、摘要、時間等信息,BioASQ的參與模型需要在人類標注者標注之前使用相關的MeSH術語對新的MEDLINE文章進行注釋。人類標注者對這些新文章進行手動注釋后,這些數據被用來作為ground truth來評估參與者的表現。在本文實驗中,研究團隊參加了該生物醫學主題詞預測比賽,并在官方的數據集中進行了模型的分析。

MTI(Medical Text Indexer)[8]是NLM的官方標注模型,主要基于生物醫學文章的標題和摘要,結合MetaMap Indexing(MMI)和PubMed相關的文獻(PubMed-Related Citations,PRC)[9]進行MeSH標注預測。MetaLabeler[10]首次將MeSH多標簽分類問題看作多個二分類問題,并分別使用二元分類器進行預測,曾贏得了BioASQ比賽并為后續模型提供了關鍵思路。MeSHLabeler[11]在MetaLabeler基礎上,集成了KNN等多個分類器的結果,將所有打分存入排序MeSH候選表,并得到最終預測結果。DeepMeSH[12]模型在MeSHLabeler的基礎上,加入了文本的深度學習語義表示(Doc2Vec representation)[13]。MeSHProbeNet[14]方法在2019年BioASQ比賽中效果僅次于本文提出的DeepMeSHⅡ,它使用了Bi-GRU[15-16]的方法來對序列進行向量表示,并且在表示計算中加入了自注意力機制[17-18]。

目前方法不足之處在于還有未被挖掘的信息,目前模型僅針對文本本身進行預測,并不能有效地運用文字外的信息。另外,目前還沒有模型能夠對深度學習和傳統機器模型進行融合,而DeepMeSH集成模型中的模塊還不夠完善,沒有效果顯著的深度學習模型,排序學習基礎模型選擇也有待調整。

本文研究的主要貢獻在于:(1) 將端到端的深度機器學習模型AttentionXML-base模型融合入DeepMeSH中,提出DeepMeSHⅡ模型;(2) 在特征表示的學習過程中添加MTIFL類期刊的特征表示,通過驗證集中的大量實驗設計不同的集成方案;(3) 本文提出的DeepMeSHⅡ模型參加了2019年BioASQ比賽,取得了第一名的成績。

1 相關模型基礎

1.1 多標簽分類問題

多標簽分類的重點是預測文本所屬的類別。假設類別數為N,每個樣本可以表示成(x,y)的形式,其中x∈X是特征空間X∈Rn中的一個向量表示(在深度學習中,輸入為文本信息,特征由端到端自動學習),而y∈Y={-1,1}N表示其標簽,其中yk∈{-1,1}表示樣本x屬于(或不屬于)第k類。

機器學習方法是利用決策函數f=(f1,f2,…,fN):X→Y進行標簽分數,在實驗中需要區分正負樣本,最終決定每個樣本的預測標簽。

1.2 評估方法

本文的標簽具有層次結構,評估預測結果有基于最近公共祖先的F-measure評估(Lowest Common Ancestor F-measure,LCA-F)以及基于標簽的評估Micro F-measure(MiF),以MiF值為主要排名依據,評估指標如下:

(1) 精確度Accuracy(Acc):

(1)

(2) 實例平均精確率Example Based Precision(EBP):

(2)

(3) 實例平均召回率Example Based Recall(EBR):

(3)

(4) 實例平均F值Example Based F-Measure(EBF):

(4)

(5) 宏平均精確率Macro Precision(MaP):

(5)

(6) 宏平均召回率Macro Recall(MaR):

(6)

(7) 宏平均F值Macro F-Measure(MaF):

(7)

(8) 微平均精確率Micro Precision(MiP):

(8)

(9) 微平均召回率Micro Recall(MiR):

(9)

(10) 微平均F值Micro F-Measure(MiF):

(10)

式中:T表示數據集文本個數;N表示標簽個數,precision,i、recall,i和Fscore,i表示對于第i個樣本的準確率、召回率和F值,precision,k、recall,i和Fscore,k表示對于第k個標簽的準確率、召回率和F值。

實例平均指的是對所有文獻的Precision/Recall進行平均;宏平均指的是對于所有標簽的指標進行平均;微平均是將所有的正樣本、真實樣本統計后總體計算的精確率、召回率、F值。比賽中主要關注的參考指標有MiP、MiR和MiF,在評估中β取1。

1.3 排序學習與DeepMeSH

排序學習(Learning to Rank,LTR)是一種監督學習的排序方法,興起于信息檢索領域,目前已被廣泛應用到文本挖掘的很多領域。排序學習的核心仍是機器學習,首先確定損失函數后,以最小化損失函數為目標進行優化,得到排序模型的參數。常用的排序學習方法分為pointwise、pairwise和listwise三類,分別將排序結果以三種不同的視角對排序結果進行近似擬合,因此也設計出了三種不同類型的損失函數,本文實驗中選擇了XGBoost中的排序學習實現。

隨著BioASQ比賽的進行與機器學習模型的涌現,出現了基于排序學習的集成模型,其中具有代表性的有MeSHLabeler[11]和DeepMeSH[12]。DeepMeSH模型將多標簽文本分類問題看作多個類別上的二分類問題,使用傳統機器學習與深度學習對文本進行了不同的特征表示,并使用多種機器學習分類器對其進行二分類預測,得到每個標簽的預測概率作為打分,并使用排序學習模型對這些打分進行整合與最終的預測。

1.4 AttentionXML模型

AttentionXML是2019年發表于NeurIPS的工作[19],該模型主要解決大規模文本分類問題,在小型數據集上不使用標簽概率樹(PLT樹)[20],同樣有著優秀的表現。在醫學主題詞分類的項目中,由于標簽和數據規模很小,直接使用AttentionXML里的單個分類網絡即可,本文稱之為AttentionXML-base網絡,模型如圖1所示。

圖1 深度網絡AttentionXML-base模型

AttentionXML-base模型包含五層:

1) 單詞表示層(Word Embedding Layer),用300維的glove模型對單詞進行詞向量表示,每個句子的最大長度根據數據情況設置為默認值350,空余部分使用Padding填充為0。

2) BiLSTM[21]層,LSTM可以有效地防止梯度消失及梯度爆炸問題[22]。模型中使用雙向的LSTM對句子進行表示學習,用式(11)作為LSTM層的表示。

(11)

(12)

(13)

4) 全連接層。AttentionXML-base選擇使用一層的全連接層作為分類器的學習使用。該層輸出的維度為(N,L,K),其中:N為batch size;L表示標簽個數;K表示全連接層輸出向量維度。

5) 輸出層。在全連接層中,網絡為每個標簽映射得到了一個K維的特征向量,在輸出層中,使用K×1的全連接得到該標簽的最終預測得分,得到預測值后使用Binary Cross Entropy Loss作為損失函數進行網絡的學習。

模型中使用了dropout[23]機制防止模型過擬合,使用Adam優化器[24]進行梯度下降。

2 DeepMeSHⅡ模型與其優化

2.1 DeepMeSHⅡ模型

隨著深度模型AttentionXML-base的提出,本文對其進行了大量的調參實驗,使其適用于該生物醫學文獻分類任務。在DeepMeSH模型的基礎上,添加深度模型分支并提出DeepMeSHⅡ模型。在深度模型分支中,模型將輸入的文本信息轉化為one-hot編碼后傳入AttentionXML-base模型中進行預測,并參與排序模型的學習。

DeepMeSHⅡ模型在預測文獻標簽時,通過傳統機器學習的方法設計文檔的特征,利用SVM、KNN等分類器及模式匹配的方法得到各個標簽的打分,通過深度學習多標簽分類模型AttentionXML-base得到各標簽的得分。結合NLM官方提供的MTI打分,對數據集中進行LTR排序學習,得到每個標簽的打分。結合標簽個數的回歸學習,最終得到預測結果,預測流程如圖2所示。

圖2 DeepMeSHⅡ模型流程

在實驗中,將文獻的標題與摘要進行拼接,形成了待預測的文本內容。對于傳統文本機器學習分類器,使用常用的TFIDF[25]方法對文本內容進行特征化,使用Doc2vec[26]的方法對文本進行深度學習特征向量表示,并結合TFIDF得到D2V-TFIDF特征表示。在輸入TFIDF特征和Doc2vec-TFIDF特征后,使用KNN和SVM兩種基礎分類器分別對每個標簽進行打分。進行KNN分類時,將文獻個數為100萬的數據集作為KNN的樣本空間,取k為200進行k近鄰的預測;使用SVM分類器時,對每一個標簽采用單獨的SVM模型預測,最終得到每個標簽的打分。對于深度機器學習分類器,使用上文提到的AttentionXML-base模型進行預測,該深度模型是端到端的,不再以TFIDF等特征作為模型輸入,而是直接以one-hot形式將文本信息輸入后對其進行預測,通過集中預訓練得到的glove模型,作為初始化的詞向量表示。

在得到各標簽的多組分值后,將分值作為特征,添加已設計好的基于期刊統計信息的特征表示,以及MTI的官方標簽打分、PRA相關文獻打分等,使用XGBoost排序學習框架[27]進行訓練預測,得到標簽的最終打分。得到打分后,結合XGBoost模型對每個文獻進行標簽個數的回歸學習,得到每個文獻預測的標簽數量,并確定最終預測標簽。

2.2 訓練數據設置

在BioASQ比賽中,通過不斷優化模型,DeepMeSHⅡ最終模型的訓練集配置如表1所示。共篩選了(BioASQ比賽開始前)最新300萬篇MEDLINE文獻作為深度模型與傳統分類器的訓練數據集。在比賽最終階段(batch 3)時,比賽第一階段(batch 1)的文獻中具有人工標注的28 990篇,第二階段(batch 2)被標注的有26 718篇文獻,這些數據被用于學習LTR排序學習模型。此外,比賽最終階段(batch 3)中的所有數據以及前兩階段中未被人工標注的數據均作為測試數據進行模型預測。

表1 DeepMeSHⅡ模型數據集大小及來源

2.3 改進的特征表示

在PubMed和MEDLINE的數據標注中,并非所有數據均為專業人士直接閱讀文獻并自行標注所得。MTI First Line是美國國家醫學圖書館自動化標準索引方法。對于一部分的期刊,NLM首先使用MTIFL的方法對文獻進行標注,接著由專業標注人員添加遺漏的標注、刪除錯誤的標注,并提供出版物類型。這一類標注被官方稱作“MTIFL Completion”。這類期刊共有583個,可以在NLM的網站中獲得該類期刊的編號,本文稱之為“MTIFL類期刊”。

經過實驗發現,各方法在MTIFL期刊中的預測效果要明顯優于非MTIFL期刊的預測效果,表2展示的batch2中第4周的數據中,DeepMeSHⅡ模型與兩種MTI官方模型在MTIFL類期刊中表現均遠遠高于非MTIFL類期刊。因此,將MTIFL類期刊作為特征加入到排序學習的特征表示中,添加一維的特征表示,令MTIFL類期刊特征為1,非MTIFL類期刊特征為0。加入期刊信息后,平均MIF值獲得了0.01的顯著提升。

表2 三種模型在兩類期刊中MiF指標對比

2.4 DeepMeSHⅡ模型的更多優化

參考BERT模型[28]中Multi-Head的思路,DeepMeSHⅡ同時考慮了多個深度模型的集成。DeepMeSHⅡ將深度模型的分支數設置為2,即同時進行兩個參數不同的深度模型的打分預測,并將預測結果傳入排序學習模塊,以提高模型的魯棒性與準確率。在期刊信息的挖掘中,DeepMeSHⅡ針對MTIR類期刊設計了不同的排序學習方案,通過提高MTI打分的權重來提升模型的預測效果。

3 實驗結果與分析

表3中展示了DeepMeSHⅡ模型在batch3第4周數據中的實驗結果,可以看出通過將深度模型融入DeepMeSH模型,實現了深度學習模型與傳統機器學習模型的結合,其預測效果有明顯的提升。這說明AttentionXML深度學習網絡可以學習出傳統機器學習難以習得的非線性關系,并以此在DeepMeSH的基礎上大幅提高預測精度。然而我們在比賽中發現,無論是MeSHProbeNet或是AttentionXML的單個神經網絡模型,相較DeepMeSHⅡ都有一定的差距,這也證明了神經網絡模型也有其局限性,與傳統模型結合后方可以各取所長。另外在加入MTIFL的期刊特征信息后,預測效果有了進一步的顯著提升,這說明了該分類問題中隱藏著未被挖掘的信息,使用機器學習模型自動地進行學習擬合效果有限,人為地對特征進行干預是非常有效的方法。

表3 DeepMeSHⅡ模型實驗結果

此外,DeepMeSHⅡ對MTIR類期刊在排序學習時進行了單獨的加權,使其偏好使用MTI的打分。實際上,該操作使MTIR類期刊中預測結果的MiF指標從0.80提升至了0.92,但由于此類期刊占比過小,對整體模型的提高不夠明顯。

在2.4節中提到DeepMeSHⅡ使用了雙分支的深度學習模型,表4中對該設置進行了對比實驗。實驗發現相比單分支的深度學習模塊,雙分支的深度學習模塊整體預測效果會有0.002的提升。而分支數繼續增加后對實驗結果基本不再有影響,因此DeepMeSHⅡ最終將深度學習分支數固定為2。

表4 DeepMeSHⅡ模型深度學習分支數對比實驗

在MTIFL類期刊信息挖掘的實驗中,本文嘗試了更多的對比實驗:在不使用MTIFL特征時,將MTIFL類期刊與非MTIFL類期刊作為兩個不同的任務分別訓練模型并預測。在對比實驗中我們發現模型效果在MTIFL類期刊中的預測精度沒有提高,在非MTIFL類期刊中有精度的降低,整體精度反而略有降低。通過該實驗分析得到,使用MTIFL期刊信息作為特征可以聯合并有區分地訓練兩種期刊模型,相較劃分數據分別訓練不易受到數據量的限制。

在2019年的BioASQ task7A醫學主題詞自動標注比賽(ECML/PKDD 2019 competition:BioASQ 2019 task7A)中,DeepMeSHⅡ模型獲得了第一名的成績,也成為了當前生物醫學文本自動標注方向的最新進展。圖3所示為在BioASQ 7A比賽的最后一組測試數據中官方公布的各評估指標結果,其中第二列MiF為最終排名指標,可以看出DeepMeSHⅡ模型的五組預測結果均遠遠高出了第二名的預測結果。

圖3 比賽最終周的官方指標排名

4 結 語

本文提出的模型DeepMeSHⅡ達到了領域內SOTA的結果,證明了深度模型與傳統機器模型進行集成的可行性與期刊信息挖掘的合理性。但美中不足的是DeepMeSHⅡ作為一個排序學習模型,訓練過程過于繁瑣。

在接下來的實驗中,我們將致力于在不損失模型精度的情況下,盡量降低模型的時間復雜度,嘗試減少耗時較多的模塊或發掘能夠逼近集成效果的端到端模型。

猜你喜歡
分類器排序標簽
排序不等式
恐怖排序
節日排序
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
BP-GA光照分類器在車道線識別中的應用
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
標簽化傷害了誰
基于多進制查詢樹的多標簽識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合