?

一種基于多模態特征提取的醫學視覺問答方法

2024-03-05 01:41吳松澤劉利軍黃青松孔凡彥付曉東
小型微型計算機系統 2024年3期
關鍵詞:醫學影像特征提取殘差

吳松澤,劉利軍,2,黃青松,孔凡彥,劉 驪,付曉東

1(昆明理工大學 信息工程與自動化學院,昆明 650504)

2(云南省計算機技術應用重點實驗室,昆明 650500)

0 引 言

近年來,隨著計算機視覺在醫學領域已經取得了顯著的成功,醫學視覺問答(Medical Visual Question Answering,Med-VQA)吸引了研究人員的廣泛關注.Med-VQA通過醫學圖像推理給定的自然語言問題的答案,要求Med-VQA模型在解釋醫學相關的視覺概念時要并發地關聯圖像和語言信息.Med-VQA可以幫助病人針對他們的詢問得到及時的反饋,以便做出更明智的決定.它也有助于減輕醫療系統的壓力,從而節省寶貴的醫療資源,以滿足人們更迫切的需要.它還可以幫助醫生在診斷中獲得第2意見,降低培養醫學專業人員的高昂成本[1].

現有的Med-VQA任務根據其答案的形式分為生成式的Med-VQA,如Yangyang Zhou等人[2]和Abhishek Thanki等人[3]的研究,以及選擇式的Med-VQA,如Fuji Ren等人[4]與Imane Allaouzi等人[5]的研究.然而,由于Med-VQA數據集較小,醫學影像特征復雜,現有的一般領域的VQA模型[6,7]難以有效地應用于醫學領域.因此,Zichao Yang等人[8]提出一種用于VQA的堆疊注意力網絡(Stacked Attention Networks,SAN),他們在存儲區域網絡使用多層注意力機制,多次查詢圖像以定位相關的視覺區域并逐步推斷答案.Jin-Hwa Kim等人[9]提出了雙線性注意力網絡(Bilinear Attention Networks,BAN),通過引入轉置矩陣,使得注意力計算同時作用于兩個模態,增強了跨模態特征融合中雙模態特征的關注力,Binh D.Nguyen等人[10]引入了元學習,通過加入噪聲干擾來強化圖像特征學習;Liming Zhan等人[1]將問題分為Closed與Opened兩大類,分別訓練兩類問題的推理網絡,取得了更好的推理效果;Haifan Gong等人[11]將圖像按身體部位分類,并在外部醫學數據集上預訓練ResNet網絡,使用多次注意力特征融合策略更好地進行特征融合;Haiwei Pan等人[12]使用多視點注意力機制與綜合損失算法使模型進行特征融合,從而更好的分析問題,提高問答的準確率.Sedigheh Eslami等人[13]在Med-VQA中引入了語言-圖像對比預訓練技術(Contrastive Language-Image Pre-Training,CLIP),在外部醫學數據的支持下預訓練了一個Med-VQA圖像編碼器,從而提升了Med-VQA模型的圖像特征提取能力.上述研究工作對Med-VQA模型做了不少改進,但都未注意到Med-VQA中不同模態醫學影像的特征差異性對模型性能的不利影響,故本文提出針對不同模態醫學影像的特征差異進行研究.

在目前的醫學視覺問答中,常見的圖像成像方式有X射線檢查(Digital Radiography,DR),電子計算機斷層掃描(Computer Tomography,CT)以及核磁共振成像(Magnetic Resonance Imaging,MRI)等.其中,X光醫學影像存在條紋狀和顆粒狀的噪聲,影響X光醫學影像的清晰度,對診斷和識別的準確性產生阻礙[14].CT對密度差異較大的組織成像效果較好,對于鈣化、骨皮質及骨折等現象更為直觀,但軟組織對比度差.且CT成像使用電離輻射,輻射劑量本質上是累積的,為了減少電離輻射的影響,現代CT掃描大都采用低劑量輻射掃描協議,低劑量掃描協議往往導致重建圖像退化與非平穩條紋偽影和噪聲增加[15].MRI圖像中軟組織對比度高,獲得的診斷信息豐富,但其空間分辨率不及CT,且掃描期間易因病人移動而產生偽影[16],MRI信號的噪聲分布是兩個獨立高斯變量平方和的平方根,其噪聲遵循固定的萊斯分布,每個體素有恒定的噪聲功率[17].傳統的算子去噪方法難以適應目前的深度學習研究,隨著卷積神經網絡技術的發展,利用卷積網絡為圖像降噪已經取得成功,如Lovedeep Gondara等人[18]與Miao Chen等人[19]的研究,通過對圖像進行多次下采樣與上采樣達到過濾噪聲的目的.

不同模態醫學影像的噪聲分布存在差異,其關鍵特征的位置、大小以及特征形狀都存在一定程度的不同.而現有的Med-VQA模型大都使用單一的特征提取網絡對復雜的醫學影像進行特征提取,這在一定程度上忽略了不同模態醫學影像的差異性特征,導致對特定模態特征提取時引入其它模態的噪聲特征,并削弱關鍵特征的注意力.進而影響跨模態醫學影像-文本特征的融合和答案推理.針對上述問題,本文提出利用模態標簽指導特定模態圖像特征提取網絡的選擇,強化模型對特定模態圖像的特征提取能力.為此,本文提出一種多模態特征提取的醫學視覺問答方法.在本文方法中:為區分不同模態的醫學影像,提出在Med-VQA模型中利用影像分類器進行模態識別,根據模態標簽指導輸入參數不共享的特征提取網絡以獲得不同模態影像的差異性特征;為對多模態的醫學影像進行降噪,提出一種面向Med-VQA的殘差卷積降噪網絡為不同模態的醫學影像進行降噪處理,給后續特征提取提供良好特征信息;為提升Med-VQA模型對多模態醫學影像關鍵特征的提取能力,提出在醫學影像特征提取網絡中引入了帶有卷積注意力模塊的殘差結構,使模型更快更準確地提取到醫學影像的圖像特征.實驗證明,本文方法有效提高了Med-VQA模型對多模態醫學影像的特征提取能力,使本文模型相比于最新的Med-VQA模型的準確率有明顯提升.

1 多模態特征提取的醫學視覺問答模型

針對不同模態醫學影像的差異性對現有Med-VQA模型特征提取性能的不利影響,本文提出一種基于多模態特征提取的醫學視覺問答模型,總體結構如圖1所示.模型首先通過對醫學影像進行模態識別,根據模態標簽指導輸入參數不共享的特征提取網絡以獲得不同模態影像的差異性特征;然后,設計了一種面向Med-VQA的卷積降噪模塊以降低不同模態特征的噪聲信息;最后,采用空間與通道注意力模塊進一步增強不同模態差異性特征的關注度.

圖1 模型總體結構圖Fig.1 Model overall structure diagram

如圖1所示,本文的VQA模型由4個功能模塊組成:問題文本編碼器,圖像編碼器,跨模態特征融合網絡以及答案預測網絡.其中,問題文本編碼器由GloVe語言模型(Global Vectors)[20]與長短期記憶網絡(Long Short-Term Memory,LSTM)[21]組成;圖像編碼器由醫學影像模態分類網絡,卷積降噪網絡,殘差網絡以及卷積注意力網絡組成.

1.1 問題文本編碼器

為了使VQA模型能夠理解醫學視覺問答中的問題文本并結合圖像進行答案推理,需要對問題文本進行編碼.首先,本文將輸入的問題文本都處理為12個詞的固定長度的句子,如果問題文本長度不足12個詞,則對其做零填充(zero-padding)處理.然后,使用GloVe語言模型基于全局詞匯共現的統計信息來學習詞向量,該方法的詞向量表示蘊含了豐富的語義信息和語法信息.據Jeffrey Pennington等人[20]的研究,GloVe語言模型在詞向量維度為300時的語義準確度,語法準確度以及總體準確度較為優秀.而由于醫學視覺問答文本中的詞匯在一般語境中出現頻率較低,為了使本文的詞向量表示盡可能多地蘊含醫學詞匯在醫學問答語境下的語義信息和語法信息,本文的詞向量是由300維的常規語料庫的GloVe詞嵌入與300維的來自SLAKE數據集訓練數據的增強GloVe詞嵌入拼接而成.其次,使用LSTM模型對問題文本的向量表示進行語義信息、語法信息以及語句結構信息的提取.LSTM模型通過引入門結構與記憶單元優化了傳統隱變量循環神經網絡(Recurrent Neural Network,RNN)的長期信息保存和短期輸入缺失問題,這使其可以更加準確與全面地捕捉到Med-VQA問題文本信息中的語義,語法以及語句結構信息.

綜上所述,問題文本經過分詞處理后,由GloVe語言模型得到詞嵌入向量表示,然后將文本向量表示輸入到1024維的LSTM模型中,由LSTM模型對文本的向量表示進行語義,語法以及語句結構信息的特征提取,最后得到一個1024維的問題文本特征表示fq.

1.2 模態分類網絡

由于不同模態醫學影像的特征存在較大差異,各自的噪聲分布情況不一,為了強化模型對特定模態影像的降噪能力以及關鍵特征的關注力,本文提出將輸入的醫學影像送入到一個模態分類網絡進行成像模式的識別,然后賦予該影像一個標簽Lv.模型會根據這個影像標簽選擇不同的特征提取網絡進行特征提取.該網絡的具體結構如圖2所示.其中,Dropout的系數為0.5.

圖2 影像分類網絡結構圖Fig.2 Image classification network structure diagram

不同的醫學影像在經過影像分類網絡分類后,會被賦予不同模態標簽Lv,然后模型會為其分配特定的特征提取網絡.該計算過程可由公式(1)~公式(3)表示:

Lv=Mv(Img),Lv[CT,DR,MRI]

(1)

Lv[CT,DR,MRI]→[wCT,wDR,wMRI]

(2)

Vx=wCTVCT+wDRVDR+wMRIVMRI

(3)

其中,Mv(Img)表示影像分類,Img表示輸入的醫學影像,VCT、VDR以及VMRI表示不同模態的特征提取網絡,Vx表示為輸入影像最終分配的特征提取網絡,wCT、wDR以及wMRI表示根據影像標簽Lv賦予的權重,該權重值為0或1,例如影像分類結果為CT影像,便將wCT置1,wDR與wMRI置0.

多模態的醫學影像在經過影像分類網絡賦予模態標簽Lv并分配對應模態的特征提取網絡Vx后,可獲得更好的特征提取效果,為后續的特征融合以及答案預測提供穩健的特征信息.

1.3 降噪網絡

由于醫學成像模式的差異,不同模態的醫學影像存在不同分布的影像噪聲,如X光影像中的條紋狀和顆粒狀的噪聲;CT影像中的偽影;MRI影像中的高斯噪聲、脈沖噪聲、瑞利噪聲和散斑噪聲等,這使得傳統的算子去噪方法難以適應目前的深度學習研究.隨著卷積神經網絡技術的發展,利用卷積網絡為圖像降噪已經取得成功.在卷積降噪網絡中,對輸入圖像進行多次下采樣與上采樣,通過權重參數的學習使模型更關注有效信息的同時忽略噪聲信息的影響,以達到對原始圖像的降噪效果.而深度卷積降噪網絡易導致Med-VQA模型梯度爆炸以及網絡退化,為了對多模態醫學影像進行降噪,本文提出一種小巧的面向Med-VQA的殘差卷積降噪神經網絡,該殘差卷積降噪網絡具體結構如圖3所示.

圖3 殘差卷積降噪網絡結構圖Fig.3 Residual convolution noise reduction network structure diagram

如圖3所示,原始圖像在降噪網絡中經過卷積與最大池化實現兩次下采樣,然后以反卷積的方式進行兩次上采樣,其中進行了兩次殘差和連接,最終達到還原特征并抑制噪聲的目的.該過程可由公式(4)~公式(6)表示:

F1=subsamp(F)

(4)

F2=upsamp(subsamp(F1))⊕F1

(5)

Fd=upsamp(F2)⊕F

(6)

其中,F表示輸入圖像,subsamp()表示一次最大池化與卷積組成的下采樣計算,upsamp()表示一次以反卷積實現的上采樣計算,⊕表示殘差和計算,F1,F2表示中間變量,Fd表示最終降噪后的圖像.

在卷積降噪網絡中,輸入圖像首先經過一次卷積后,將會做兩次下采樣.再經過一次上采樣后與第一次下采樣得到的特征F1做殘差和運算得到特征F2,F2經過一次上采樣后再進行一次卷積,然后與輸入圖像的原始特征F做一次殘差和運算得到最終完成降噪的圖像特征Fd.

1.4 殘差網絡與注意力網絡

醫學影像結構復雜,關鍵特征不明顯,傳統卷積神經網絡模型(Convolutional Neural Networks,CNN)難以有效捕獲關鍵特征信息.為了更好地學習醫學影像中的關鍵特征,受Kaiming He等人[22]與Sanghyun Woo等人[23]研究的啟發,本文在CNN模型中加入了殘差結構與CBAM(Convolutional Block Attention Module).殘差結構使得CNN在利用深層網絡提取特征的同時加快模型收斂速度,通過CBAM在通道與空間維度上運用注意力機制,使得CNN獲得更好的對醫學影像中微小病癥特征的定位識別能力,其具體結構如圖4所示.

圖4 特征提取網絡結構圖Fig.4 Feature extraction network structure diagram

本文的CNN中有4個殘差模塊,每個殘差模塊的參數設置有一定變化,如圖4中所示,C表示輸出通道數,S表示卷積核的步長,P表示邊界零填充數.經過4次殘差模塊提取特征后的原始特征將送入CBAM網絡模塊進行注意力強化.CBAM由通道注意力模塊(Channel Attention Module)與空間注意力模塊(Spatial Attention Module)組成.輸入特征F分別經過全局平均池化(global average pooling)與全局最大池化(global max pooling)后送入一個兩層的多層感知機(Multi-Layer Perceptron,MLP)得到兩個特征圖,將這兩個特征圖合并后再與F做同位元素相乘得到通道注意力特征Fc.對Fc分別做全局平均池化與全局最大池化后將兩個特征圖做通道拼接,拼接得到的特征圖經過卷積再與Fc做同位素相乘,得到空間注意力特征Fs.其計算過程可由公式(7)~公式(10)表示:

Fc=Mc(F)?F

(7)

(8)

Fs=Ms(Fc)?Fc

(9)

(10)

在圖像編碼器的最后,本文使用一個連接層將輸出維度處理為1024,最終得到圖像特征表示fv.

1.5 跨模態特征融合網絡

在本文模型中,為了實現文本特征Fq與圖像特征Fv的跨模態特征融合,本文采用了雙線性注意力網絡(Bilinear Attention Networks,BAN)[9]來進行特征融合.BAN通過引入轉置矩陣,將注意力圖(attention map)同時在兩個模態上計算,從而實現對跨模態信息的關注.如公式(11)所示:

output=Fq?billinearattentionmap?Fv

(11)

其中,對于billinearattentionmap的計算可以表示為公式(12):

A=softmax(((1·PT)?XTU)VTY)

(12)

其中,A表示billinearattentionmap,X和Y表示兩個輸入,X∈RN×ρ,Y∈RM×?,ρ和?分別表示兩個輸入的通道數.U和V是線性向量嵌入,?表示同位素乘法運算.而A中元素Ai,j的計算可表示為公式(13):

Ai,j=PT((UTXi)?(VTYj))

(13)

其中,Xi表示X的第i個通道,Yj表示Y的第j個通道,P是一個可學習的投影向量.

得到了billinearattentionmap便可以同時在兩個輸入上做注意力運算.該運算過程可以表示為公式(14):

(14)

(15)

即可將BAN運算過程表示為公式(16):

f=BAN(X,Y;A)

(16)

該BAN的網絡結構可表示為圖5.其中,Transpose為轉置運算.

圖5 BAN結構示意圖Fig.5 BAN structure diagram

問題文本特征表示fq與圖像特征表示fv被送入雙線性注意力特征融合網絡中經過運算得到一個維度為1024的聯合特征表示fa,fa將被輸入到答案預測網絡中進行答案預測.

1.6 答案預測網絡

本文Med-VQA模型的答案預測網絡為一個兩層的多層感知機,其兩層網絡之間以ReLU(Rectified Linear Unit)激活函數連接.在輸入跨模態融合特征fa后,經過模型計算得到答案預測的結果.其計算過程見公式(17)和公式(18):

H=ReLU(faWh+bh)

(17)

OUT=HWo+bo

(18)

其中,H表示隱藏層(hidden layer),ReLU(*)表示激活函數,W表示權重,h表示隱藏單元(hidden unit)數,b表示偏差參數,OUT表示輸出,o表示輸出單元數.

分類的答案集是根據SLAKE[24]數據集預先定義的答案分類,模型將選取OUT中預測得分最高的答案作為問題的回答.

2 實驗與結果分析

2.1 實驗數據集

目前公開可用的Med-VQA數據集有SLAKE[24],VQA-RAD[25],RadVisDial[26],PathVQA[27]數據集,但只有VQA-RAD與SLAKE數據集是由專業的醫療從業人員人工標注并校對.最新發布的SLAEK數據集是目前Med-VQA研究領域中經由專業人員人工標注的最大的公共數據集.故本文的模型選擇在SLAEK數據集上進行評估.該數據集為中英雙語數據集,本文選取了其中的英文子集進行試驗,其包括642張圖像和7000多個問答對.這些圖像由3種成像方式(CT,MIR,DR)生成,均經過了專業的人工注釋,其中包括12種疾病和39種器官,這些疾病主要包括癌癥(如腦、肝、腎、肺癌等)和胸部疾病(如肺不張、積液、腫塊、氣胸等).這些圖像由282張CT,181張MRI和179張DR組成,其中包括了140個頭部CT或MRI,41個頸部CT,219個肺部DR或CT,201個腹部CT或MRI,以及41個盆腔CT.為了方便比較,本文的訓練,驗證和測試數據集均使用該數據集的原始劃分.

2.2 模型實驗設置

本文的模型使用Python語言在Pytorch框架下進行實現,實驗的硬件環境為GPU NVIDIA TITAN Xp單個GPU,Intel Corei7處理器.模型訓練過程中使用了學習率衰減算法,并采用了Adamax優化器.經多次調整,模型最終的超參數設置如表1所示.

表1 超參數設置表Table 1 Hyperparameter setting table

在訓練過程中,模型的損失函數設置為交叉熵損失(Cross Entropy Loss)函數,其計算過程如公式(19)所示:

(19)

2.3 評價指標

在目前的Med-VQA研究中,最重要的也是唯一的評價指標為模型回答問題的準確率,這是Med-VQA模型的主流評價標準.本文模型同樣使用準確率指標作為模型評價標準,其計算過程如公式(20)所示:

(20)

其中,Sc表示正確回答問題的數量,Sall表示問題的總數.

為了更好的衡量Med-VQA模型對多種問題的魯棒性,在評價Med-VQA模型的準確率時,通常會從3個角度進行分析,即總體準確率(Overall),開放性問題準確率(Open),以及封閉性問題準確率(Closed).其中,Open被定義沒有固定答案的問題類型,即答案的類型隨問題的改變而改變,而Closed被定義為固定答案的問題類型,即不論問題如何改變,答案類型始終不變,如Yes/No.而之前研究表明,Open類型的問題相較于Closed類型的問往往需要更多,更精細的特征信息.

2.4 模型訓練過程

由于Med-VQA數據集的數據量較小,而遷移學習可以優化醫學影像分析領域的小數據集問題[28],因此,本文對圖像編碼器中的影像模態分類網絡與殘差網絡進行了預訓練,其中模態分類網絡使用了VQA-RAD數據集與SLAKE數據集的訓練集圖片數據進行訓練,本文將圖像按其成像方式賦予標簽,然后對模態分類網絡進行訓練,設置迭代次數(epochs)為20次,在圖像分類準確率達最高時凍結模型參數并保存.對于3個殘差網絡,本文為其加載ImageNet預訓練參數后在SLAKE數據集上分別只使用單一模態的圖像進行問答訓練,其中CT、MIR、DR類型的問答訓練epochs分別為120、80、80,同樣在模型準確率最高時凍結模型參數并保存.模型在最終訓練時,將先加載影像模態分類網絡與殘差網絡的預訓練參數,訓練的epochs被設置為80.

2.5 模型對比與分析

本文選取了同樣在SLEAK數據集上以相同評價標準評估的現有主流的Med-VQA模型進行對比.本文模型與這些對比模型均采用LSTM作為文本編碼器,VGG+SAN[24]使用了VGG特征提取網絡作為圖像編碼器,采用SAN進行跨模態特征融合.VGGseg+SAN[24]則是對其中的VGG特征提取網絡進行了預訓練.MEVF[10]在圖像編碼器中引入了編碼解碼器和元學習思想,通過外部醫學數據的支持,在訓練過程中迭代訓練圖像編碼器,訓練模型學習圖像的關鍵元數據.PubMedCLIP[13]在圖像編碼器中引入了對比語言-圖像預訓練思想,在ROCO數據集[29]上使用醫學圖像及其對應的文本描述通過語言-圖像對比訓練的方法對圖像編碼器進行預訓練.其中,MEVF和PubMedCLIP均使用BAN進行跨模態特征融合,PubMedCLIP與本文同使用殘差網絡.雖然MEVF,PubMedCLIP以及VGGseg的圖像特征網絡與本文同樣的均經過了預訓練,但值得注意的是,MEVF和PubMedCLIP均使用了大量的外部醫學數據來進行預訓練,MEVF使用了11779張未標記的醫學影像訓練圖像編碼器和解碼器,PubMedCLIP使用了ROCO數據集中包含的超過80000份圖像字幕對來訓練圖像編碼器,而本文的特征提取網絡模型與VGGseg+SAN一樣,只在SKLAKE數據集中的642張問答圖像上進行了預訓練,大大減少了訓練所需的數據量.對比實驗結果如表2所示.

表2 不同Med-VQA模型準確率對比表Table 2 Accuracy comparison table of different Med-VQA models

其中,CDN表示本文模型在其他條件不變下采用傳統降噪方法進行降噪.

如表2所示,在Med-VQA中,相較于沒有經過預訓練的VGG+SAN,對練特征提取網絡進行預訓練可以顯著提升模型的圖像特征提取能力,提高模型的回答準確率.MEVF通過元學習迭代訓練,使模型對圖像關鍵特征的學習能力增強,但缺乏了對特征的廣度包容性.PubMedCLIP利用了大規模外部數據進行預訓練,提升了模型廣泛的特征提取能力,但同時也引入了與醫學視覺問答無關的噪聲信息.而本文模型,通過區分不同模態的醫學影像,為其預訓練特定的注意力特征提取網絡,使其獲得更好的針對多模態醫學影像的深度特征提取能力,同時因對模態做了區分并針對不同模態的圖像進行了降噪,有效抑制了噪聲信息的干擾,從而提高了模型的準確率.

在多模態醫學圖像降噪方法上,與傳統降噪方法[18]相比,本文提出的殘差卷積降噪網絡通過加入殘差計算和反卷積上采樣的方法有效抑制了圖像中噪聲信息對特征提取的影響,提升了模型對關鍵特征的關注力,提高了模型問答的準確率.為了驗證殘差連接與反卷積在面向Med-VQA的卷積降噪網絡上的有效性,本文分別進行了實驗,實驗結果如表3所示.

表3 降噪網絡消融實驗結果對比表Table 3 Comparison table of experimental results of denoising network ablation

其中,CDN表示使用傳統的插值上采樣降噪網絡,CDN_R表示在傳統的插值上采樣降噪網絡中加入殘差結構,CDN_D表示用反卷積上采樣代替插值上采樣.

如表3所示,在卷積降噪網絡中加入殘差結構可明顯提升模型的準確率,而使用反卷積上采樣代替傳統的插值上采樣造成了準確率的下降.這應是由于反卷積層的加入,使模型的深度加深,導致了模型的訓練難度加大,更難擬合.在最終模型中,雖然采用了反卷積的上采樣代替了插值上采樣,但是由于加入了殘差結構,其在一定程度上可以緩解深度網絡的難以擬合問題,并充分發揮由反卷積層的帶來的深度優勢,使得模型準確率獲得明顯提升.

在圖像特征提取注意力增強方法上,本文利用CBAM注意力機制增強了模型在通道上以及空間上的特征關注力,并進行了不同注意力模型的對比試驗,試驗結果如表4所示.

表4 不同注意力模型實驗結果對比表Table 4 Comparison table of experimental results of different attention models

其中,None表示本文模型在其他條件不變下不使用注意力模型,SEnet表示使用Squeeze-and-Excitation Networks[30]注意力模型,SKnet表示使用Selective Kernel Networks[31]注意力模型.

實驗證明在面向Med-VQA的多模態特征提取網絡中加入注意力模型可以有效提高VQA模型對醫學特征的提取能力.SEnet通過在通道上對特征信息進行Squeeze和Excitation操作來學習每個通道的重要程度,然后據此提升與當前任務關聯較強的特征并抑制關聯較弱的特征.SKnet通過Split、Fuse以及Select運算實現了讓模型根據不同的輸入信息自適應地選擇不同的卷積核感受野,增強了模型對不同特征信息的關注力.如表4所示,在Med-VQA模型中加入SEnet可明顯提高Closed類型的問答準確率,而SKnet則對Open類型的問答有明顯的提升,但他們都缺少了對特征信息中空間信息的注意力.本文采用CBAM同時進行通道注意力與空間注意力的計算,這使Med-VQA模型獲得了更強的針對當前任務的特征提取能力,在兩類問答中取得了更高的回答正確率.

2.6 方法有效性分析

為了驗證本文提出方法以及各個模塊的有效性,本文在SLEAK數據集上進行了一系列的消融實驗,實驗結果如表5所示.

表5 消融實驗結果對比表Table 5 Ablation experiment results comparison table

其中,Resnet表示使用原始Resnet提取醫學影像的特征的基礎模型,amResnet表示具有CBAM的殘差網絡結構,CD_amResnet表示在amResnet上加入殘差卷積降噪網絡,MG_amResnet表示在amResnet上加入模態標簽指導輸入參數不共享的特征提取網絡.

如表5所示,Resnet為基礎模型,其使用原始Resnet作為圖像特征提取網絡,利用LSTM進行文本特征提取,并采用BAN作為跨模態特征提取網絡.通過amResnet可以看到,利用CBAM在通道維度與空間維度上使用注意力機制可有效提升特征提取網絡對通道以及空間維度上特征的關注力,從而提高模型對的醫學影像特征的提取能力.通過CD_amResnet可以看到,在模型中加入殘差卷積降噪網絡對圖片噪聲信息進行抑制,可顯著提升模型對醫學影像中噪聲信息的抗干擾能力,增強模型關鍵特征的提取能力.通過MG_amResnet可以看到,對多模態醫學影像進行模態識別從而獲得模態標簽,并以模態標簽指導選擇特定的特征提取網絡,可有效抑制多模態特征信息之間的干擾,增強對特定模態圖像特征的提取能力.而通過對上訴模塊的綜合使用,使得本文的Med-VQA模型同時獲得了對多模態醫學影像中關鍵特征的較高的關注力與對多模態醫學影像中噪聲信息以及多模態圖像之間信息干擾的抑制能力,這使本文模型達到了一個較高的,優于目前主流模型的回答準確率.

3 結 論

本文對Med-VQA研究中的醫學影像特征提取方法進行了探索研究,為了對多模態的醫學影像特征信息實現更好的特征提取效果,本文提出一種基于多模態特征提取的醫學視覺問答模型.該模型使用影像分類器對醫學影像進行模態分類,使用殘差卷積降噪網絡對不同模態的醫學影像進行降噪,利用殘差網絡與卷積注意力網絡對不同模態的醫學影像進行特征提取.本文的方法有效提高了醫學視覺問答準確率,為Med-VQA的研究工作提供了思想啟發.隨著Med-VQA研究的不斷進展,Med-VQA模型的可解釋性越來越引起人們的關注,因其在將來的臨床應用上有著迫切的需要,故本文的下一步工作將圍繞Med-VQA模型的推理能力以及模型的可解釋性等方面進行研究.

猜你喜歡
醫學影像特征提取殘差
基于雙向GRU與殘差擬合的車輛跟馳建模
醫學影像技術在醫學影像診斷中的合理運用
《當代醫學影像誤診學》出版
《當代醫學影像誤診學》正式出版
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
平穩自相關過程的殘差累積和控制圖
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合