?

深度學習的舌體分割研究綜述

2021-12-13 12:54劉慧琳羅堅義
計算機與生活 2021年12期
關鍵詞:卷積語義像素

劉慧琳,馮 躍+,徐 紅,2,羅堅義

1.五邑大學 智能制造學部,廣東 江門 529020

2.維多利亞大學,澳大利亞 墨爾本 8001

3.五邑大學 應用物理與材料科學學院 柔性傳感材料與器件研究開發中心,廣東 江門 529020

4.廣東天物新材料科技有限公司五邑大學柔性傳感技術聯合實驗室,廣州 511483

隨著人工智能技術的不斷發展,研究人員越來越多地利用深度學習網絡來設計醫療診斷的輔助系統[1]。在中醫診斷中,舌診是一種重要的方法,其涉及到對舌體的顏色、形體、舌苔等舌象特征的觀察。例如,HIV 感染者的舌體可能會出現腫脹和齒痕[2]。但是在研究實現智能醫學診斷的客觀定量化過程中,采集到的圖像往往是含有舌體區域的人臉圖像。因此需要對其進行預處理,去除背景區域(如人臉、嘴唇和牙齒等),進而獲得舌體區域。舌體圖像分割是舌體診斷對象化的基礎,其準確性會直接影響智能舌診系統的分析結果[3]。

研究人員提出了許多方法來實現準確的舌頭分割,包括基于邊緣信息的分割[4]、基于閾值的分割[5]、區域生長[6]、基于主動輪廓的分割[7-8]以及基于聚類的分割[9]。然而,大部分傳統分割方法依賴手工,耗時耗力,易受主觀影響,分割效率是有限的[10]。此外,由于患者的舌頭特征復雜,形狀多變,而與其他區域的嘴唇又很相似,要達到目標的分割精度是很困難的。

如今,深度學習的發展尤為先進,在醫學圖像信息提取和病理圖像分割檢測領域中發揮著日益重要的作用[11-12]。深度學習網絡已產生了新一代性能卓越的圖像分割模型,從而使該領域發生了范式轉變[13]?;谏疃葘W習的圖像分割方法可以通過模擬人腦的層次結構傳遞信息[14],實現了從像素級數據到抽象語義特征的轉換。隨著計算機輔助診斷在臨床診斷領域的應用,國內外不少學者開展其相關研究以及舌診客觀定量化的探索。

深度學習在提取圖像特征方面取得較好的成果,因此一些基于深度學習的方法被應用于舌診客觀化研究。如圖1 所示,分析統計目前已有的舌診研究文獻發現,每年發表的文章數量都在增加,但增加速度緩慢[15-16]。近年來,隨著深度學習的快速發展,基于傳統方法進行舌體分割的文章較少,但基于深度學習的舌體分割論文數量卻在增加[17],見圖2。與傳統方法相比,深度學習具有以下三個優點:(1)在計算機視覺中識別率可以達到最高;(2)可以充分利用大型數據集進行自動特征學習;(3)可以最大限度地實現特征表示和分類器性能的聯合優化。

Fig.1 Growth of objective study on tongue diagnosis圖1 舌診客觀化文章數量的變化趨勢

Fig.2 Trend of professional attention on tongue segmentation圖2 舌體分割的研究趨勢

1 基于深度學習的舌體分割方法

1.1 卷積神經網絡

卷積神經網絡(convolutional neural network,CNN)是深度學習中應用最廣泛的架構之一,特別是在計算機視覺任務中。CNN 可以通過卷積和池化操作,自動學習圖像各層次的特征。其主要優勢是所有的感受野都有相應的權重。因此,與全連接神經網絡相比,CNN 需要的參數較少。由于卷積神經網絡最早被用于手寫數字識別[18]和圖像分類[19],在計算機視覺領域中得到了廣泛的應用。

CNN 主要由三類層組成:(1)卷積層。應用于降維和特征提取。卷積運算含有激活函數(如sigmoid、tanh 和ReLU)用于數據擬合。(2)池化層。一般指均值或最大池化操作,用統計信息代替特征值,降低空間分辨率。(3)全連接層。在CNN 中作為分類器使用,其通過權重矩陣組將所有的局部特征組合成一個完整的結果圖。如圖3 所示。在網絡的前半部分,卷積層的感受野較小,用于捕捉圖像的局部細節。隨著感受野數量的增加,圖像信息變得更加復雜和抽象。通過多層卷積運算,得到不同尺度的抽象表示。一些最著名的CNN 架構包括:AlexNet[19]、VGGNet[20]、ResNet[21]和DenseNet[22]。Lin 等人[23]設計了一個結合Res-50 和DeepMask[24]的舌體分割網絡。以50 層的ResNet 為骨干網絡,可以獲得更高的分類精度和更低的訓練誤差。Li 等人[25]設計了一個增強的HSV 卷積神經網絡預測舌體輪廓。然而,該網絡需要一些額外的預處理,如亮度識別和圖像增強,這使得整個分割過程變得復雜。Cai等人[26]提出了一種新型的輔助損失函數,該函數與CNN 相結合,利用大量數據學習來建立端到端的分割模型。

然而CNN 有如下一些明顯的缺點。在訓練過程中,每個像素需要遍歷提取補丁,因此其速度太慢,而且很難決定通道大小。如果太小會缺乏上下文信息,反之如果太大會導致大量的冗余計算。因此,一些研究者對其進行了改進,充分利用空間信息,如空間包含關系等,可作為圖像分割的先驗輔助知識加以應用[27]。

級聯結構可以在處理階段劃分子區域,也可以在細化階段剔除假陽性結果。陽性像素樣本(舌體)和陰性像素樣本(背景區域)之間的不平衡可能導致訓練模型產生預測偏差。利用子區域層次結構保持高召回率,級聯結構可過濾篩選大量的背景區域。Yuan 等人[28]設計了三個級聯CNN 用于舌體檢測分割,每個階段都有不同的任務。第一階段是獲取候選的舌體區域。下一階段是選擇最終的候選者,用邊界回歸進行校準,并預測34 個坐標。最后一個階段是對這些坐標進行細化,得到分割后的結果。

級聯結構大大降低了標簽的工作量,并為訓練過程提供了足夠的監督能力。雖然訓練多個子網絡比訓練單一的端到端網絡更困難,計算量較大,時間消耗大,但級聯網絡考慮到了子區域的空間關系。該結構不僅大大提高了效率,而且提高了準確性。

1.2 全卷積網絡

Fig.3 Architecture of convolutional neural network圖3 卷積神經網絡結構

Fig.4 Network structure of FCN-8S圖4 FCN-8S 網絡結構

端到端和像素到像素的卷積神經網絡被證明優于當時最先進的語義分割方法。全卷積網絡(fully convolutional network,FCN)[29]用卷積操作代替了傳統的全連接操作,其架構交替使用多層普通卷積和池化操作。最后實現了兩種轉換:分類網絡向分割網絡的轉換和圖像級分類向像素級分類的轉換。FCN 可以解決全連接層中輸入圖像的大小必須固定的問題(即可以處理任何大小的輸入圖像)。反卷積層有利于完善輸出結果。跳躍連接與不同深度層的結果相結合,可以達到更好的魯棒性和準確性。Li等人[30]提出了基于FCN 的分割模型,結合深層語義信息和淺層外觀信息進行舌體區域的語義分割。Wang 等人[31]采用了FCN 來處理舌部輪廓模糊和周圍組織顏色相近的問題,從而為后續的舌部分析和辯證診斷獲得更好的分割結果。Xue 等人[32]將FCN-8S應用于舌體圖像分割,其網絡結構如圖4 所示。由于一系列卷積和池化操作,圖像越小,分辨率越低。為了在像素級對圖像進行分類,FCN 對第五卷積層的輸出進行32×上采樣,以恢復掩膜的大小。但由于損失了一些細節,原始結果不夠準確。因此,第四層和第五層的輸出采用了2 倍和4 倍兩種尺度的上采樣操作,將其融合在第三層的特征圖。最后,上采樣操作產生的特征圖與輸入圖像的大小相同。

這項工作被認為是圖像分割的一個里程碑,表明可以進行端到端圖像語義分割的深度學習網絡。然而FCN 也有一些局限性。上采樣操作的結果是模糊的,對圖像中的小細節不敏感,這限制了該模型在醫學圖像分析中的性能。由于速度較慢,不能實時分割對象。此外FCN 也不能有效利用全局上下文信息,不易轉換為三維模型。

1.3 卷積模型與圖形模型

FCN 忽略了潛在有用的上下文語義信息。為了獲得融合更多的上下文信息,一些概率圖模型如條件隨機場(conditional random field,CRF)和馬爾科夫隨機場(Markov random field,MRF)被利用到深度學習架構中。

傳統的CRF 通常用于平滑噪聲,通過連接相鄰節點、空間上相鄰的像素獲得相同的標簽[33]。深度卷積神經網絡(deep convolutional neural network,DCNN)獲得的邊緣是平滑的,因此傳統的CRF 在這種情況下不適用[34]。而且DCNN 最后一層的響應不足以進行精確的物體分割。為了得到物體清晰精確的邊緣,而不是進一步平滑邊緣,Chen 等人[35]提出了一種基于CNN 和全連接CRF組合的語義分割算法,如圖5所示。其證明了與之前的其他方法相比,該模型結構能夠以更高的精度定位邊界。在研究舌體分割的領域,張新峰等人[36]采用了DCNN 和全連接CRF 以完善分割的舌體邊緣精度。卷積神經網絡和概率圖形模型的互相結合能夠細化分割結果,但單一的卷積神經網絡會有高級特征的平移不變性,即重復的池化和下采樣操作會丟失關鍵位置信息,因此后來的研究人員改進卷積神經網絡的池化操作,以獲取更多的上下文信息。

Fig.5 DCNN+CRF model圖5 DCNN+CRF 模型

1.4 基于編解碼器的模型

1.4.1 SegNet

Badrinarayanan 等人[37]提出了一種用于圖像分割的深度卷積編解碼器架構,名為SegNet。SegNet 是一個對稱網絡,包括一個編碼器網絡和一個解碼器網絡,如圖6所示。編碼器網絡包括前13層VGG16[20]并不包括全連接層。因此,它可以保留高分辨率的特征圖,減少編碼器網絡的參數。此外,歸一化層、激活層和池化層依次連接到每個卷積層。每個編碼器塊由兩個連續的3×3 卷積層和一個最大池化層組成。每一個卷積層之后都有一個批量歸一化層和一個ReLU 層。解碼器網絡由上采樣層和卷積層組成,其中上采樣層和池化層相互對應。得到每個像素的分類概率,實現語義分割。SegNet的新穎之處在于解碼網絡應用上采樣層來恢復低分辨率的輸入特征圖。

Fig.6 Architecture of SegNet圖6 SegNet網絡結構

Qu 等人[38]將亮度統計與SegNet結合起來進行舌體圖像分割。亮度統計作為預處理來判斷輸入圖像是否要分割。訓練圖像的像素分為兩類:舌體區域和背景。采用編碼器網絡提取特征,再利用解碼器網絡對上采樣層的圖像信息進行豐富,從而獲得池化過程中丟失的信息。

SegNet 不需要保留編碼器網絡的特征圖,以節省內存空間。解碼器網絡采用上采樣層,而不是解卷積層,實現非線性上采樣。此外,SegNet 只有較少的可訓練參數,速度較快。SegNet 雖然在精確度上沒有明顯的提升,但注重于節省內存空間,為了后續設計效率更高的實時分割網絡提供了思路基礎。

1.4.2 U-Net

一些模型最初是為生物醫學圖像分割而設計的,它們的靈感來自于FCN 和編解碼器模型。Ronneberger等人[39]提出了一種用于生物顯微鏡圖像分割的U-Net,如圖7 所示。U-Net 有效提高了上下文信息的利用率。同時,它只需要少量的樣本,在醫學圖像領域得到了廣泛的應用。其訓練策略依賴于數據增強,可以更有效地從現有的注釋圖像中學習。它的整體結構也由兩部分組成:用于捕捉上下文信息的收縮路徑(編碼網絡)和用于精確定位的擴展路徑(解碼網絡)。編碼網絡應用卷積和最大池化來實現特征提取。下采樣部分采用類似FCN 的結構,逐漸增加特征通道。解碼網絡與編碼器網絡相同,只是使用了轉置卷積層而不是池化層。特征圖從下采樣部分復制拼接到上采樣部分,以防止丟失模式信息。此外,網絡通過解卷積獲得了豐富的細節信息。在增加特征圖大小的同時,減少了特征圖的數量。這種結構有利于在上采樣過程中向高分辨率層發送信息。1×1 卷積層對特征圖進行處理,得到預測圖像。

Fig.7 Architecture of U-Net圖7 U-Net網絡結構

相較于SegNet,U-Net 需要更多的內存,單一的卷積核尺寸局限了分割目標的精確度。Xu 等人[40]利用U-Net 獲取舌體圖像特征,從而為后續舌象分類提供準確的分割結果。Trajanovski 等人[41]結合顏色空間與U-Net 對舌體病癥進行語義分割。Li 等人[42]結合U-Net 和轉移學習(在1.7 節中詳細描述),設計了一個名為迭代跨域舌體分割的框架。U-Net 用于獲取不同數據集的原始掩碼和共享權重,以便將共享權重傳輸到下一階段。由于經典的U-Net 會產生一個帶有噪聲的粗糙預測結果,Zhou 等人[43]設計了一個形態層來完善預測結果,證明了所提出的網絡不僅可以得到更快、更準確的結果,而且可以應對舌體的特征不同的挑戰。

1.4.3 高分辨率模型

語義分割方法中,對輸入的原始圖像進行了大小調整,影響了對象邊緣的精度。為了解決這個問題,Yuan 等人[44]提出了高分辨率網絡(high resolution network,HRNet),如圖8 所示,它不僅有SegNet 和UNet 相似的架構,而且還保持了高分辨率的輸入處理。HRNet 在編碼過程中通過將高低分辨率卷積流并行連接,并在不同分辨率之間反復交換信息,從而擁有了表征[44]。

Fig.8 Architecture of high-resolution network圖8 高分辨率網絡結構

為了解決舌體邊緣的信息丟失問題,馬龍祥等人[45]采用了HRNet 來實現準確的舌體圖像分割。多尺度融合用于不同分辨率的特征圖,以增強高分辨率的表現力[46]。它可以避免特征信息因上采樣和下采樣層而丟失。該網絡有四個不同的通道,其輸出的特征圖可以保持原始圖像的大小。同時,該網絡在三個低分辨率通道上應用雙線性插值(上采樣方法之一)。最后,將不同通道生成的特征圖進行疊加,得到高分辨率特征圖。HRNet 是并行連接,不同分辨率的特征圖有不同的語義分割影響效果。該網絡采用高分辨率圖像作為輸入,彌補一系列的卷積池化操作后的信息丟失,因此過低的分辨率會影響關鍵點的預測質量。

1.5 基于區域卷積網絡的模型

實例分割在圖像處理領域也得到了廣泛的應用,它同時執行對象檢測和語義分割。區域卷積網絡(regional convolutional network,R-CNN)[47]及其延伸部分(Fast R-CNN[48]、Faster R-CNN[49]和Mask RCNN[50])在物體檢測應用中已被證明是成功的。Mask R-CNN 采用FCN 作為分割分支,實現物體檢測、物體分類與識別、像素級物體分割,其結構如圖9所示。Mask R-CNN 本質上是Faster R-CNN,有三個輸出分支:第一個預測邊界框坐標;第二個計算相關的類;第三個獲取二進制掩碼來分割對象。在架構中,Mask R-CNN 使用RoIAlign 層代替Faster R-CNN中原有的RoIPool層是一個亮點。RoIAlign 是一個無量化的層,它可以忠實地保存精確的空間位置,相對提高掩膜精度10 個百分點~50 個百分點[50]。

對于每一個感興趣區域來說,只是針對一個類別一個物體。FCN 要考慮多個類別之間的競爭,而Mask R-CNN 里的二進制掩膜僅僅關注分割一個類別的物體。將預測區域進行對象分類和邊界框回歸從而使分割模型達到了最高的準確率,但因實例分割同時執行對象檢測和語義分割,所以運行速度通常比較慢,會使語義分割過程更加復雜。

Fig.9 Architecture of Mask R-CNN圖9 Mask R-CNN 網絡結構

Gholami 等人[51]利用R-CNN 將舌體區域從面部圖像中分離出來,進而為后續的舌象分類提供圖像。Zhou 等人[52]在預測階段采用RoIAlign 修正錯誤的舌體區域。在找到舌體區域后,分別采用定位分支和掩膜分支進行舌體定位和舌模分割。顏建軍等人[53]應用Mask R-CNN 進行舌體分割,并評估網絡的效果。

1.6 擴張卷積模型和DeepLab 系列

1.6.1 空洞空間卷積池化金字塔

在語義分割和對象檢測中,深度卷積層在提取圖像特征表示方面是有效的。但是,經過反復卷積和池化后,網絡的特征圖會逐漸縮小,丟失更多的邊界信息,不利于獲得更平滑的舌邊。為了克服這一局限性,采用不規則卷積進行密集分割[35]。在卷積和池化操作中要避免將特征圖縮小得過小,盡可能保留更多的舌體邊界和語義信息。

DCNN 中通常采用固定大小的卷積核,如3×3 或5×5。網絡可以通過連續的卷積操作來提取深層特征,但固定大小的卷積操作只能提取單一大小的特征,因此不能提取多尺度的特征。

在數學定義上,二維信號中的空洞卷積計算如下:

其中,輸入的特征圖x和濾波器w的卷積產生輸出y,r是空洞率,用于定義內核w的權值的間距。

如圖10 所示,一個3×3 的卷積,其空洞率為2,擁有與5×5 卷積相同大小的感受野。同時,其參數量僅有9 個。

Fig.10 3×3 convolution operation with three different atrous rates圖10 三個不同空洞率的3×3 卷積操作過程

一個空洞卷積可以通過設置不同的空洞率來改變感受野的大小。串行結構的空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)增強了網絡在多尺度下多類別分割時的魯棒性,使用不同的采樣比例與感受野提取輸入特征,能在多個尺度上捕獲目標與上下文信息,雖然大大擴展了卷積核的感受野,但隨著感受野越來越接近圖像大小,會退化為1×1 卷積。因此一般采用并行結構的ASPP,通過不同采樣率的空洞卷積并行采樣,捕捉圖像不同尺度的上下文信息。

Zhou 等人[52]改進了ASPP,然后從舌體圖像中獲得多尺度特征。并行ASPP 將四個不同的卷積層平行排列,從多個感受野中提取多尺度特征。張新峰等人[36]利用其優勢進行多尺度特征提取。對處理舌體樣本缺乏的問題很有用。

1.6.2 DeepLab 家族

Chen 等人設計了DeepLabv1[54]和DeepLabv2[35]用于圖像分割,其后者有三個關鍵特征:(1)使用空洞卷積解決網絡中的分辨率下降(由最大池化操作和步長引起);(2)ASPP,它可以獲得圖像上下文信息并分割對象;(3)通過結合深度CNN 和概率圖模型,提高物體邊界的定位能力。同年,Chen 等人[55]設計了DeepLabv3+結合級聯和并行模塊的卷積,在ASPP 中應用了1×1 卷積和批量歸一化。此外,所有的輸出都通過一個1×1 卷積得到最終的輸出。Xue 等人[32]在舌體數據集上測試了DeepLabv3,其結構如圖11 所示,并希望將信息損失降到最低,因此將DeepLabv3 和learning based matting[56]結合起來以優化結果。

1.7 遷移學習

深度學習需要大量的數據,這樣可以利用數據增強來改善這一問題。為了進一步提高網絡的準確性,可以將轉移學習應用于舌體圖像分割,從預先訓練的模型中提取網絡權重的主要特征。另外,轉移學習可以避免網絡過擬合,加快訓練速度。轉移學習有兩種策略:第一種是微調,第二種是凍結與訓練。微調使用原有數據集的預訓練模型,并訓練目標數據集的所有層,它適用于訓練一個較大的數據集。凍結與訓練是凍結除用于分類的全連接層以外的所有層(它們的權重不更新),然后訓練最后一層。此外,它還可以凍結前幾層,然后對其余層進行微調。它適用于少數數據集。遷移學習一般適用于兩個數據分布較為相似的數據集訓練。

盧運西等人[57]利用ImageNet 數據集的預訓練模型來初始化網絡的權重。該方法訓練了舌體數據集中的所有層,使各個網絡更好地應用于舌體圖像分割。當損失曲線和分割精度曲線變得穩定時,網絡停止訓練。

Li 等人[42]根據目標數據集的U-Net 預測掩碼選擇滿意的樣本,如圖12 所示。對所選樣本進行分割模型的微調,在過濾和微調步驟之間進行迭代,直到模型收斂。

Fig.11 DeepLabv3 for tongue segmentation圖11 DeepLabv3 用于舌頭分割

Fig.12 Combination of U-Net and transfer learning for segmentation圖12 U-Net與遷移學習的分割模型

1.8 其他方法

除了上述方法外,還有其他幾種流行的深度學習架構用于舌體分割,如人臉解析等[58-61]。該網絡對人臉圖像中的每個像素分配一個語義標簽,由于其巨大的應用潛力,近來引起了越來越多的關注[62]。然而,面部解析通常用于對頭發、面部、眼睛、眉毛、鼻子和嘴進行分割。它并未包括舌體分割。TCMINet[63]是一個具有上下文聚合功能的端到端混合網絡,可同時對中醫分析的面部器官進行分割。它可以對舌、眼、耳和唇部等面部器官進行檢測和分割。此外,一些研究者不再基于經典的編解碼器結構(如UNet)設計其分割網絡。

邵尤偉[64]設計出一個包含編碼和解碼兩個部分的語義分割網絡,融合低層和高層特征,其網絡參數相對于普通的卷積網絡所需更少。Zeng 等人[65]提出了一種新型的端到端邊界引導分層網絡,并提出了一種新的混合損失函數。在編碼網絡中,建立了上下文特征編碼器模塊,以應對感受野的收縮缺點。解碼網絡應用了一種新型的分層遞歸特征融合模塊。在此基礎上,通過整合局部上下文信息,逐步分層細化對象圖,恢復圖像細節。此外,混合損失函數采用像素、補丁、地圖和邊界四級層次結構設計。它可以引導網絡有效分割舌體區域,準確細化舌體邊界。李淵彤等人[66]也設計了一種基于區域像素相關性的單像素損失函數,并將其應用于深度語義分割模型,從而有效利用像素標簽語義的監督信息,更好地指導模型進行訓練學習。

除此之外,Yang 等人[67]提出了一種端到端的無監督的舌體分割方法,使用基于對抗性的參考標簽。再利用輸入對象掩碼和噪聲,使用生成網絡來重繪分割區域。最后,分割網絡和生成網絡由一個判別器和參考標簽控制,以完善具有最佳性能的分割網絡。Zhou 等人[68]提出了一個重建增強型概率模型,用于半監督下的舌頭分割,其中圖像重建約束與對抗性學習相結合,用于提高舌頭分割的準確性。

綜上所述,基于卷積神經網絡的模型最近已經成為圖像處理中的一種流行方法。卷積操作可以有效提取低維或高維的特征,不同的網絡有各自的優勢和弱點。表1總結了基于深度學習的舌體分割方法。

Table 1 Comparison of deep learning-based methods for tongue segmentation表1 基于深度學習的舌體分割方法比較

2 常用數據集和評價指標

介紹基于深度學習的舌體分割方法常用的數據集以及評價指標。

2.1 常用數據集

對于醫學舌體分割來說,由于各種原因如標記成本和患者隱私,現有的公共數據集很少。這些數據集的舌體圖像一般是在封閉環境下采集的。公開BioHit 數據集[69]是一個包含300 張圖片的舌體數據集,尺寸大小為768×576 像素,如圖13 所示。大多數研究者使用的是自建數據庫,其數據庫從各醫院和互聯網上收集并經由專業人員注釋,如圖14 所示。在訓練深度學習模型的過程中,訓練樣本的數量對分割模型的性能有直接影響。如果樣本數量較少,會導致模型過擬合,因此使用數據增強可減少出現這種情況。數據增強是一種數據擴充的方法,通過對原始數據集進行不同的改變,包括旋轉、翻轉、裁剪和鏡像,從而增加數據樣本的數量。數據增強后的舌體圖像及其標簽作為輸入圖像輸入深度學習網絡。

Fig.13 Some samples from BioHit tongue dataset圖13 BioHit數據集中的部分舌體圖像

Fig.14 Some samples from self-built tongue dataset圖14 自建數據集中的部分舌體圖像

2.2 常用評價指標

評估舌體圖像分割模型的性能主要有六個不同的評價指標,通過計算出的真陽性(true positives,TP)、假陽性(false positives,FP)、假陰性(false negatives,FN)和真陰性(true negatives,TN)來表示。TP表示被正確標記為陽性的像素的集合,FP表示被錯誤標記為陽性的像素的集合,FN表示被錯誤標注為陰性的像素的集合,TN表示正確標注為負值的像素集合。

準確度(Accuracy)是指所有正向像素在所有像素中的比例,可以衡量分割法對正向像素的識別能力,其由式(2)進行計算:

敏感度(Sensitivity)表示TP和FN中TP的比例,可以衡量分割法對正向像素的識別能力。靈敏度由式(3)進行計算:

特異性(Specificity)是指在所有負值像素中正確標注的像素所占的比例,能夠衡量分割方法對負像素的識別能力。具體計算方法如式(4):

精確度(Precision)是圖像分割精確性的度量參數,用于判斷模型對正像素的預測能力,精度值由式(5)進行計算:

Jaccard 相似系數(Jaccard)是集合A和集合B之間的交點和它們之間的結合的比值,其中A表示一個正像素,B表示一個負像素。該系數可由式(6)進行計算:

骰子系數(Dice)表示圖像中兩個目標形狀之間的交集面積與總面積的比值,該系數在[0,1]范圍內取實值,1 表示完美分割,0 表示不存在重疊。Dice 系數的計算公式為:

3 基于深度學習的舌體分割方法性能比較

本文主要對比經典網絡與其變形結構網絡方法,其實驗數據集的選取由于舌體圖像的顏色呈現與采集環境光線有較大的關系,中醫舌診圖像客觀上基本是在封閉環境下進行采集的舌體數據集。為了測試各種網絡的實際應用效果,選取了封閉環境下采集的公開舌體數據集[69]進行測試。本文主要對比各種經典分割網絡:FCN-8S、FCN-16S、SegNet、UNet、HRNet、DeepLabv3+和Mask R-CNN。

3.1 視覺比較

本文采用原圖與預測掩膜圖相互重疊的方法對分割效果進行可視化,結果如圖15 所示。唇齒與舌根部分是最難區分的,因數據集是在封閉環境下采集的,所以數據分布較為相似,便于識別分割。

FCN-8S 和FCN-16S 的分割預測圖都存在較大的偏差,一些舌根區域并未被預測為舌體。隨著跳層連接增加,分割預測圖并無過多的變化。在舌體圖像的語義分割任務中,并未明顯地提升舌體分割的精度。

SegNet 網絡與FCN 網絡相比,能夠更好地找到舌體區域的邊緣,但是舌根區域仍存在無法識別的部分,同時出現粗糙的邊緣分割,這將影響舌體分割的結果,因為舌尖的邊緣部分會出現舌體邊緣齒痕的假象,對后續的舌體客觀化診斷造成較大的負面影響。

U-Net 使用了一系列的3×3 卷積和池化操作,以及跳層連接,它相較于前者所提出的分割網絡,有了明顯的分割邊緣。因舌體數據集有別于其他的語義分割數據集,舌體圖像的語義分割只有兩類,即背景與舌體區域,且舌體區域占整張圖像較大比重,因此單一的卷積核尺寸不利于體積較大的分割目標。

HRNet的分割效果不佳,因其數據集的圖像分辨率低,高分辨率網絡所需的輸入應是高分辨圖像,在連續的卷積操作過程中,專注于提取高層特征包含的語義信息,會導致丟失邊緣細節信息。太多的高層語義信息造成低層細節邊緣信息的丟失。

Mask R-CNN 的分割結果沒有明顯的粗糙分割邊緣。仔細觀察,會發現在舌尖與舌根部分存在欠分割效果,該方法丟失了舌體的邊緣信息,與實際的舌體分割區域存在一定的偏差。

從圖15 可看出,DeepLabv3+的分割結果圖有明顯的提升。其采用空洞卷積和空間金字塔網絡,同時也引入了編解碼網絡結構。因此能夠捕獲豐富的上下文信息和清晰的分割目標邊界,使其結果優于其他的分割網絡。

3.2 定量比較

為了客觀定量比較分析,本文對各個方法的分割評價指標進行測量,同時對各個分割模型的測試時間進行統計。表2 列出了各種分割評價指標。在舌體分割圖像的評價指標中,舌體圖像只包含嘴部區域和部分面部區域。

Fig.15 Visual comparison of different methods圖15 不同方法的視覺比較

從表2 可看出,在FCN 系列的分割網絡中,增加了跳層連接后,分割精度與Dice 值有所提高?;诰幗獯a分割網絡與FCN 系列結構不同,各個模型性能由高到低依次為U-Net、SegNet和HRNet,其中U-Net和SegNet 的精確度都高于0.99,其Dice 值也高于0.98。U-Net帶有跳躍連接的編解碼結構能夠融合不同層級的特征,使得性能優于SegNet。但因HRNet缺乏高分辨率的圖像作為輸入,其分割性能未能達到0.99,而同樣采用FCN 結構的Mask R-CNN 分割精度相對FCN 系列有所提高。DeepLabv3+取得較高分割性能主要得益于其在空間金字塔池化模塊和編解碼網絡方面做出的改進,其編解碼結構上的編碼器能夠提取豐富的語義信息,而解碼器有利于恢復精細的物體邊緣。

Table 2 Evaluation metrics for different tongue segmentation methods表2 不同舌體分割方法的評價指標

4 存在的問題和發展趨勢

雖然基于深度學習的方法在舌體分割方面取得了顯著的性能,但該領域仍然存在一些挑戰和局限性,例如缺乏高質量的注釋樣本和深度學習模型的可解釋性。簡要討論存在的問題和未來的方向。

(1)數據集:數據集對精確的舌片分割會產生各種影響。足夠大的數據集,專業準確的標注可以達到強大的系統性能。與其他醫學圖像分割數據集(如醫學影像)相比,舌體分割數據集相對較小且獨特。并且由于患者的面部隱私,研究人員必須自建非公開數據集,使得分割模型無法在相同的數據集進行比較。密集的像素級標注需要專業醫生不懈的努力,這是非常耗時的。近來,研究者將舌色值用于多元化的舌色中[70],這將有利于設計出一個半自動或全自動的交互式標注框架,用于舌診圖像的標注。而且具有挑戰性的是原始圖像是從不同環境下的不同設備收集的,這可能會增加標注任務的難度。

(2)準確分割:舌體分割作為中醫舌診的重要步驟,在學術研究和醫學診斷中都具有潛在的價值。同時,準確的分割方法可為后續的舌象分類提供高質量的圖像。此外,很多算法采用了強大的GPU 進行訓練,醫學圖像的可視化無法在普通家用計算機上實現。隨著深度學習、計算能力的不斷提高,以及舌體數據集規模逐漸龐大,深度學習在舌診圖像處理領域的應用可以更加廣泛。

(3)動態分割:人工智能中醫舌診對動態特征的獲取和分析研究很少。通過視頻處理技術幫助處理連貫舌體圖像和捕獲舌體動態特征。例如,患者出現舌體異常顫抖。此外,患者無法將舌頭完整伸展。這些特征也為舌診提供了重要信息。動態特征獲取的難點是目前客觀舌診無法達到連貫性與實時性,以及動態目標檢測分割精度不夠高,特別是復雜開放環境下的目標錯檢漏檢問題?;谏疃葘W習的靜態舌體分割方法為動態視頻分割提供了基礎,其中一個關鍵問題是如何實時準確地捕捉動態信息。動態目標分割技術還需要運動目標檢測。通常舌體的顫動都是細微的難以用肉眼察覺的,需要采用運動目標跟蹤。在連續的圖像幀中,創建基于位置、速度、形狀、紋理、色彩等相關特征的對應問題[71]??梢圆捎靡曨l形式保存圖像信息,當舌診診斷的時候,可以獲取具有連貫性的舌象特征信息。后續動態分割研究,可采用基于視頻的動態特征及邊緣信息融合的舌體目標檢測分割方法。

(4)開放環境:在開放環境下分析舌體圖像也是一種趨勢?;谏疃葘W習的方法在封閉環境下取得了較好的魯棒性。這為開放環境下舌體圖像分析的進一步研究奠定了基礎。因此,未來開放環境下的舌體分割算法應該是精確、實時和高效的。

5 結束語

將各種深度學習網絡應用于舌體分割是一項有價值且具有挑戰性的任務。深度學習技術具有強大的特征學習能力。它被廣泛應用于圖像處理、語音識別和自然語言處理中。本文綜述研究了基于深度學習的舌體分割的相關方法,對其進行了結構上的分類和總結,為相關研究人員提供參考。研究和討論了未來面臨的挑戰與發展趨勢。隨著深度學習算法和計算能力的不斷提高,深度學習在舌體圖像處理領域的應用有待進一步發展。

猜你喜歡
卷積語義像素
基于全卷積神經網絡的豬背膘厚快速準確測定
真實場景水下語義分割方法及數據集
像素前線之“幻影”2000
基于圖像處理與卷積神經網絡的零件識別
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
“像素”仙人掌
高像素不是全部
漢語依憑介詞的語義范疇
您的像素,飽和嗎?[上]
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合