?

基于改進U-Net的下肢骨骼CT圖像分割①

2022-11-07 09:07劉金輝倪佳佳黎學飛
計算機系統應用 2022年10期
關鍵詞:空洞卷積骨骼

劉金輝,童 晶,倪佳佳,黎學飛,張 旭

(河海大學 信息學部 物聯網工程學院,常州 213022)

骨折是日常生活中常見的一種骨科疾病,如果不及時采取治療或治療方式欠妥會影響患者術后康復,困擾患者的健康生活.對于普通骨折,有經驗的醫生可以通過計算機斷層掃描來定位骨骼、判斷骨折類型與受損程度.當骨折程度較為嚴重或執行大型手術時,就需要對骨骼建模生成三維模型輔助醫師開展術前規劃,因此對骨骼的精確分割意義重大.

骨骼醫學圖像的分割算法發展至今,大多以傳統圖像處理方法為主.由于人體組織對X 射線的吸收程度不同,顯現在CT 圖像上的灰度值就不同.骨骼做為高吸收區,成像多為白影,因此國內外提出了許多使用閾值分割的算法.如李銀波等[1]提出的一種自適應閾值方法對骨骼切片的分割,結合區域生長和Chebyshev濾波逼近的方法,對閾值進行改善.Kang 等[2]提出一種迭代閾值法對骨骼進行分割,首先對原始CT 做形態學操作,然后不斷迭代閾值點,優化分割結果.Bakthula等[3]提出一種結合圖像增強與聚類的骨骼分割方法,首先對待聚類的圖像做優化,提高聚類準確性.以上算法均存在過分依賴于數據的好壞,以及分割精度較低的問題.

隨著卷積神經網絡的發展,其強大的特征提取能力使得深度學習技術成功在醫學圖像領域大放光彩.與傳統的分割算法相比,神經網絡算法擁有大量可學習神經元參數與非線性的表達,可以很好地去除CT 數據中的噪聲,提取骨骼特征.Shelhamer 等[4]提出一種全卷積網絡(FCN),開啟了語義分割的熱潮.FCN 使用卷積層代替全連接層,并通過轉置卷積將特征圖的大小變換回輸入圖像的尺寸,同時將淺層網絡的特征信息與深層網絡中的特征信息相加來提高分割精度,從而實現對任意尺寸圖像進行像素級別的分割.Ronneberger 等[5]對 FCN 模型進行改進,提出了U-Net 模型.U-Net 模型采用對稱的編碼與解碼格式,將下采樣與上采樣的特征相互融合來彌補丟失的信息,充分地利用了空間信息與語義信息,使得分割結果更加精細,其在醫學圖像分割領域中表現優異.He 等[6]為解決梯度消失等問題,提出了特征直接映射的殘差結構,為更深的網絡層數提供了支持.Hu 等[7]提出了Se-Net 模型,該模型專注于特征圖的通道維度,通過對特征圖擠壓與擴張獲取特征與特征之間的關系,可以讓網絡更加專注于信息量大的通道,實現了通道注意力.Oktay 等[8]將U-Net 與注意力機制相結合提出Attention U-Net,通過注意門模塊將網絡專注于目標物體區域,實現精細分割.

神經網絡與骨骼分割結合的算法也有很多.Vania等[9]通過使用數據處理和簡單的卷積神經網絡結合實現對脊柱骨骼的自動分割.Klein 等[10]通過對U-Net 改進實現對全身骨骼的分割.Noguchi 等[11]通過使用新型的數據增強方式結合卷積神經網絡實現對人體骨骼的分割.以上工作都較傳統算法有了大幅度提升,但大多依賴于數據的增強來提升準確度,對網絡模型的改進不足,骨骼的分割精度遠遠不夠.因此為了解決以上問題本文提出一種新的分割框架.本文主要貢獻包括:1)針對下肢CT 數據提出一種新的骨骼分割方法.2)基于空洞卷積思想,結合多尺度金字塔模塊進一步增強對骨骼信息的提取.3)基于空間與通道注意力機制,改進高低維度特征融合不充分的問題,提升了模型的分割精度.

1 分割算法

人體下肢骨骼CT 數據的形狀不同,大小不一,尤其在骨骼兩端因為其骨密度較小,導致出現于其他組織區分度不大的情況,傳統的神經網絡難以對其精確分割.本文提出的AFU-Net 是將醫學領域中表現優異的U-Net 作為基礎網絡,針對骨骼數據特點與U-Net自身缺點出發進行改進.AFU-Net 的整體模型如圖1所示.

圖1 AFU-Net 網絡框架圖

網絡編碼階段又稱為下采樣階段使用卷積、批歸一化、ReLU 激活函數以及尺寸為2×2 的最大池化構成的骨干模塊.每次下采樣后通道數會增加一倍,尺寸會縮小為原來的1/4.因訓練過程中對樣本數據進行裁剪,所以將U-Net 的4 次下采樣縮減為3 次.圖像分割的整體流程: 首先使用編碼器提取骨骼圖像語義特征;其次通過密集連接的多尺度卷積模塊獲取更豐富的特征信息; 最后將解碼器的輸出與編碼器的輸出通過結合注意力機制的融合模塊進行融合來彌補下采樣丟失的信息,多次上采樣直到恢復為原圖分辨率為止.

1.1 密集連接的多尺度卷積模塊

相對于U-Net,本網絡下采樣次數較少,導致卷積操作的感受野較小,獲取信息具有局限性,對于深層的語義信息提取效果較差.為了彌補感受野小的缺陷,提出了使用密集連接的多尺度卷積模塊(DASP)模塊來增強對不同尺寸的信息提取能力,有效地擴大了感受野的同時還避免了多次下采樣帶來的信息丟失.DASP模塊思想來源于密集卷積模塊[12]和ASPP 模塊[13],并對其原有模塊進行化簡與融合,提高對骨骼特征的提取能力.DASP 模塊如圖2 所示.

圖2 密集連接的多尺度卷積模塊

空洞卷積操作是在卷積核中插入空洞,使得在參數量不變的情況下,網絡可以獲得更大的感受野.圖2中d表示空洞率即卷積核中插入空洞的個數,當空洞率為1 時空洞卷積與常規卷積操作相同.ASPP 模塊通過平行引入不同空洞率的空洞卷積來實現多尺度的信息提取,有效地提升了分割精度.但是ASPP 也存在相應的問題: 空洞卷積因為空洞的存在,采樣點較為分散導致大量信息被拋棄; 當空洞率較大時,小目標物體的分割就會受到影響.因此本文將不同空洞率的路徑的輸入輸出以通道維度密集連接起來,有效地避免了信息丟失的同時帶來了較大的感受野.密集連接后的模型可以同時實現串聯和并聯的卷積操作,使得網絡可以自適應的獲取骨骼信息.最后使用普通卷積操作將合并后的特征圖通道降維至與輸入通道相同.DASP 可以表示為:

其中,X代表輸入,Xi代表中間操作的輸出,Y代表最終輸出,di代表空洞率,Conv 代表空洞卷積操作,[]代表通道維度連接.可以看到每一層的輸入都是前面所有中間操作的輸出通道連接,最后通過卷積操作降低維度作為輸出.空洞率的選取也決定著信息提取的好壞,較差的空洞率組合會帶來網格效應.根據混合空洞卷積理論[14]和本實驗對比結果,我們選取大小為3,5,7 的空洞率組合.

1.2 結合注意力機制的融合模塊

U-Net 網絡針對下采樣信息丟失的問題采用跳層連接來解決,將淺層特征與深層特征拼接融合后,作為上采樣的特征圖.其優點在于操作簡單,可以彌補大量丟失信息,但其仍有不足: 一方面使得解碼器無法很好地利用淺層空間信息,另一方面引入的空間信息也會破壞原有的語義信息.因此合理的利用不同維度的信息,對提高分割精度有重要意義.為了解決這個問題,本文提出了結合注意力機制的融合模塊(AF).

AF 模塊結合了常見的模塊融合方法與相應的注意力機制,采用不同的方式實現跳層連接,因此AF 模塊可以看作由通道注意力分支與空間注意力分支成,可以更加充分地將高低維度特征融合在一起.AF 模塊如圖3 所示,融合模塊的整體流程如下.

圖3 結合注意力機制的融合模塊

1)將高維特征經過雙線性插值放大尺寸,實現與低維度特征具有相同分辨率.2)將高維度特征H 按通道維度隨機平分生成H1,H2.3)將低維度特征經過卷積核為1×1 的卷積層實現跨域操作生成L.4)H1 與L 通過通道注意力分支與普通卷積操作后生成Fc.5)H2 與L 通過空間注意力分支與普通卷積操作后生成Fs.6)Fc 與Fs 融合后通過CBR 模塊進行通道降維,作為模塊輸出.

通道注意力分支為經典的壓縮激勵模塊[7],該模塊旨在獲取特征通道之間的關系.低維度特征即使通過1×1 的卷積實現跨域操作后,其中仍包含大量的無用信息,若直接與高維度特征融合,會存在破壞語義信息的可能性.因此本文通過通道注意力機制來抑制無用的信息通道.通道注意力流程為: 首先對特征圖每一個通道做全局平均池化來獲取當前通道的全局特征,實現特征壓縮; 其次使用兩個大小為1×1 的卷積操作和ReLU 激活函數代替原文中的全連接層并學習通道與通道之間的關系; 最后將學習后的特征經過Sigmoid變換后作為通道的權重,實現特征激勵,以此來突出重要的骨骼信息.通道分支可用式(3)和式(4)表示.

Conv 表示卷積核為1×1 的卷積操作; GAP 表示為全局平均池化; []表示為通道維度的連接.為了實現減少參數量和模型復雜度,第1 個卷積層的輸出通道縮小r倍,第2 個卷積層的輸出通道數放大r倍即恢復至原來大小.實驗結果表明,CT 數據集分割任務的降維系數r取16 時效果最佳.

空間注意力分支旨在獲取特征圖空間上的關系,從自身學習通道共享的空間權重參數,以此來突出骨骼特征[15].空間注意力分支通過將不同維度的特征圖相加來實現語義信息與空間信息融合,再通過注意力機制,將網絡的關注重心放在骨骼信息上.整體流程為:首先將高低維度特征元素相加; 對相加后的特征做通道上的最大池化與平均池化; 將獲取到的兩個特征圖通道連接后經過一個卷積核大小為7×7 的卷積層,生成通道數為1 的特征圖; 最后將生成的特征圖經過Sigmoid變化后作為高低維度融合后的空間權重,以此來實現更好地實現特征融合.空間分支可用式(5)和式(6)表示.

最后將空間注意力分支和通道注意力分支的結果做通道連接后,采用與編碼階段的骨干模塊相似的CBR(Conv2d,BN,ReLU)模塊實現通道降維.AF 模塊的輸出可以用式(7)表示.

2 實驗過程

本文實驗在自建下肢CT 數據集與公開數據集Peréz-Carrasco 上開展對比實驗,詳細介紹了骨骼分割實驗的數據處理、實驗設置、評價指標與實驗結果.

2.1 數據處理

實驗使用的數據均來自常州市圖形圖像與骨科植入物數字化技術重點實驗室提供的人體下肢CT 數據集(簡稱CT 數據集).對CT 數據集沿Axial 方向切片后生成共8 000 張dcm 格式的二維CT 圖像.將數據集以8:2 比例劃分為訓練集與驗證集.標簽數據為專業醫師采用Mimics 手工標注得到,轉換后生成只含0、1 值的PNG 圖片.CT 數據集圖像大小為512×512,將原始CT 圖像通過Pydicm 庫設置為適合查看骨骼數據的窗寬窗位后導出,圖4 表示原始CT 圖像與醫師標注的金標準對比圖.

圖4 CT 數據與金標準

觀察原始數據集可知,骨骼數據在原始圖中占比較小且相對集中,導致圖中大部分為無用的信息,所以訓練過程中對數據集進行有規劃的隨機裁剪,可以節省訓練時間和起到數據增強的作用.規劃的隨機裁剪目的為將原圖裁剪成大小為128×128、包含較多骨骼圖像的小尺寸訓練樣本.因此裁剪區域需要滿足式(8)的約束.

N表示為當前區域骨骼像素的總數;i表示當前隨機裁剪的次數,i取值[1,100].圖片的隨機剪裁次數越多,對其剪裁區域的約束要求越低.為了擴充數據集樣本的多樣性和提高模型的泛化性,除了使用上述的裁剪方法,本實驗還使用了隨機旋轉、隨機水平反轉和光度失真3 種數據增強的方法.

2.2 實驗設置

實驗所使用硬件平臺為16 GB 的Tesla T4 顯卡,使用的深度學習開源框架為PyTorch 1.8.0,Python 版本為3.6,CUDA 版本為11.0.本文采用SGD 優化器來對模型參數訓練優化,并使用Poly 學習策略對學習率進行調整,具體定義如式(9).其中初始學習率lr設置為0.001,power為0.9,最大訓練次數total_epoch為100,并設置batch_size為64.

針對骨骼數據集的特點,損失函數的選取使用了以Dice系數損失函數為主,Focal 損失函數[16]為輔的策略.CT 數據集中骨骼數據相對其余組織占比較少,使用交叉熵損失函數會將忽略骨骼數據帶來的梯度,從而導致較差的模型優化.Dice損失函數的優化不會根據類別像素占比來決定,因此選擇Dice損失函數作為主要的損失函數.同時Dice損失函數也具有訓練不穩定,梯度變化劇烈等情況,因此選擇配合Focal 損失函數使用.Focal 損失函數最早使用于目標檢測中正負樣本比例嚴重失衡的場景,有利于困難樣本的挖掘和學習,針對骨密度較低的難樣本具有較好的優化作用.因此損失函數可用式(10)表示,α表示輔助損失函數的權重,經實驗,當α取0.5 時效果最好.

2.3 評價指標

本文使用Dice系數(Dice)、交并比(IoU)系數、召回率(Recall)、精確率(Precision)來評判模型分割質量.其計算方式如式(11)-式(14)所示:

其中,TP(true positives)、TN(true negatives)、FP(false positives)、FN(false negatives)依次表示為預測和標簽均為骨骼像素點數量(真陽性)、預測和標簽均為背景像素點數量(真陰性)、預測為骨骼和標簽為背景的像素點數量(假陽性)、預測為背景和標簽為骨骼的像素點數量(假陰性).以上指標范圍均為0-1 之間,越靠近1 表示模型的預測能力越強.

2.4 實驗結果匯總

本實驗選擇了在語義分割領域中具有代表性的網絡模型: U-Net[5]、Attention U-Net[8]和BiSeNet[17]作為對比網絡模型.在CT 數據集上多次實驗計算平均值作為最終實驗結果,實驗結果如表1 所示.由表1 可知在Dice系數上,AFU-Net 相較于U-Net 提高5 個百分點.相較于同樣使用注意力機制提高精度的Attention UNet 提高了2 個百分點.在其余指標上AFU-Net 均有不同程度的提高,證明了AFU-Net 模型能夠更為準確地對下肢CT 數據的骨骼進行精確分割.

表1 CT 數據集實驗結果(%)

圖5 展示了不同模型的分割結果,從左至右依次為: 原始數據、醫師標注的金標準、U-Net、Attention U-Net、BiSeNet 和AFU-Net.可以看到在簡單樣本中U-Net、Attention U-Net、BiSeNet 和AFU-Net 均有較好的表現,但在低密度骨骼區域和有部分小目標碎骨的難樣本中AFU-Net 分割得更為準確.

圖5 CT 數據集實驗結果對比

為進一步證明AFU-Net 網絡具有較好的泛化性,我們選取公開數據集Peréz-Carrasco 等[18]來驗證網絡的有效性.它是由20 位患者的27 套不同部位的骨骼CT 數據集組成,年齡分布在16-93 歲.Peréz-Carrasco數據集對于深度學習算法而言,訓練樣本數量較少,但AFU-Net 同樣表現得較為良好.

為了確保實驗結果準確,本實驗參考原文中的實驗設置,隨機選取18 套數據作為訓練集,9 套數據作為驗證集.取原文中的算法實驗結果來進行對比,對比結果如表2 所示.

表2 Peréz-Carrasco 數據集實驗結果(%)

本文算法在數據量較小的Peréz-Carrasco 數據集上,仍能取得較好的分割結果.相較于文獻[18]Dice系數提升了4%,IoU系數提高了5%.AFU-Net 的分割耗時依賴于算力的好壞,但較為普通的顯卡推理速度也優于原始算法,T4 顯卡下推理一張圖片耗時0.2 s,相對于文獻[18]有較大提升.

CT 骨骼數據的精確分割有利于實現骨骼的三維重建,進而開展后續骨折修復等術前規劃.因此本文將分割好的CT 切片利用開源庫VTK 實現重建,重建結果如圖6 所示.圖6(a)為U-Net 網絡重建結果圖,展示了整體結構與兩處細節放大圖.由圖可得: 因一整套CT 數據集中包含大量簡單樣本,所以在整體外觀上兩者相差不大.對比細節可得: U-Net 建模結果丟失了細小的碎骨,以及相對于AFU-Net 重建結果有許多空洞.AFU-Net 分割度較高,重建效果良好,可以為后續術前規劃工作提供精確的3D 模型支持.

圖6 分割結果三維重建對比圖

2.5 消融實驗

為進一步證明AFU-Net 所提出的模塊在CT 骨骼數據集上均能有效地提高分割精確度,本文還做了消融實驗.我們選取U-Net 作為基礎網絡,依次添加本文新模塊來實驗分割效果,實驗設置超參數均保持一致,結果如表3 所示.

表3 AFU-Net 消融實驗結果(%)

根據表3 我們可以得出:

(1)密集連接的空洞卷積模塊有效地提高了骨骼的語義提取能力;

(2)基于注意力機制的融合模塊能夠更加有效地融合不同維度的信息;

(3)密集連接的空洞卷積模塊與基于注意力機制的融合模塊結合后,模型仍可以收斂與優化參數.

3 結論與展望

針對現有骨骼圖像分割算法存在的分割不精細、細小碎骨易忽略、低對比度骨骼圖像難識別的問題,本文提出一種改進的U-Net 分割算法.首先使用多尺度空洞卷積層來增大感受野,提取更多的語義信息,并將不同尺度的.卷積輸出密集連接改善空洞卷積帶來的采樣點分散問題.其次使用空間注意力與通道注意力相結合的特征融合模塊,讓網絡更加專注骨骼信息的同時還解決了不同維度特征融合不充分的問題,有效地提高了骨骼分割的精準度.文中通過多個對比實驗證明所提出的AFU-Net 對于下肢CT 數據集具有較好的分割效果.但是目前算法仍有不足如將CT 數據集切分后會丟失部分Axial 軸信息和模型參數量較大.因此后續工作將會考慮利用CT 數據的3D 信息提高算法精確度,以及使用模型剪枝和知識蒸餾來壓縮模型,在保證算法性能的同時提高算法實時性.

猜你喜歡
空洞卷積骨骼
基于全卷積神經網絡的豬背膘厚快速準確測定
基于圖像處理與卷積神經網絡的零件識別
北極上空出現罕見臭氧層空洞
基于深度卷積網絡與空洞卷積融合的人群計數
利用瑞利波法探測地下空洞
卷積神經網絡概述
空洞的眼神
3D打印骨骼指日可待
骨骼是如何生長的
神奇的骨骼
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合