?

醫學圖像融合方法綜述

2023-02-18 03:06黃渝萍李偉生
中國圖象圖形學報 2023年1期
關鍵詞:模態醫學圖像

黃渝萍,李偉生

重慶郵電大學計算機科學與技術學院,重慶 400065

0 引 言

醫學圖像是臨床診斷的重要依據,廣泛應用于治療規劃、手術導航中。臨床診斷的準確性需要同時提取多幅不同模態的醫學圖像信息來保證。因此,圖像融合技術受到廣泛關注。圖像融合是計算機視覺和圖像處理領域的一個熱門課題,包括多聚焦圖像融合(Zhang 等,2018)、多曝光圖像融合(Zhang,2021)和多模態圖像融合(Zhang 等,2021)等。而多模態醫學圖像融合(multimodal medical image fusion,MMIF)是多模態圖像融合中的代表性融合場景。通過將不同模態醫學圖像中的互補信息整合到一幅圖像中,幫助放射科或腫瘤醫生等加快診斷過程,提高決策能力,降低儲存成本(Rajalingam和 Priya,2018b)。同時,由于醫療保健行業的巨大進步,醫學成像傳感器也飛速發展,加大了醫療系統對圖像融合的需求。

圖像融合過程由預處理、圖像配準、圖像融合和性能評價4部分組成。在預處理階段,識別出圖像中的噪聲和偽影并完全去除,獲得高質量的醫學圖像(Zhao和Lu,2017)。然后,選取一幅參考圖像,對剩余圖像進行幾何變換,使其與參考圖像同步,獲得配準后的待融合圖像(El-Gamal等,2016),這是與圖像融合直接相關的步驟,它糾正了輸入圖像之間的偏差,補償了原始信號重建、平移、旋轉和縮放過程中造成的變化,從根本上保證了圖像融合的精度。在融合過程中,圖像融合等級按照作用的層次分為像素級、特征級和決策級(Du 等,2016),如圖1所示。像素級融合對圖像像素進行綜合分析,能夠保持盡可能多的現場數據;特征級融合對圖像特征進行綜合分析,可以壓縮信息使其具有良好的實時性;決策級融合對圖像進行特征提取和特征分類,通過大量的決策系統對分類后的圖像特征進行融合。

融合性能評價分為主觀評價和客觀評價。主觀評價基于人眼視覺系統。在醫療領域中,通過觀察圖像的失真情況、空間細節、顏色和亮度等,或結合主觀的標準化分數計算來判斷融合質量是簡單而可靠的??陀^評價則通過一系列與人類視覺系統高度一致的指標來定量評估融合算法的性能。

如圖2所示,自2000年起,針對圖像融合的算法研究文獻數量迅速增加。其中,醫學領域融合算法的文獻數量占比逐漸升高。隨著該研究領域的逐漸成熟和圖像處理領域的階段性停滯,每2—3年會迎來一個小幅度的上升期。這樣增長的背后有3個原因:1)醫學圖像數據庫的逐漸豐富;2)圖像與信號處理技術的進步;3)醫學圖像融合算法得到實際應用(如多模態醫學圖像一體機的發展)。在每一個歷史性的發展階段都會涌現一些關于醫學圖像融合技術的調查或評論性文章。James等人(2014)總結了醫學圖像融合技術中待解決的問題。其中包括:1)現階段的融合算法創新性有限,大部分MMIF算法都是從已有圖像融合研究中衍生出來的;2)圖像之間物體配準的不準確與MMIF算法的特征級或決策級融合性能不佳密切相關,需要醫學領域知識和算法洞察力來提高融合的準確性;3)由于像素強度異常、特征缺失、傳感器誤差、空間誤差和圖像間變異性的存在而導致的特征處理和提取算法的主要問題仍然是醫學圖像融合中的一個開放問題。El-Gamal等人(2016)預測了未來幾年醫學圖像融合技術的發展趨勢。張俊杰等人(2016)對特征級多模態醫學圖像融合技術的研究進展進行深度討論。Meher等人(2019)展示了對基于區域的圖像融合技術的相似比較。周濤等人(2021)對多尺度變換的像素級醫學圖像融合進行綜述,闡述了多尺度變換圖像融合的基本原理和框架。Azam等人(2022)對醫學圖像的原理和分類進行概括,并對不同融合技術的優缺點進行總結。

圖2 以醫學圖像融合為主題的科學出版物(2000年—2022年第1季度)

與上述綜述類文章相比,本文不僅對MMIF算法的文獻進行比較與總結,還對不同疾病的MMIF研究進展進行了重點分析和總結,通過對比最新的MMIF方法的定性及定量指標,探索該課題的未來研究趨勢,助力醫療領域新型成像傳感器的發展。

1 醫學圖像模態

醫學成像的研究目的在于借助各種科學技術可視化人體內部的結構和組織,為疾病診斷提供重要信息。不同的成像技術可以從不同方面互補地反映患者的信息,而圖像融合技術可以將它們結合起來。醫學圖像是由能量和人體組織相互作用形成的。在醫學領域中,成像技術主要分為利用電磁能成像和利用聲能成像。利用聲能成像是指利用超聲波在不同介質中的傳播速度不同來達到實時成像的效果,直接提供動態圖像。而MMIF技術主要針對由電磁能成像技術形成的靜態圖像。如X射線計算機斷層掃描成像(computed tomography,CT)、單光子發射型計算機斷層成像(single photon emission computed tomography,SPECT)、正電子發射型斷層成像(positron emission tomography,PET)和磁共振成像(magnetic resonance imaging,MRI)等。圖3顯示了基于電磁能成像技術各電磁波頻譜上的可形成的醫學圖像。

圖3 各電磁波頻譜上的可形成的醫學圖像

1.1 計算機掃描成像

1895年,W.K.Roentgen發現了X射線,人類歷史上第一次實現用科學技術觀察人體內部結構。X射線將3維目標投影在2維的檢測平面上,但投影方向上信息相互重疊,成像的分辨率低,僅能區別密度差別很大的臟器。20世紀60年代,計算機斷層掃描技術(CT)逐漸發展起來,并從根本上解決了上述問題。CT利用X射線對人體進行平移掃描,獲取多個方向上的投影數據,然后用精確的數學公式重建出人體內部的剖面結構。而數字圖像處理技術將感興趣區域的細微灰度差變換為屏幕上人眼可分辨的灰度差,大幅提高了區分密度差異小的不同組織的能力,其灰度僅與組織的強度有關,與細胞的活性無關。CT圖像的應用范圍幾乎涵蓋了全身各個系統,特別是對于中樞神經系統、頭頸部和呼吸系統病變的檢出和診斷具有明顯優勢。對于心血管系統、生殖系統和骨骼肌肉系統病變也具有較高的診斷價值。但是,CT檢查對某些病變的檢出具有一定難度。例如,CT對骨骼肌肉系統中的骨骼敏感,但對軟骨、關節盤和韌帶等軟組織的病變顯示仍十分困難。

1.2 磁共振成像

磁共振成像(magnetic resonance imaging,MRI)利用與原子核共振波長相同的電磁波激發人體內部的原子核,使之處于受激的狀態。原子核恢復到平衡態時會產生輻射,并攜帶核周圍生化環境相關信息,它不僅可以顯示解剖學形態的圖像,還可以指示病理特征。據美國健康研究所(National Institute of Health,NIH)統計,現在全世界每年有6千多萬人次接受MRI檢查。MRI可以對人體所有器官成像,尤其是對大腦組織和脊髓的成像最為精細,在研究和臨床上極有價值。如同CT圖像,MRI圖像也是數字化的模擬灰度圖像,亦具有窗技術顯示和能夠進行各種圖像后處理的特點。然而,MRI圖像上的灰度并非表示組織和病變的密度,而是代表它們的信號強度,反應弛豫時間的長短。MRI檢查對于癌癥的診斷、治療和病程跟蹤非常有效,可以為手術和放射治療精確定位腫瘤的位置、邊界以及對周邊組織浸潤的情況。但是在臨床應用中,MRI圖像容易產生不同類型的偽影且有時不能完全消除,給圖像解釋帶來困難,對某些系統疾病的檢出和診斷的貢獻有限,如MRI對于呼吸系統中大多數疾病診斷價值不高。

1.3 核醫學成像

醫學上放射性核素成像是將放射性核素標記在藥物上,通過口服或注射方式引入人體內,檢測體外該核素發射出來的能量形成圖像。由于各臟器對同位素標記物的選擇性吸收、正常組織與病變組織的吸收差異、代謝差異以及病變對標記物在體內循環產生影響等因素,使不同生理、病理的圖像形成差異,故可以據此診斷疾病。臨床應用的核素成像系統有兩種,單光子發射型計算機斷層成像(SPECT)和正電子發射型斷層成像(PET),二者都用來測定人體各部位的生物化學和代謝過程。PET圖像的成像質量更高,但其示蹤劑較少,應用范圍受到限制,而SPECT的示蹤劑更易制作,可根據不同部位、不同癥狀選取合適的示蹤劑進行成像。由于PET和SPECT圖像的分辨率比較低,人們更強調其功能性研究。

1.4 融合模態

醫學影像檢查技術發展迅速,除了CT、MRI和核素顯像,還有X射線、超聲等常規成像技術。不同成像技術有各自優勢和限度以及明確的范圍。以腦部醫學圖像為例,CT獲取的圖像可以提供豐富的解剖細節,能夠清晰分辨腦內顱骨、腦實質、腦脊液和非病理性鈣化區域;MRI能夠顯示豐富的生理和生化信息,包括腦內神經、腦血管以及軟組織;而PET/SPECT圖像能夠反映正常組織和病變組織對標記物的代謝情況以及腦部的血流信號。在實際的臨床診斷中,對于某一系統疾病、某一類疾病通常需要綜合應用幾種成像技術才能滿足診斷的需要。

圖4是幾種不同病例的多模態影像。圖4(a)顯示了生活中常見的一種腦變性疾病阿爾茨海默癥,其早期癥狀表現為短期記憶障礙,隨著時間推移逐漸出現語言障礙、生活無法自理等癥狀。針對該疾病的首選檢查方法為MRI,其主要的影像依據是以海馬為顯著區域的腦萎縮,而導致腦萎縮的原因眾多,如結合PET圖像,則可明顯觀察到海馬區域的血流信號減少、代謝降低等,從而確診阿爾茲海默癥。圖4(b)顯示了腦膜瘤的醫學影像。CT可以掃出顱內的高密度區域(多為腫瘤區)以及其邊界,腫瘤密度是否均勻等。而MRI圖像可顯示出腫瘤內是否存在條狀流空血管、腫瘤內部信號是否均勻,亦可顯示由腦膜瘤所致的骨改變。當腦膜瘤發生在功能區時,可有不同程度的神經性功能障礙,需結合PET或SPECT圖像聯合診斷。圖4(c)為Ⅳ級星形細胞腫瘤患者的醫學影像,MRI圖像可體現其占位效應,瘤內壞死或出血以及微血管的密度和通透性,有助于評估腫瘤的病理分級。SPECT圖像可標記其葡萄糖代謝情況,可對其進行良、惡性腫瘤的鑒定。

基于實際的臨床需求和應用價值,可以將主流的融合模態歸納為灰度圖像的融合以及灰度與偽彩圖像的融合兩種。其中,灰度圖像的融合主要涉及CT和MRI圖像,灰度與偽彩圖像的融合主要涉及CT、MRI、PET、SPECT 4種模態。融合示例如圖5所示。

2 融合方法

2.1 傳統融合方法

傳統MMIF方法著重處理源圖像中的噪聲、紋理、梯度、細節和顏色等信息,針對不同需求設計分解或重構策略和融合規則。這些方法按照對像素的處理方式和作用域的不同可分為基于空間域的融合方法、基于頻率域的融合方法和基于梯度域的融合方法3類。

2.1.1 基于空間域的MMIF方法

空間域技術利用基礎的像素級策略,對圖像中的像元值起作用,得到的圖像表現出更少的空間失真和較低的信噪比?;诳臻g域的方法主要包括簡單最小/最大值、獨立分量分析(independent component analysis,ICA)、主成分分析(principal component analysis,PCA)、加權平均、簡單平均、模糊邏輯(fuzzy logic,FL)和云模型(cloud model,CM)等。其中,簡單最小/最大值、簡單平均方法相對原始,計算復雜度低,可以快速實現圖像融合,然而融合效果并不理想。ICA為了區分待融合圖像中的有用信息和無用信息,在ICA域對源圖像進行分解,并將其獨立分量系數進行融合。而PCA則按照信息量對各個成分進行排序,將彼此不相關的各主成分分量進行篩選,丟棄信息量少的分量。模糊邏輯通常應用在融合規則的構造中,利用模糊隸屬函數對圖像內部的不確定性進行描述,從而對圖像系數進行分配。云模型具有考慮隨機性和模糊性的優點,利用逆向云發生器自適應地生成點云模型,計算其隸屬度,找到合適的云模型構建融合規則。

從多組數據中融合信息以提取一組最具特征的數據是融合任務的重點。而ICA提供一個簡單的生成模型,對分解后的各個分量獨立性進行度量,使多個模態充分交互以估計所有模態的潛在特征。Akhonda等人(2021)討論了ICA在多集融合中的兩個重要擴展,即聯合ICA(joint independent component analysis,JICA)以及多集典型相關分析和聯合ICA技術,兩種方法都假設相同的混合矩陣,強調跨多個數據集通用的組件,提出一個通用的框架,使用ICA的不相交子空間分析,不僅識別和提取多個數據集的共同成分,還可以提取不同的成分。該方法的一個關鍵組成部分是在后續分析之前識別這些子空間并分離它們,這有助于建立更好的模型匹配,并在算法和順序選擇方面提供了靈活性。Faragallah等人(2021)提出一種基于主成分分析和奇異值分解(singular value decomposition,SVD)的多模態MMIF方法。該算法基于PCA與SVD的結合,將CT和MRI兩種成像模式的所有相關信息整合在一起作為融合CT和MRI圖像的預處理手段,可以減少融合過程的處理時間和對內存的需求,且圖像質量與其他算法相同。Gao等人(2021)采用基于圖形的視覺顯著性算法(graph-based visual saliency,GBVS)計算兩個配準源圖像的視覺顯著性,在非下采樣剪切波變換(non-subsampled shearlet transform,NSST)域內對源圖像進行分解,得到低頻和高頻子帶。對于低頻子帶,以局部能量和GBVS圖為輸入,利用模糊邏輯系統分別得到融合后低頻子帶的權值。此外,利用粒子群算法優化模糊邏輯系統的隸屬度函數,使其更好地適應于醫學圖像和特征提取。Liu等人(2015b)提出一種基于改進和修正的拉普拉斯矩陣的像素級融合方法,利用局部拉普拉斯濾波對解剖圖像和功能圖像進行處理,然后通過最大化局部能量對子圖像進行融合,來克服阻塞效應和偽影。Li等人(2019b)提出一種基于自適應云模型(adaptive cloud model,ACM)的MMIF方法,利用ACM融合經過局部拉普拉斯金字塔分解后的近似圖像,使用擬合曲線通過捕獲擬合曲線的谷點來表示圖像細節信息。

2.1.2 基于頻率域的MMIF方法

在頻域領域中,原始的手段是通過計算傅里葉變換將輸入的圖像從空域轉換為頻域,然后對轉換后的圖像應用融合算法,再進行傅里葉逆變換,得到最終的融合圖像。常見的變換域中的融合算法有基于金字塔、基于小波和基于多尺度幾何變換的融合算法。

金字塔變換是最原始的圖像分解手段之一,分解過程由連續濾波和下采樣組成,產生一組類似金字塔結構的圖像,過程如圖6所示。首先將源圖像分解為塔形結構的子圖,隨著分解層數的增加,子圖尺寸逐漸減小,再將每一層的分解數據分別融合,最后重構成融合圖像。在MMIF算法中,最流行的金字塔分解方法包括拉普拉斯金字塔(Laplacian pyramids,LP)、梯度金字塔(gradient pyramids,GP)和形態金字塔(morphological pyramids,MP)等。這些方法在面對有噪聲干擾的圖像時,容易產生塊效應。形態金字塔邊緣呈現的效率不高,而梯度金字塔會加入不需要的偽影(Lewis等,2007)?;谛〔ㄗ儞Q的融合算法成功克服了這些缺點。

在20世紀90年代中期,出現了第1種基于小波的圖像融合方法,并且證明其性能優于金字塔變換,其過程如圖7所示。處理的基本步驟如下:1)對已配準的源圖像進行小波分解,相當于使用一組高低通濾波器進行濾波,分離出高頻信息和低頻信息;2)對每層分解得到的高頻和低頻信息依據得到的信息特點采取不同的融合策略,在各自的變換域進行特征信息抽取,分別進行融合;3)采用步驟1)小波變換的重構算法對處理后的小波系數進行反變換重建圖像,即可得到融合圖像。

小波域通過將圖像進行分解來保存圖像信息,其系數對應源圖像中不同的圖像特征(Pajares和 de la Cruz,2004)。由于小波分解的近似圖像包含了圖像的絕大部分能量,且小波系數的均值基本為零,因此,基于小波變換的MMIF算法可以保留源圖像的基本亮度和色調(周朋 等,2006)。Shabanzade和Ghassemian(2017)為了解決小波變換在表示方向性特征時缺乏位移不變性的缺點(Dogra等,2017),提出了使用平穩小波變換(stationary wavelet transform,SWT)進行MRI與PET融合的算法框架,將非下采樣輪廓波變換與SWT結合以發揮SWT的優勢。Daniel(2018)利用同態小波(homomorphic wavelet,HW)對源圖像進行多級分解,并提出了針對解剖圖像和功能圖像的最佳比例系數。Prakash等人(2019)利用雙正交小波的線性相位特性來完成MMIF中的圖像分解與重構。Ashwanth和Swamy(2020)利用散小波變換(discrete wavelet transform,DWT)和SWT對源圖像進行多級分解,針對分解后的子帶圖像分別采用基于邊緣和基于能量的融合規則進行特征融合。在MMIF中,小波變換的有方向性得到充分利用,且圖像的頻率信息利用率很高,但是小波變換本身不具有方向選擇性和平移不變性,因此通常與其他頻域變換方法結合來克服其局限性。而多尺度幾何變換是通過定義特定的小波函數規則或在小波變換內進行特殊處理來克服這些限制。Bhateja等人(2015)提出小波變換和幾何變換域中的脊波域(ridgelet domain,RD)具有一定的互補性。小波變換在邊緣特征提取上能力較弱,而脊波卻能很好地捕捉邊緣信息。張鑫和陳偉斌(2014)提出基于曲線波變換(curvelet transform,CVT)的區域方差加權和條件加權融合算法并應用于CT和MRI圖像融合。Mathiyalagan(2018)提出一種基于曲線波變換的融合算法,對低通子帶圖像進行小波變換,對高通子帶圖像進行脊波變換,利用子帶圖像的最大局部能量融合PET和MRI。Do和Vetterli(2005)提出輪廓波變換(contourlet transform,CRT)。CRT是利用拉普拉斯塔形分解和方向濾波器組實現的多分辨的、局域的、方向的圖像表示方法?;贑RT的MMIF算法可以保持灰度圖像的局部亮度,減少融合圖像的失真。而CRT的平移可變性和方向混疊等缺陷促成了剪切波變換(shearlet transform,ST)的出現(Guo和 Labate,2007)。為了解決ST出現的偽吉布斯現象,Easley等人(2008)提出非下采樣剪切波變換(non-subsampled shearlet transform,NSST),利用卷積代替下采樣。目前,非下采樣剪切波已經成為熱門的圖像分解和重構工具之一。

2.2 深度學習融合方法

深度學習(deep learning,DL)在計算機視覺領域取得了巨大成就,在圖像融合、語義分割和圖像分類等視覺任務中都有卓越表現。DL應用于圖像融合的動機有兩點(Liu 等,2018)。一是為了改進傳統方法中多尺度和空間變換能力的局限性,DL可以提供新的特征表示方法;二是傳統方法的融合策略設計面臨發展的瓶頸期,DL能夠更有效地映射輸入與輸出之間的相關性。深度學習領域內的融合方法主要包括卷積神經網絡(convolutional Neural Networks,CNN)、生成對抗網絡(generative adversarial networks,GAN)、卷積稀疏編碼(convolution sparse coding,CSC)、自動編碼器(auto encoders,AE)、循環神經網絡(recurrent neural networks,RNN)和受限玻爾茲曼機(restricted Boltzmann machine,RBM)等。其中,以基于CNN和GAN的MMIF方法為主。

CNN可以有效處理輸入圖像中鄰域內的空間和結構信息。CNN由一系列的卷積層、池化層和全連接層組成。卷積層和池化層可以提取源圖像中的特征,全連接層完成從特征到最終輸出的映射。圖像融合在CNN中被視為一個分類問題,對應其特征提取、特征選擇和輸出預測的過程,融合任務則面對的是圖像變換、活動水平測量和融合規則的設計。Liu等人(2017)首次將用于多聚焦圖像融合的CNN擴展到MMIF中,其中,圖像變換利用了頻域的拉普拉斯金字塔方法進行多尺度的分解,圖像的活動水平測量利用CNN生成的權重圖來計算。不同于其他數據類型的豐富儲備,醫學圖像常常面臨著小樣本的限制,而CNN可以從小樣本的醫學圖像數據集中進行學習,并且不容易產生過擬合的模型。Hermessi等人(2018)提出了一種基于多通道CNN的MRI和CT圖像的融合方法,先采用非下采樣剪切波對圖像進行高頻和低頻的子帶分解,然后利用多通道CNN完成對高頻子帶圖像的特征提取。Xia等人(2018)提出一種深度堆疊的CNN融合方法,該方法去除子采樣層以獲得與輸入圖像尺寸相同的輸出大小,雖然用整個數據集作為輸入所訓練的網絡可能忽略了模態之間的局部相似性,但該文獻表明算法的融合能力受訓練數據量的影響可以通過增加訓練數據量來防止過擬合。Lahoud和Süsstrunk(2019)提出一種基于CNN的零學習快速融合算法,不需要對特定模態的數據集進行預先訓練,對各種模態的輸入圖像都能夠提供有效融合。該算法通過充分利用已經訓練好的網絡來檢測圖像中的顯著區域,并提取描述這些區域的深度特征圖。通過比較這些特征映射,生成融合權重來合并源圖像。Wang等人(2020)在一個預先訓練好的CNN模型下,采用對比金字塔分解源圖像。Xu和Ma(2021)提出一種無監督增強融合模型,通過一個轉換網絡完成灰度圖像到偽彩圖像的映射,利用編碼解碼器提取出具有獨特信息的通道作為融合網絡的信息約束。

與CNN不同,GAN網絡通過對抗性學習機制對醫學圖像中的顯著性信息進行建模。GAN是具有兩個多層網絡的生成模型,第1個網絡是用來生成偽數據的生成器,第2個網絡是用來將圖像進行真實數據和偽數據分類的判別器?;诜聪騻鞑サ挠柧毮J教岣吡薌AN區分真實數據和生成數據的能力,盡管GAN在MMIF中應用不如CNN廣泛,但具有深度研究的潛力。Tang等人(2019)通過GAN融合了綠色熒光蛋白(green fluorescent protein,GFP)和相位對比圖(phase-contrast image,PC)兩種圖像,利用生成器與鑒別器之間的對抗博弈,提取GFP圖像的功能信息,同時提取PC圖像的結構信息,并且提高融合圖像與源圖像之間的整體相似性。Xu等人(2020)使用有密集連接的卷積層替換生成器中的U-Net,因為密集連接可以加強層之間特征圖的傳遞,使特征圖的利用過程更加高效。移除池化層后,沒有了大步長的卷積核下采樣造成的模糊,網絡輸出的融合圖像更加清晰,并且判別器的輸入不再是圖像梯度,而是圖像本身。對于生成器中不同分辨率源圖像的輸入,不再對低分辨率源圖像進行上采樣,而是使用反卷積層來學習從低分辨率到高分辨率的映射。Zhao等人(2021)構建了一個基于密集塊和編碼解碼器的生成模塊以及鑒別模塊組成的GAN。并且在生成器的構造中,靈活設計了特征融合規則,擴大了算法的應用范圍。

卷積稀疏編碼(convolution sparse coding,CSC)起源于反卷積網絡,該技術的主要目標是在稀疏性約束下實現圖像的卷積分解。輸入圖像的多階段特征表示是通過發展這種分解的層次結構來從反卷積網絡中學習的。然后,利用這些多重分解層次對輸入圖像進行分層重構(Zeiler等,2010)。Liu等人(2015a)通過融合PET/MRI的感興趣區域(region of interest,ROI)來研究阿爾茨海默病的進展。Shi 等人(2017)通過使用堆疊去噪和稀疏自動編碼器(denoising and sparse auto-encoder,DSAE)融合MRI特征來判斷阿爾茨海默癥的發展程度。Islam等人(2019)比較了通過融合MRI/CT學習的SEA(stacked auto-encoder)的分類準確性,并基于單一模式,取得了更好的性能。循環神經網絡(recurrent neural network,RNN)的主要應用領域是語音識別和文本分析,Chen等人(2018)融合了CNN和RNN結構,利用RNN從MRI中提取特征,根據上下文信息,利用全卷積網絡推斷病變的概率。受限玻爾茲曼機(restricted Boltzmann machine,RBM)是玻爾茲曼機(Boltzmann machine,BM)的一種變體,RBM是由對稱連接的可見層和隱藏層組成的概率性、生成性、隨機性和雙向圖形模型,動機是從隱藏層的向后傳遞中生成輸入,并估計原始輸入的概率分布。Suk等人(2014)使用深度玻爾茲曼機(deep Boltzmann machine,DBM)進行深度特征融合,從PET和MRI中提取層次特征以提供阿爾茨海默癥的計算機診斷輔助,但由于融合概念的動機不足,在這一背景下開展的融合工作較少。

3 相關數據集及評價指標

3.1 多模態醫學圖像數據集

MMIF任務使用的數據需要通過配準注冊,因此多數研究人員傾向于使用公開的免費數據集。

3.1.1 OASIS數據集

3.1.2 TCIA數據集

腫瘤免疫圖譜數據庫(the cancer immunome atlas,TCIA)提供了20個癌種的免疫數據分析。腫瘤免疫圖譜數據庫由美國國家癌癥研究所(National Cancer Institute,NCI)癌癥影像計劃資助,合同由美國阿肯色大學醫學科學院管理。TCIA分別對每個病人進行分析,數據也提供下載,DICOM(digital imaging and communications in medicine)是TCIA用于圖像存儲的主要文件格式。網站還提供與圖像相關的支持數據,如患者結果、治療細節、基因組學、病理學和專家分析。大多數數據以DICOM格式存儲的CT、MRI和核醫學(例如PET)圖像為主,也提供或鏈接其他類型的支持數據,以增強研究效用。網頁中可以看到患者的ID、疾病、性別和年齡信息。該數據庫還提供了總共52個解剖器官的圖像,如乳房、胸部、大腦和結腸。

3.1.3 AANLIB數據集

美國哈佛醫學院提供了全腦圖譜的腦圖像數據集(the whole brain atlas,AANLIB),該數據集是在線公共訪問的,AANLIB數據集主要分為基于正常和病變的腦圖像。正常的腦圖像是2維或3維的,而病變圖像則進一步分為腦下疾病,包括腦卒中和腫瘤、退行性和感染性疾病,以及許多其他腦相關疾病。這個數據庫中的所有圖像都是GIF文件格式,易于使用。AANLIB數據庫專注于大腦圖像,并包含MRI、CT、PET和SPECT等成像方式。針對MRI圖像,AANLIB數據集提供了T1和T2加權的圖像,并且在網頁中可直接查看PET和MRI的疊加圖像。同一單元的不同模態病例圖像均已經過配準,是目前MMIF使用的最廣泛的數據集。

3.1.4 ANDI數據集

阿爾茨海默癥神經影像數據(the Alzheimer’s disease neuroimaging initiative,ADNI)研究的目標是使用生物標志物以及臨床措施來跟蹤疾病的進展,以評估疾病變化過程中的大腦結構和功能。ADNI研究人員生成的所有數據都輸入到美國南加州大學神經影像實驗室的數據存儲庫中。全球的研究人員可以提交在線數據訪問請求,并且通常在提交請求幾天后即可開始使用ADNI數據,包括認知/神經心理學、圖像、生物流體和遺傳數據集。ADNI主要針對正常衰老、早期輕度認知障礙和阿爾茲海默癥的醫學數據,其中包括MRI、CT和PET 共3種醫學影像。

3.1.5 JIC數據庫

英國約翰英尼斯中心(John Innes Centre,JIC)是一個獨立的國際植物科學、遺傳學和微生物學研究中心。該研究中心將細胞生物學、化學、遺傳學和分子生物學等學科作為主要研究內容。在細胞和分子生物學中,GFP圖像暴露在藍—紫外光下時顯示出明亮的綠色熒光,并提供了與生物活細胞中的分子分布相關的功能信息。然而,GFP圖像的空間分辨率較低,導致細胞缺乏特定的結構細節。PC圖像通過將透明標本的光相位移轉換為圖像的振幅或對比度的變化來可視化相位差,顯示了具有高空間分辨率的結構信息,如細胞核和線粒體。GFP和PC的融合圖像可以同時顯示相關生物活細胞的分子分布和結構信息中的細胞核和線粒體。在近幾年的圖像融合文獻中,針對醫學圖像的融合算法也常常在該數據集上進行驗證。

上述5個多模態醫學圖像數據集的主要信息如表1所示。

表1 多模態數據庫比較

3.2 評價指標

融合圖像的質量需要從主觀定性和客觀定量兩方面評價,目前沒有統一的評價標準。在定性評價中,根據每個算法的可視化結果,對其相關區域進行突出顯示以反映差異,這種評價方法相對主觀,主要基于人眼視覺觀察。對于定量評價,根據不同的方法特征和融合場景,選擇不同的客觀指標。目前已有數十個評價指標,例如結構相似性、空間頻率和平均梯度等。圖像融合的度量指標可分為4種類型,即基于信息理論的指標、基于圖像特征的指標、基于圖像相似性的指標和基于人類視覺感知的指標(Liu等,2012b)。

3.2.1 基于信息理論的指標

1)交叉熵(cross entropy,CE)。CE(Bulanon 等,2009)表達的是融合圖像與兩幅源圖像信息的差異度,一般是大于0的數,其定義為

(1)

式中,CEX,F表示計算圖像X與融合圖像F之間的交叉熵。X代表源圖像A或B,CEX,F的計算定義為

(2)

式中,hX(i)代表圖像的歸一化直方圖。較小的CE值意味著融合圖像與源圖像具有相當的相似性,表明融合圖像具有良好的性能。

2)熵(entropy,EN)。EN(Roberts等,2008)測量融合圖像中包含的信息,其定義為

(3)

式中,L代表灰度級的數量,pl表示融合圖像中相應灰度級的歸一化直方圖。較大的EN值表示更好的融合表現。

3)互信息(mutual information,MI)。MI(Singh和Khare,2014)測量從源圖像傳輸到融合圖像中的信息量,其定義為

MI=MIA,F+MIB,F

(4)

其中,MIA,F和MIB,F表示源圖像A和B向融合圖像中傳輸的信息量。MIX,F的定義為

(5)

式中,pX(x)和pF(f)分別代表源圖像X和融合圖像F的邊緣直方圖。pX,F(x,f)為源圖像X和融合圖像F的聯合直方圖。MI的值越大,代表越多的源圖像信息傳輸到融合圖像中,同時說明融合性能越好。

4)峰值信噪比(peak signal-to-noise ratio,PSNR)。PSNR(Jagalingam和Hegde,2015)表示融合圖像中的峰值功率與噪聲功率的比值,可以測量圖像融合過程中的失真。其定義為

(6)

式中,r為融合圖像的峰值,MSE為均方誤差,其計算式為

(7)

(8)

PSNR值較大,表示融合后的圖像更接近源圖像,失真程度較小。因此,PSNR值越大,融合性能就越好。

5)非線性相關信息熵(nonlinear correlation information entropy,NCIE)。NCIE(Wang 等,2008)測量源圖像A、B與融合圖像F之間的非線性相關性。首先,基于源圖像與融合圖像之間的非線性相關系數(nonlinear correlation coefficient,NCC)(Wang 等,2005),構造一個非線性相關矩陣R,具體為

(9)

利用R計算NCIE值,其值為

(10)

式中,λi是矩陣R的特征值。NCIE的取值范圍為封閉區間[0,1],其中,0表示最小非線性相關,1表示最大非線性相關。

6)空域和光譜信息熵(spatial-spectral entropy based quality,SSEQ)。SSEQ(Liu 等,2014)在圖像失真類型未知的情況下衡量融合圖像在空域信息和光譜信息兩方面的失真程度。其定義為

SSEQ=libsvm(mean(Sc),skew(S),

mean(Fc),skew(F))

(11)

式中,S和Sc分別表示局部空域特征和池化處理后的空域特征。F和Fc分別表示局部光譜特征和池化處理后的光譜特征。libsvm是一個支持向量機庫,mean指計算數據均值,skew指計算數據的偏斜度。SSEQ值越小,融合圖像的空域信息和光譜信息保留越好。

7)基于色調映射(tone mapped image quality index, TMQI)。TMQI(Yeganeh 和 Wang,2013)度量融合圖像相比于輸入圖像在亮度信息和對比度信息兩方面的丟失程度。其定義為

TMQI(IR,IF)=aTα+(1-a)Mβ

(12)

式中,IR為輸入的源圖像,IF為融合圖像,T為結構保真度,M為圖像的統計特性,常數的取值為a=0.801 2,α=0.304 6,β=0.708 8。MQI值越大,表示其保留信息的能力越好。

8)歸一化的加權邊緣信息(normalized weighted edge information,QAB/F)。QAB/F(Sengupta 等,2020)是一種基于分數階微分、邏輯函數的融合圖像邊緣信息的度量指標。利用3個特征幾乎相同的S型函數,以邊緣強度和方向強度作為輸入,估計歸一化的加權融合度量。其定義為

QAB/F=

(13)

式中,A和B為源圖像,F為融合圖像。WA(x,y)和WB(x,y)分別為相對強度值RFA(x,y)和RFB(x,y)的權重,M和N為圖像尺寸。QAB/F值的典型范圍是從0到1。較低的值即接近于0對應較差的融合算法,而較高的值即接近于1表示更好的融合算法。

9)Arimoto熵度量(metric based on Arimoto entropy,AEN)。AEN(Li 等,2019a)是香農熵的一種推廣,基于Arimoto熵的性質,測量融合圖像中包含的來自兩個輸入圖像的信息量。其定義為

AEN(A,B;F)=Iα(F,A)+Iα(F,B)

(14)

(15)

式中,X代表源圖像A和B,Iα(F,X)表示F與X之間的聯合Arimoto熵。該值與融合結果的主觀效果相關,其值越大,融合性能越好。

10)梯度—強度混合信息指數(gradient-intensity mixed information index,GIMI)。GIMI(Wang 等,2018)是一種基于圖像強度互信息(MI)的度量指標。GIMI指數將梯度與強度結合在一起,以捕獲兩個體積之間的空間相似性,其中都涉及強度分布、類別和邊界信息。其定義為

(16)

式中,Hig(A,F)為源圖像A和融合圖像F之間的聯合熵,Hig(B,F)為源圖像B和融合圖像F之間的聯合熵。該值越高,說明其融合效果越好。

3.2.2 基于圖像特征的指標

1)平均梯度(average gradien,AG)。AG(Cui 等,2015)能夠測量融合圖像的梯度信息,并表示其細節和紋理。其定義為

(17)

2)邊緣強度(edge intensity,EI)。EI(Rajalingam 和Priya,2018a)測量圖像的邊緣強度信息。EI值越高,表示圖像越清晰,圖像質量越高。EI可以使用Sobel算子(Vincent和 Folorunso,2009)進行計算,其定義為

(18)

ESM=

(19)

4)標準偏差(standard deviation,SD)。SD(Rao,1997)反映了融合圖像的分布和對比度。其定義為

(20)

式中,μ表示融合圖像的平均值。人類的視覺系統對于對比度很敏感,因此高對比度圖像中的區域總是能吸引人類的注意。由于融合圖像的高對比度導致SD值較大,因此SD越大,說明融合圖像具有良好的視覺效果。

5)空間頻率(spatial frequency,SF)。SF(Eskicioglu和 Fisher,1995)可以測量圖像的梯度分布,從而揭示圖像的細節和紋理。其定義為

(21)

6)自然圖像質量評價指標(natural image quality evaluator,NIQE)。NIQE(Mittal 等,2013)從自然圖像庫提取特征,再利用多元高斯模型對這些特征進行建模以衡量融合圖像在多元分布上的差異。其定義為

NIQE=

(22)

式中,μF和μN分別代表融合圖像和自然圖像的高斯模型均值。covF和covN分別表示融合圖像和自然圖像的高斯模型協方差。NIQE值越小,表示其分布差異越小,融合效果越好。

7)基于相位一致性和標準差的聯合度量(joint measurement based on phase consistency and standard deviation,QPSD)。QPSD(Tang 等,2018)結合了一致性度量和標準差,提取圖像的顯著性特征來度量融合圖像的視覺質量。其定義為

QPSD=a(QP)b+(1-a)(QSD)c

(23)

式中,QP表示相位一致性度量,QSD表示標準差。a,b,c用來調整兩者之間的相關性。QPSD值越大,說明算法的融合性能越好。

3.2.3 基于圖像相似性的指標

1)結構相似性度量(structural similarity index measure,SSIM)。SSIM(Wang 等,2004)用于建模圖像的丟失和失真程度,從而重新反映圖像之間的結構相似性。SSIM由3部分組成,即相關性損失、亮度和對比度失真。源圖像X與融合圖像F之間的SSIM值定義為這3部分的乘積,其值具體為

(24)

式中,x和f分別表示滑動窗口中源圖像和融合圖像的圖像塊。另外,σx,f是源圖像和融合圖像的協方差,σx和σf表示標準差,μx和μf分別為源圖像和融合圖像的平均值。C1,C2,C3是當分母非常接近于零時用來避免不穩定性的參數。融合圖像與兩個源圖像之間的結構相似性SSIM定義為

SSIM=SSIMA,F+SSIMB,F

(25)

SSIM值越大,說明融合性能越好,最優值為1。

2)楊氏度量(Yang’s metric,QY)。QY(Li等,2008)是一種基于SSIM的融合質量度量指標,表示來自兩個源圖像的融合圖像F中保留的結構信息的量。其定義為

QY=

(26)

式中,w是一個局部窗口,而λ(w)定義為

(27)

式中,s是窗口w內圖像方差的局部度量。QY值越大,說明融合圖像中保留的源圖像信息越多,從而說明融合性能越好,QY的最大值為1。

3)特征相似性度量(feature similarity index mersure,FSIM)。FSIM(Zhang 等,2011)通過使用相位一致性特征(phase comgruency,PhC)和梯度幅值(gradient magnitude,GM)兩個特征進行質量評價。PhC刻畫圖像局部結構,GM計算圖像梯度特征,兩者互為補充。其定義為

(28)

式中,Ω是整個圖像像素空間,PhCm(x)=max(PhC1(x),PhC2(x))。FSIM值越大,則融合圖像和輸入圖像越相似,且融合質量越高。

4)梯度相似性(gradient similarity measure,GSM)。GSM(Liu等,2012a)用于衡量融合圖像與輸入圖像梯度信息之間的相似程度。其定義為

(29)

式中,C4=10-5,gF和gX分別為融合圖像F和輸入圖像X的中心像素梯度值。

5)多尺度加權融合質量度量(multi-scale weighted fusion quality index,MS-QW)。MS-QW(Martinez 等,2019)用于評估融合圖像的保真度,由多尺度計算和結構相似性評分組成。其定義為

(30)

式中,L為尺度總數,Il表示源圖像在尺度l上的多值圖。QW計算源圖像與融合圖之間的全局多尺度融合度量。其定義為

(31)

式中,λn(w)為局部權值,n為源圖像數量。MS-QW值越靠近1,說明融合性能越好。

3.2.4 基于人類視覺感知的指標

1)人類視覺感知(human visual perception,CB)。CB(Chen 和 Blum 等,2009)主要衡量人類視覺系統中主要特征的相似性。其定義為

βB(i,j)WB,F(i,j))

(32)

式中,WA,F(i,j)和WB,F(i,j)表示從源圖像轉換到融合圖像的對比度,βA和βB分別為WA,F(i,j)和WB,F(i,j)的顯著性映射。CB取值范圍為[0,1],CB值越大,說明融合圖像中保留的源圖像信息越多,從而說明融合性能越好。

2)視覺信息保真度(visual information fidelity,VIF)。VIF(Han 等,2013)是一種基于視覺信息保真度的圖像質量評價指標。VIF模擬了人類視覺原理,取得了較高的評價精度。其定義為

(33)

式中,FVID是扭曲的融合視覺信息,FVIND是非扭曲的融合視覺信息,pi是權重。

3)視覺顯著性指標(visual saliency-induced index,VSI)。VSI(Zhang 等,2014)利用顯著特征圖變化來計算圖像質量。研究發現,圖像失真會引起視覺顯著性改變,且兩者具有強關聯性。該指標包含3部分,即梯度SG、色度SC和視覺顯著圖VS,其定義為

(34)

式中,Ω是整個圖像像素空間,VSm(x)=max(VS1(x),VS2(x))作為S(x)的權重。

綜上所述,本文總結了圖像融合領域代表性的度量指標。需要注意的是,這些指標用于評價圖像融合性能,而不是產生融合圖像。也就是說,在應用這些指標之前,MMIF算法已經生成了融合的圖像F。所有的MMIF算法都以某些形式結合了源圖像A和B的信息,所以在實踐中,A=F或B=F通常不會發生。此外,兩個源圖像都包含重要的信息,因此有許多評價指標用于度量融合圖像F與源圖像之間的相似性。一個好的圖像融合算法應該從兩個源圖像向融合的圖像同時傳遞重要的信息。除此之外,UQI(universal quality index)、FMI(feature mutual information)、SCD(sum of the correlations of differences)、RMSE(root mean square error)、BIQI(blind image quality indices)、QM(multiscale feature based metric)、QS(Piella’s metric)、VAR(variance)、CC(correlation coefficient)、QG(the gradient-based metric)、QP(phase congruency-based metric)、QAC(quality-aware clustering)、LPIPS(learned perceptual image patch similarity)等也是圖像融合的度量指標。

4 實驗和結果分析

本文進行大量實驗評估MMIF算法的性能。實驗在具有NVIDIA RTX2080 GPU和i9-9900K CPU的計算機進行,各算法采用原文獻使用的參數。

4.1 實驗設置

實驗對22種MMIF算法進行比較,分別是EMFusion(enhanced medical image fusion)(Xu和Ma,2021)、FusionDN(densely connected network for image fusion)(Xu等,2020)、IFCNN(convolutional neural network for image fusion)(Zhang等,2020)、U2Fusion(unified unsupervised image fusion network)(Xu等,2022)、MSENet(multi-scale enhanced network)(Li等,2022b)、DPCN(detail preserving cross network)(Tang等,2021)、MSRPAN(multiscale residual pyramid attention network)(Fu等,2021a)、FusionGAN(Ma等,2019)、MSDRA(multiscale double-branch residual attention network)(Li等,2022c)、TL-SR(three-layer decomposition and sparse representation)(Li等,2021c)、NSST-CNPS(coupled neural p systems)(Li等,2021a)、NSCT-DTNP(dynamic threshold neural P systems)(Li等,2021b)、Cloud(Wang等,2022b)、GED(gradient enhanced decomposition)(Wang等,2022a)、TL-ST(three-layer representation with structure tensor)(Du等,2020a)、CFL(coupled feature learning)(Veshki 等,2021)、JBF-LGE(joint bilateral filter and local gradient energy)(Li等,2021d)、Re-LP(redecomposition Laplacian)(Li等,2020)、EIB(three-layer representation with enhanced illumination fusion rule)(Du等,2020b)、LLF-IJF(local Laplacian decomposition and iterative joint filter)(Li等,2022a)、DDcGAN(dual-discriminator conditional generative adversarial network)(Ma等,2020)和DSAGAN(generative adversarial network based on dual-stream attention mechanism)(Fu等,2021b)。其中,基于深度學習的方法11種,基于傳統的方法11種,部分算法可用于執行多種數據的圖像融合任務,如IFCNN和U2Fusion。FusionDN和FusionGAN盡管在設計時并不針對醫學圖像,但近期的MMIF算法文獻常用其作為對比算法。這22種方法的詳細信息如表2所示。

表2 對比方法詳細信息

本研究使用公開的美國哈佛醫學院提供的腦圖像數據集。該數據集包含多個模態的腦部疾病圖像,每幅圖像都經過圖像配準,大小均為256 × 256像素。采用6種病例圖像對以上方法進行實驗,每種病例分別收集10對模態對,共60對,120幅單一模態圖像,分別為腦弓形蟲病、多發栓塞性梗死的MRI-CT融合;萊姆腦病、輕度阿爾茨海默癥的MRI-PET融合;腦膠質瘤、海綿狀血管瘤MRI-SPECT融合的主觀效果。共采用15種客觀指標,分別為基于信息理論的EN、MI、TMQI、PSNR、SSEQ;基于圖像特征的AG、EI、QAB/F、SD、SF;基于相似性的SSIM、FSIM、GSM;基于人類視覺的VIF、VSI等指標。

4.2 融合性能比較

4.2.1 定性評價

圖8—圖13展示了上述22種MMIF算法的主觀效果。從6組實驗結果來看,基于傳統方法的MMIF具有更穩定的融合性能,主觀效果幾乎與文獻描述一致。傳統算法對于灰度圖像的信息保留相對較好,對于像素重疊區域容易受到偽彩圖像的高能量影響,使得融合結果更傾向于偽彩圖像而丟失了重疊區域的解剖細節?;诮Y構張量和顏色張量的TL-ST在多個病例中均未展示較好的融合性能,產生了不同程度的顏色失真。在多尺度幾何變換域中,NSST和NSCT兩種圖像分解方法表現出了較好的顏色保留能力。而基于局部拉普拉斯和重構拉普拉斯的方法在多個數據集上均產生了顏色失真。3種基于GAN網絡的方法經過代碼遷移后未能表現出與原文獻一致的主觀效果,融合結果在多個數據集上都產生了嚴重的顏色失真、信息丟失以及大量的圖像偽影。兩種基于通用框架的深度學習方法U2Fusion和IFCNN在醫學圖像數據集上出現了丟失灰度圖像細節的問題,尤其是在重疊區域較多的MRI-PET融合中,偽彩圖像擁有的能量大于灰度圖像,在進行特征融合時,偽彩圖像能獲得較大的權重,使融合結果向某一模態傾斜?;诩毠澅A艚徊婢W絡的DPCN方法在主觀效果上未能達到保留細節的目的,融合結果在多個數據集中都表現得過度平滑。EMFusion利用灰度圖像生成人工的偽彩圖像補充真實偽彩圖像進行顏色空間轉換后的馬賽克現象,但主觀效果產生了嚴重的顏色失真。FusionDN和FusionGAN不是針對醫學圖像設計的融合方法,在醫學圖像上沒有產生適應性和魯棒性?;诙喑叨茸⒁饬C制和殘差網絡的MSDRA和MSRPAN在兩種模態的重疊區域較小時,能夠有效保留灰度圖像的信息,產生高對比度的融合效果以及保留偽彩圖像的顏色信息,但是在重疊區域較多的病例數據上,融合結果同樣傾向偽彩圖像。

圖8 多發栓塞性腦梗死病例的CT-MRI融合結果

圖10 阿爾茨海默癥的PET-MRI融合結果

圖11 萊姆病的PET-MRI融合結果

圖12 海綿狀血管瘤的SPECT-MRI融合結果

圖13 腦膠質瘤的SPECT-MRI融合結果

4.2.2 定量評價

表3—表5展示了22種MMIF算法在CT-MRI、PET-MRI和SPECT-MRI 3組融合模態上的15組客觀指標,每組數據由每個模態的20個模態對取均值所得,文中僅展示至小數點后兩位,實際最優值以原始指標為依據給出??梢钥闯?,最優指標大多集中在使用深度學習的算法中。其中,FusionGAN在3種數據集上均能保持最高熵,表明其融合結果包含豐富的圖像信息。MSENet在MI指標上有良好表現,說明其能夠有效地將源圖像信息傳輸至融合圖像中。FusionDN在3種數據集上保持最優的TMQI值,說明該方法具有良好的亮度信息和對比度信息提取能力。DDcGAN和DSAGAN分別在CT-MRI和SPECT-MRI融合中取得最優的AG和EI值。說明這兩種方法對圖像梯度信息和邊緣信息具有較好的提取能力。EMFusion在PET-MRI融合中取得了最高的基于人類視覺特征的指標。從整體指標來看,基于GAN網絡的MMIF方法在提取圖像基本信息方面具有一定優勢;基于CNN的MMIF方法在提取和保留圖像特征上有明顯優勢。而傳統算法雖然沒有獲取最優指標,但結合可視化結果來看,傳統算法能夠提供更符合人眼視覺觀察的主觀效果。

表3 不同方法的CT-MRI融合指標對比

表4 不同方法的PET-MRI融合指標對比

表5 不同方法的SPECT-MRI融合指標對比

表6展示了22種融合方法在3種模態上的平均融合時間,傳統方法中基于多尺度變換的方法整體運行時間較長。在實際的臨床應用中,高效的融合算法更有利于醫學成像設備的發展。

表6 不同融合方法的平均融合時間的比較

5 當前挑戰與研究趨勢

根據以上內容可得出,無論是傳統方法還是深度學習方法都能夠在一定程度上取得優越的融合表現。隨著算法的不斷優化和醫學圖像數據集的不斷豐富,出現了越來越多融合效果好且模型魯棒性高的醫學圖像融合方法。但是,在醫學圖像融合領域仍存在一些問題。本文通過總結上述研究工作,提出在MMIF領域中一些尚未解決的挑戰和未來研究趨勢。

5.1 現有挑戰

現有MMIF算法主要面臨以下問題:1)有限的算法創新沒有推動MMIF產生質的飛躍,在助力圖像融合系統、圖像融合硬件設備發展過程中,算法創新性和性能提升帶來的推動力遠遠不夠。2)現有MMIF算法高度依賴圖像配準,配準的精確程度直接影響融合的結果。3)像素強度異常、特征缺失、傳感器誤差、空間誤差和圖像間的變異性導致的特征處理和提取算法中的主要問題仍是醫學圖像融合中的一個開放問題。4)在近幾年的MMIF算法中,對設備在采集圖像過程中造成的噪聲影響沒有過多研究,多數MMIF算法未驗證噪聲魯棒性。5)傳統的MMIF算法中仍然存在計算量大、自適應性差和高度依賴人工設計融合策略的問題。6)基于深度學習的MMIF算法對數據集的量級和模態類別多樣性的需求遠大于目前可獲取的內容,而網絡的構建、損失函數的設計以及實驗數據的設置同樣缺乏合理的可解釋性。7)圖像融合結果的評價高度主觀,針對其客觀指標沒有統一的標準,且目前沒有針對醫學圖像融合結果評價的客觀指標。

5.2 研究趨勢

深度學習方法具有非常好的特征提取能力,能夠完成絕大多數圖像處理任務,但在沒有ground truth的圖像融合領域,傳統方法仍然占據著一席之地。傳統方法基于圖像像素操作進行空間變換或系數變換。近幾年,越來越多的學者將兩者結合起來,充分利用兩者的優勢,其共同的研究趨勢在于:拓展多種部位多種病例的醫學圖像、提出適合醫學圖像融合的客觀指標以及拓展圖像融合的研究范圍。

6 結 語

本研究對國內外醫學圖像融合方法相關文獻進行歸納,將醫學圖像融合技術分為傳統方法和深度學習方法兩類。在傳統醫學圖像融合方法中,基于空間域和頻率域的融合算法是近年的研究熱點??臻g域技術利用底層像素級策略作用于圖像中的圖像元素值,融合過程相對簡單,算法復雜度低,通常計算量較少,在降低融合圖像的光譜失真方面具有較好的性能。缺點是融合結果在清晰度和對比度上并不優越,時常導致空間分辨率較低。在頻域,原始手段是通過計算傅里葉變換將輸入圖像從空域轉換到頻域,然后對轉換后的圖像應用融合算法,再進行傅里葉逆變換得到最終的融合圖像。這類方法通常采用多級分解來增強融合圖像的細節保持能力。輸出的融合結果具有較高的空間分辨率和高質量的光譜成分。然而,這種算法也依賴于細粒度的融合規則設計?;谏疃葘W習的方法主要是CNN和GAN網絡,主要優點是不再依賴于細粒度的融合規則設計,減少了人工在融合過程中的參與,更強的特征提取能力使融合結果可以保留更多的源圖像信息。然后,對現有多模態醫學圖像數據庫和融合質量評價指標進行全面概述。包括5個開源和免費訪問的醫學圖像數據庫OASIS、TCIA、AANLIB、ANDI和JIC。常用的融合圖像評價指標可以歸納為4類,即基于信息論的指標、基于圖像特征的指標、基于圖像結構相似性的指標和基于人類視覺感知的指標。此外,本研究進行大量實驗比較基于深度學習的圖像融合方法與傳統醫學圖像融合方法的性能。通過對定性和定量結果的分析,對醫學圖像融合技術的現狀、重點難點進行討論,并指出未來發展前景。

猜你喜歡
模態醫學圖像
基于BERT-VGG16的多模態情感分析模型
多模態超聲監測DBD移植腎的臨床應用
跨模態通信理論及關鍵技術初探
巧用圖像中的點、線、面解題
醫學的進步
有趣的圖像詩
預防新型冠狀病毒, 你必須知道的事
醫學
醫學、生命科學類
遙感圖像幾何糾正中GCP選取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合