?

基于示例選擇的計算機輔助乳腺鈣化簇檢測研究

2015-04-14 12:28李耀琳王小東卜起榮陳寶瑩
計算機工程與應用 2015年1期
關鍵詞:分塊示例紋理

李耀琳,馮 筠,王小東,卜起榮,陳寶瑩

1.西北大學 信息科學與技術學院,西安 710127

2.第四軍醫大學 唐都醫院 放射診斷科,西安 710038

1 引言

乳腺癌是婦女常見的惡性腫瘤之一,防治的關鍵在于早期診斷和早期治療[1],在乳腺癌的諸多影像檢查方法中,鉬靶X線檢查被公認為最主要、最有效的檢查手段[2]。乳腺癌的主要X線征象包括結節或腫塊、毛刺和成簇鈣化等,其中鈣化簇在乳腺癌的診斷中占有特別重要的地位[3]。然而早期乳腺癌的鈣化點容易被誤診漏診[4],隨著計算機技術的快速發展,針對鉬靶X線影像的計算機輔助檢測微鈣化簇已成為研究熱點[5]。

傳統計算機輔助檢測系統CAD(Computer Aided Detection)大都包含以下幾個部分[6]:(1)圖像預處理,即對影像進行去噪、增強和去除床板等;(2)提取感興趣區域 ROI(Region of Interest),即將疑似病灶的區域篩選出來;(3)特征提取,即提取出能夠將正常組織和非正常組織區分開來的特征參數;(4)模式分類,根據提取出來的特征,將疑似區域進行再分類,最終得到該區域是正常組織或是病灶的結論。其中,提取感興趣區域及分類器的設計是眾多學者研究的熱點。

在感興趣區域提取方面,Fam等人提出基于區域增長的ROI提取方法,根據強度差異進行區域增長運算并計算像素的強度梯度,判斷是否滿足均值和誤差標準,該算法的最大問題是所需的許多變量需要用戶自己輸入[7]。Nakayama等利用正交二維小波分析對乳腺圖像進行分解,得到每個像素的Hessian矩陣,通過檢測Hessian矩陣的特征值將ROI檢測出來[8]。Papadopoulos等人提出對整個乳腺區域進行增強,然后和原來的圖求差圖,得到本身具有高灰度值且相對于局部背景具有高灰度值的像素點,從而提取ROI[9]。

在分類器設計方面,劉敏華等人利用尺度空間濾波法得到乳腺圖像的顯著特征圖,再通過人眼視覺特性分割法得到粗檢測鈣化點二值圖像,并送入分類器進行檢測[10]。Alaylioglu等人將小波技術和神經網絡技術加以結合,先在小波域的高頻子帶中對微鈣化進行增強,然后再抽取其空間域和小波域特性,繼而利用人工神經網絡進行相應的分類[11]。Eila等人先用馬爾科夫隨機場方法去掉乳腺圖像中均勻的部分,再對剩下的區域利用支持向量機分類[12]。Harirchi等人提出基于兩層分類器檢測法,第一級的分類器判定乳腺圖像是否含有微鈣化點,若有則通過第二級的分類器進行判定其嚴重程度[13]。還有許多方法提出通過集成分類器,或者改善分類器性能獲得良好和快速的鈣化簇檢測效果[14]。

縱觀計算機輔助診斷研究文獻,提取ROI的方法目前分為兩種:手工標注和半自動化提取[15]。手工標注雖然能夠得到較為精確的ROI區域,但是由于需要專業醫生人工確定,往往需要花費大量的時間和精力;半自動化提取方式雖然在一定程度上緩解了手工標注的需要,但是仍要求有醫生手動提取的訓練樣本作為系統的初始條件[16]。更為重要的是,在傳統乳腺鈣化簇檢測系統中,分類性能的好壞主要依賴于感興趣區域的全面性、可區分性及特征集合的表征性能。在很多情況下,偽影和其他組織會被當做病灶提取出來,造成一個樣本具有多個ROI,使得病灶區域不確定而引入更多非病灶信息,產生大量假陽,造成分類效果下降。

基于病灶顯著特征的區域分割是提高檢準率,降低假陽性率的關鍵所在。能夠最大限度地從訓練樣本中學習特定種類區域特征的先驗知識,并且利用先驗知識進行有目的的區域分割,將是解決本問題的一個有效途徑。多示例算法作為這樣一種學習方式,使得在乳腺鈣化簇診斷中可以忽略ROI分割步驟,這樣既可以避免自動分割算法不精確帶來的分類誤差,也可以很大程度上減少醫生提供訓練樣本時手畫ROI的工作量。但是多示例學習一般需要花費大量時間迭代尋找最優概念點,因此訓練時間比較長。

為了解決上述問題,本文通過選擇正常組織區域訓練先驗知識,采用紋理統計建模進行區域的紋理和形狀的量化描述,以鈣化簇與正常組織的形狀和紋理差異為條件,通過與正常區域的平均模型進行曼式距離的比較,進行自動尋找最大可疑病灶區域。該疑似區域面積相等且具有唯一性。通過模式識別分類技術對可疑區域進行檢測,在無需人工提取ROI的前提下,不僅可以保持乳腺鈣化簇檢測精度,還能夠大幅度減少運行時間和存儲空間。

2 基于多示例的圖像分包

在本文中,首先提出面向乳腺鉬靶X線影像的示例打包方法。病灶圖像中至少含有一個分割區域為鈣化簇圖像包,正常圖像包中全部為正常組織區域。在進行每幅乳腺圖像示例選擇之前,必須給出可選示例集。而在沒有人工標定的情況下,為了不漏掉任何可疑區域,應該選擇一種整齊排列的分割方式,以便能夠涵蓋所有可疑信息。因此,本文采用正方形分割方式對乳腺圖像進行分塊。

2.1 乳腺鉬靶X線圖像分塊

在對乳腺鉬靶X線影像進行預處理之后,將圖像全局分塊,塊大小為bl×bl,每個圖像為一個包,包的已知標簽由醫生給定。每個塊為包中的一個示例(鈣化簇塊,非鈣化簇塊),示例未知標簽。分塊方式如圖1所示。

圖1 圖像分塊

圖中,分塊大小bl的確定是影響后續特征提取與統計模型的關鍵,過大過小都會影響分類結果。由于乳腺微鈣化簇的特殊性(形狀不規則,大小不一致),采用較小塊長,造成圖像塊中像素數量過少,且由于灰度共生矩陣是基于統計的紋理特征,所以塊小不能體現統計特性,同時斑點噪聲也較易影響圖像特征提取的質量,最終使得準確率下降。之后隨著塊長增加,圖像塊中信息量增加,準確率得以逐漸上升,但是增加到一定量,由于圖像塊太大,擴入過多復雜紋理信息,分類準確率反而下降。

根據醫學放射科對乳腺X線圖像中的鈣化簇的定義,區域內含有3個或3個以上鈣化點的才稱之為鈣化簇,且鈣化簇中的兩個鈣化點之間的距離一般小于2 mm。根據這兩個先驗知識,在預處理的二值化圖像上對每個檢測出來的疑似鈣化點進行計算,計算其臨近的4 mm×4 mm的鄰域內疑似鈣化點的數目,大于或等于3個則認為該疑似鈣化點鄰域內成簇狀分布,且在其鄰域范圍內的疑似鈣化點應給予保留。所以在進行乳腺鉬靶X線影像分塊時,bl取值以能覆蓋小范圍鈣化簇為基準。如果塊的長度小于4 mm,可能無法包含3個以上的鈣化點,難以形成鈣化簇特性,因此,塊的長度bl至少取4 mm。

由于各個X線影像分辨率的差異,塊的長度表現在像素上會有不同。其中塊的毫米長度bl與塊的像素pixel之間的轉化關系為:

其中DPI表示每英寸點數,反映掃描精度。另外,對于不同來源的影像,其分塊數目不同,但分塊標準仍以覆蓋最小范圍鈣化簇為基準。

2.2 乳腺鉬靶X線分塊圖像打包

本文采用一幅圖像作為一個包,每個包包含對應圖像的所有塊。換言之,每個正包和負包都應該包含bl×bl個示例。但是因為一幅乳腺圖像中,真正是乳腺部分的信息一般只占整個圖像的一半甚至更少,因此存在大量的冗余空白信息,如果把這些背景信息也算成包中的示例,一方面會影響包中信息的有效成分,另一方面會影響統計模型建立的真實性和正確性。必須刪除這些無用的塊。

通過提取所有塊的像素信息去刪除無用塊。在前期的圖像預處理中,已經剔除掉可能影響圖像質量的雜質,以及圖像背景上的機床、拍攝儀器的陰影等,所以這些背景塊的像素值基本都保持在某一較大灰度值,而且沒有任何紋理和幾何信息,因此很容易去除?;蛘呦戎苯訉︻A處理后的乳腺圖像進行區域分割,把乳腺部分分割出來,再進行分塊,這樣的塊就只包含乳腺信息。篩選后的塊分別被選入對應的包中,其中,正包中包含至少一個鈣化簇塊,負包中全部是非鈣化簇塊。打包方式如圖2所示。

圖2 分塊圖像打包

3 基于AAM算法的示例選擇

主動表觀模型(Active Appearance Model,AAM)作為一種參數化的形狀和紋理表觀模型[17],利用主成分分析對可變性目標的形狀和紋理進行統一建模[17]。AAM是近年來廣泛應用于模式識別領域的一種基于特征點的提取方法。它不僅考慮到了局部的特征信息,而且綜合了全局性狀和紋理信息,對這些局部特征和全局紋理進行統計分析,就可以建立物體的混合AAM模型。而乳腺鉬靶X線影像中鈣化簇與正常組織的區別主要表現在形狀和紋理特征的不同,對正常組織區域統一建模能夠學習非病灶區域的先驗知識,并且無需迭代尋找最優概念點,減少了運行時間和存儲空間。

但是,AAM模型目前僅廣泛用于人臉定位和識別,在計算機輔助醫學圖像檢測領域上的應用較少,只有張等人提出通過AAM算法對人工提取的ROI在不進行特征提取的基礎上直接進行乳腺癌檢測[18]。本文首次提出基于AAM的示例選擇算法,并用于計算機輔助乳腺鈣化簇檢測中,其流程圖如圖3所示。

圖3 基于示例選擇的計算機輔助鈣化簇檢測算法流程圖

3.1 基于AAM的紋理統計建模

由于正包中包含至少一個鈣化簇塊,負包中全部是非鈣化簇塊,可以確定大量的負示例,也就是非鈣化簇塊。本文抓住包的這一性質,對大量負示例建立統計模型,通過AAM算法對所有負包中的負示例建立平均模型,并計算未知乳腺圖像包中每個示例到平均模型的距離。

假設訓練樣本的所有負包中共有m個示例:

(2)計算未知包中每個示例與平均模型的偏移量:

(3)計算偏移量的協方差矩陣Ca:

(4)計算協方差矩陣Ca的特征值:,特征向量:。

(5)計算能使總貢獻率?t最大的前t個特征值:

3.2 基于曼式距離的示例選擇

以分塊圖像作為計算示例,在建立了大量正常組織區域的平均模型后,去衡量未知圖像塊與平均模型之間的差異性,即未知圖像包中的示例與平均模型的距離。差異性越大,距離越遠;反之,距離越小。

對于各個負包來說,與平均模型距離最近的示例可選做該包中最可能是非鈣化簇的示例,也就可以看成這幅圖像中的非鈣化簇可疑區域;同理對于各個正包來說,與平均模型距離最遠的示例可選做該包中最可能是鈣化簇的示例,也就可以看成這幅圖像中的鈣化簇可疑區域。由此可估計出每幅圖像中最接近臨床標定結果的代表示例,達到了在人工未標記的情況下自動選取最大可疑區域的目的。

由于每一幅乳腺鉬靶X線影像患病情況都是未知的,雖然并不確定代表示例的正負性,但是計算機輔助檢測的目標是找出有鈣化簇的圖像,所以本文的目標是找出每幅乳腺圖像中的疑似鈣化簇示例,避免漏診。因此,只要對所有未知圖像的示例與平均模型進行距離計算,其中距離最大的示例就最可能是鈣化簇疑似區域。

假設對應包中共有n個示例,l為距離平均模型最大的示例在其對應包中的編號,Dl代表n個示例中與平均模型最遠的距離。其算法流程如下。

(1)計算未知包中每個示例到平均模型的曼式距離:

(2)計算未知包中與平均模型距離最大的示例:

3.3 基于紋理和灰度的示例特征選擇

在選出乳腺鉬靶X線影像的疑似區域后,就轉化到傳統的模式識別分類上。雖然還要進行特征提取這一步,但是與傳統多示例算法相比,已經極大程度上減少了感興趣區域提取和特征提取的運算。因為多示例進行運算時,需要提前提取所有示例的特征去尋找最大概念點,并且在運算時多維特征的存儲和計算都會提高空間和時間的復雜度。而本文提出的算法在進行特征提取時只針對一個包中的一個示例,減少了不必要的運算,從另一方面減少了運行時間和存儲空間。

根據乳腺鉬靶X線影像的紋理和灰度表現形式,對提取的最疑似區域進行了主要特征的提取,如表1所示。

表1 乳腺圖像提取的特征

訓練樣本的特征向量,經過傳統分類器的學習,建立有效的先驗知識分類器。接著,用此分類器進行可疑病灶區域的分類,即為每幅乳腺圖像的鈣化簇檢測結果。

4 實驗結果及分析

4.1 實驗數據

從南佛羅里達州立大學提供的DDSM數據庫獲得740幅乳腺圖像(http://marthon.csee.usf.edu/Mammography/Database.html),其中病灶圖像380幅,正常圖像360幅。選擇訓練樣本300幅,包括病灶圖像150幅,正常圖像150幅,進行建模的負示例全部來自訓練樣本中的病灶圖像。測試樣本為440幅,全部通過本文算法自動提取可疑病灶區域。同時對西安市唐都醫院的乳腺鉬靶X線影像進行測試。數據實驗采用五重交叉檢驗。

由于DDSM圖像大小和亮度都不統一,先對其進行歸一化。歸一化后的圖像大小均為3 000像素×1 500像素,亮度為0~4 096的灰度值,如圖4所示。

圖4 原始圖像(DDSM)

對上述歸一化圖像進行10×5的分塊,每塊大小為300像素×300像素,并把每幅圖像的可用分塊圖像作為一個示例包,圖5給出兩幅圖像分塊后的示例。

圖5 分塊圖像(DDSM)

同理,對唐都醫院的乳腺圖像進行歸一化,并進行圖像分塊,每塊大小為256像素×256像素。

4.2 實驗結果

對DDSM訓練集中所有負包中的示例分別進行空域和頻域紋理統計建模,可以發現空域下的平均模型表現為普通圖像形式,而頻域下的表現為頻譜圖形式,其平均模型如圖6所示。

圖6 負包平均模型(DDSM)

測試集中各個包的示例與平均模型進行距離計算,取最大距離得到代表示例,把選擇的代表示例看做可疑病灶區域,某個包選擇的示例如圖7所示。

圖7 選擇的代表示例(DDSM)

對唐都醫院訓練集進行紋理建模,其空域平均模型和頻域平均模型如圖8所示。

圖8 負包平均模型(唐都醫院)

測試集中某個包選擇的代表示例如圖9所示。

圖9 選擇的代表示例(唐都醫院)

本文首先比較了基于空域紋理模型和基于頻域紋理模型提取可疑區域的檢測性能。使用KNN(k-Nearest Neighbor)分類器分類,其近鄰數k取1到15,DDSM數據和唐都醫院數據的檢測結果分別如圖10和圖11所示。

為了客觀地評價本文提出的算法和傳統多示例DD算法(Diverse Density algorithm)、人工標注ROI的強分類檢測算法的優劣,進一步進行了性能測試。人工標記的ROI區域和本文提出的空域及頻域示例均使用SVM(Support Vector Machine)分類器進行分類,其懲罰因子C=100,通過反復實驗選用徑向基核函數。表2顯示了4種算法在DDSM數據上的性能比較。

4.3 實驗結果比較及分析

圖10 KNN檢測結果(DDSM)

圖11 KNN檢測結果(唐都醫院)

表2 性能測試結果

從表2中,可以發現空域紋理建模比頻域的性能高,它們的訓練時間接近,但是空域下的檢測正確率高于頻域,真陽性率也高于頻域,并且假陽性率明顯低于頻域;頻域下的檢測性能雖然在時間方面快于DD算法,但真陽性率沒有DD算法高;空域下的檢測能力比DD算法強,不僅在檢測正確率上高出10個多百分點,真陽性率也略高于DD算法,而假陽性率明顯低于DD算法,并且訓練時間要短很多。而在有人工標注的情況下使用SVM進行檢測,其檢測性能與使用空域紋理建模持平,雖然其真陽性率稍高于空域,但是其人工標注的時間卻是巨大的。因此,通過本文提出的基于空域紋理建模的示例選擇方法,進行自動化提取可疑病灶區域是可靠的,并且能降低訓練時間。

圖10和圖11也給出了空域和紋理建模兩種算法的檢測結果,無論是DDSM數據還是唐都醫院的臨床數據,都顯示基于空域紋理建模比頻域紋理建模的正確率高,并且真陽性高,假陽性低,說明空域紋理建模下的示例選擇更勝一籌。

5 結束語

本文首次使用AAM算法解決了計算機輔助乳腺鈣化簇檢測中的人工標注ROI問題,通過建立正常區域平均模型進行病灶示例的選擇。實驗表明紋理統計建模對于解決人工提取ROI有一定幫助,達到在沒有人工標注感興趣區域的情況下,自動提取一個可疑病灶區域,也能有較高的鈣化簇檢測率,同時在一定程度上降低了時間和空間復雜度。

[1]Nielsen M,Karemore G,Loog M,et al.A novel and automatic mammographic texture resemblance marker is an independent risk factor for breast cancer[J].Cancer Epidemiology,2011,35:381-387.

[2]Dubey R B,Hanmandlu M,Gupta S K.A comparison of two methods for the segmentation of masses in the digital mammograms[J].Computerized Medical Imaging and Graphics,2010,34:185-191.

[3]Strickland R N,Hahn H.Wavelet transforms for detecting microcalcifications in mammograms[J].Medical Imaging,1996,15(2):218-229.

[4]Verma B,McLeod P,Klevansky A.Classifition of benign and malignant patterns in digital mammograms for the diagnosis of breast cancer[J].Expert Systems with Applications,2010,37:3344-3351.

[5]常甜甜,劉紅衛,王宇,等.基于分組特征多核支持向量機的微鈣化簇檢測[J].系統仿真學報,2010,22(5):1159-1161.

[6]付強,馮筠,王惠亞.基于動態特征子集選擇和EM-Bayesian集成算法的乳腺癌輔助檢測[C]//全國模式識別會議,2009:88-92.

[7]Fam B W,Olson S L,Winter P F,et al.Algorithm for the detection of fine clustered calcifications on film mammograms[J].Radiology,1988,169:333-337.

[8]Nakayama R,Uchiyama Y,Yamamoto K,et al.Computeraided diagnosis scheme using a filter bank for detection of microcalcificationclustersinmammograms[J].IEEE Transactions on Biomedical Engineering,2006,53(2):273-283.

[9]Papadopoulos A,Fotiadis D I,Likas A.An automatic microcalcification detection system based on hybrid neural network classifier[J].Artificial Intelligence in Medicine,2002,25(2):149-167.

[10]劉敏華.基于尺度空間濾波的乳腺X線圖像微鈣化點檢測及輔助診斷技術研究[D].秦皇島:燕山大學,2010.

[11]Tsai Nan-Chyuan,Chen Hongwei,Hsu Sheng-Liang.Computer-aided diagnosis for early-stage breast cancer by using wavelet transform[J].Computerized Medical Imaging and Graphics,2011,35(1):1-8.

[12]Eddaoudi F,Regragui F,Mahmoudi A,et al.Masses detection using SVM classifier based on textures analysis[J].Applied Mathematical Sciences,2011,5(8):367-379.

[13]Harirchi F,Radparvar P,Moghaddam H A,et al.Two-level Algorithm for MCs detection in mammograms using diverse-adaboost-SVM[J].Pattern Recognition,2010,75:269-272.

[14]Ramirez-Villegas J F,Ramirez-Moreno D F.Wavelet packet energy,Tsallis entropy and statistical parameterization for support vector-based and neural-based classification of mammographic regions[J].Neurocomputing,2012,77(1):82-100.

[15]李樹楠,萬柏坤,馬振鶴,等.基于小波變換的乳腺X線影像微鈣化點感興趣區域提取新技術[J].生物醫學工程學雜志,2005,22(2):360-362.

[16]Jo Eun-Byeol,Lee Ju-Hwan,Park Jun-Young,et al.Detection of breast cancer based on texture analysis from digital mammograms[J].Advances in Intelligent Systems and Computing,2013,194:893-900.

[17]Cootes T F,Edwards G J,Taylor C J.Active appearance models[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2001,23(6):681-685.

[18]張欣.基于統計模型的乳腺癌微鈣化點病灶輔助檢測研究[D].西安:西北大學,2010.

[19]Fu Zhouyu,Robles-Kelly A,Zhou Jun.MILIS:Multiple Instance Learning with Instance Selection[J].Pattern Analysis and Machine Intelligence,2011,33(5):958-962.

猜你喜歡
分塊示例紋理
基于BM3D的復雜紋理區域圖像去噪
分塊矩陣在線性代數中的應用
2019年高考上海卷作文示例
常見單位符號大小寫混淆示例
常見單位符號大小寫混淆示例
使用紋理疊加添加藝術畫特效
“全等三角形”錯解示例
TEXTURE ON TEXTURE質地上的紋理
反三角分塊矩陣Drazin逆新的表示
消除凹凸紋理有妙招!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合