?

基于機器學習的兒童顱骨畸形分類研究

2024-01-29 00:31張順雨胡駿林勇
軟件工程 2024年1期
關鍵詞:圖像處理

張順雨 胡駿 林勇

關鍵詞:顱骨畸形;集成學習;圖像處理;分類預測

0 引言(Introduction)

顱骨畸形[1]并不僅僅是外觀問題,更是影響兒童健康發育的重要因素。顱骨畸形會改變嬰幼兒面部形態,嚴重的畸形可能影響大腦發育,造成發育滯后的問題。顱縫早閉[2]是導致顱骨變形的常見原因,全球每10 000名新生兒中就有3.1~6.4人患病。目前,我國對兒童顱骨畸形的診斷和治療未有統一標準,診斷方法包括手工測量和CT臨床檢測以及近期出現的光學三維建模技術,手工測量和臨床檢測存在速度慢、過于依賴醫生經驗、患兒配合性差且測量精度不高等問題,光學三維建模診斷的精度也較難保證,CT圖像具有較高精度,但也需要依賴檢驗醫生讀片診斷[3]。因此,設計一套能夠自動對獲得的CT數據進行自動分類預測的模型,用于對兒童顱骨圖像的高精度分類預測,這對通過早發現、早診斷、早手術進而實現挽救患兒生命和改善癥狀直至徹底治愈具有重要意義。

1 研究現狀(Research status)

目前,機器學習在醫學圖像領域的應用越來越廣泛,但將機器學習用于顱骨畸形的研究并不多見,YOU等[4]使用遷移學習方法從CT圖像自動分類顱骨畸形,該方法首先從CT圖像切片中分割3D顱骨,通過半球投影將3D顱骨投影到二維空間以獲得二值圖像并進行數據擴充;其次在生成的數據集上對預訓練的深度學習模型進行微調,最終在數據集上的預測準確度達到了90%以上。SABETI等[5]將機器學習技術應用于新生兒顱縫早閉識別研究,頭部邊界采用GrabCut算法進行分割和識別,然后計算人體測量指標,如顱骨指數(CI)、顱頂不對稱指數(CVAI)、前中線寬度比(AMWR)、前后寬度比(APWR)、左右高度比(LRHR);分類器采用KNN(K-NearestNeighbors)、支持向量機(SVM)[6]、隨機森林和Bagging集成學習,預測準確率為0.85~0.92。此研究提出了5個常見的數值測量特征,為了進一步豐富對頭顱畸形進行量化的數值特征,LEI等[7]使用SVM和高斯徑向基函數考慮了非線性超平面,采用留一法交叉驗證優化軟間隔參數和高斯寬度;結合2D和3D形狀指數索引對顱骨畸形進行預測,準確率達到了0.958。但是,該研究只進行了單一模型的預測,其精度還有一定的提升空間。

針對上述研究的不足,本文設計了一套基于Stacking方法構建的異構分類器模型,并利用圖像處理的方式從CT數據集中提取出包括CI、CVAI、AMWR、WPWR、LRHR等9個量化特征,選用SVM、KNN、隨機森林(RandomForest)、XGBoost作為初級分類器,隨機森林作為次級分類器進行集成。實驗結果表明,本文構建的分類模型和量化特征在精度和分類性能上均優于之前的研究。

2 材料與方法(Materials and methods)

2.1 數據集介紹

本研究使用的數據集來自項目合作醫院提供的463例兒童顱骨CT掃描數據集,年齡分布為0~9歲,其中100例為患有顱縫早閉而導致顱骨畸形的頭部3D計算機斷層掃描(CT)數據,其余363例為正常的頭顱CT數據。

2.2CT圖像處理

為了從原始的CT圖像數據集中提取所需的數值特征,需要進行一系列的數字圖像操作,具體步驟如下。

為了完整地提取到頭顱模型的顱骨特征,并對所有樣本進行標準化處理,需要將原始的CT掃描切片進行面繪制,生成pcd格式的3D模型。由于拍攝環境存在噪聲[圖1(a)],因此需要對提取到的pcd數據進行過濾。本文將最大聯通區域提取算法[8]應用到點云數據中,結果如圖1(b)所示。本研究的興趣區域僅為頭顱部分,有別于臨床研究中的頭顱劃分方式,利用開源庫PCL(Point Cloud Library)進行點云運算,提取出3D模型中的z 軸中點以上的點云數據并保存[圖1(c)]??紤]到原始模型中,異常數據僅為100例,對異常模型的pcd數據進行逐層抽樣[圖1(d)],用此方案擴充后的顱骨畸形樣本量達到323例,與正常顱骨樣本363例的數據量基本平衡。

為了方便后續的機器學習和特征提取,需要將三維空間中記錄的pcd點云數據投影到2D平面中。在提取圖像的數值特征時,為了避免因圖像像素不同而造成的誤差,將所有圖像歸一化為512×512的像素大小。采用隨機翻轉和旋轉的方式對原始數據集進行擴充,擴充后的數據集大小為正常頭顱圖像樣本969例、畸形頭顱樣本1 164例。

2.3 特征提取

為了區別由顱縫早閉造成的顱骨畸形和正常顱骨,研究人員參考了目前針對顱骨畸形的研究文獻,提出了9個數值特征,包括描述正常顱骨和變形顱骨之間突出區域的判別形狀特征的4個指數CR、CPS、CES、NCES,以及5個顱骨測量指數CI、CVAI、AMWR、APWR、LRHR;9個數值特征名稱及其描述如表1所示。

2.4 特征預處理與分析

提取特征之后,為了保證數據應用于模型的適用性,并減少數據噪聲和異常值對模型精度和可靠性的影響,特進行了數據清洗、特征差異分析和正態分布糾正等操作。

本文采用Tukey方法[9]去除異常值,計算數據上下四分位數(Q1,Q3)和四分位距(IQR),根據Tukey的規則將位于1.5倍IQR之外的數據點視為極端值,將其從數據中刪除。將去除異常值后的數據繪制成箱線圖,來進行正常和異常樣本的特征差異分析,數據清洗后樣本箱線圖如圖2所示,從圖2中可見,多數特征具有較高的區分度,表明所選特征對于區分正常樣本和異常樣本是有效的。

顱骨畸形描述特征屬于隨機變量,從統計學的角度看,隨機變量的分布應該滿足正態分布,通常用偏度和峰度作為衡量數據符合正態分布形態的指標。由于樣本數據量有限和人為進行的數據增強,造成樣本分布很難滿足正態分布的要求,導致直接針對原始的數據集進行建模效果不佳,需要對數據進行正態分布糾正,以進一步提高模型的準確性和實用性。

分位數歸一化轉換法[10]可以將數據轉換為具有類似正態分布的形狀而不考慮特定的概率分布函數。該方法使用數據經驗分布的分位數(數據集中的百分比位置上的數值),具體來說:該轉換法首先計算輸入數據的經驗分布函數,并將其映射到均勻分布。然后應用逆變換函數將均勻分布映射到目標分布。將數據轉換為正態分布時,轉換的目標分布是正態分布。正態糾正后樣本分布統計表如表2所示。其中,偏度越接近0,則越接近正態分布,峰度為正表示數據分布更加陡峭或集中,而峰度為負表示分布更加平坦或散開。由表2可知,大部分特征經過糾正后基本能符合正態分布。

2.5 畸形分類模型構建

集成學習通過合并多個學習器進一步提升預測準確性。本文采用Stacking[11]集成的方式,首先從原始訓練集訓練出初級學習器,其次將初級學習器的預測結果作為新的數據集訓練次級學習器。在新的數據集中,初級學習器的輸入作為輸入特征,而樣本標記與原始數據集中的樣本標記一致,本文使用的初級學習器使用不同的學習算法產生,即初級集成是異構的。在訓練階段,次級訓練集是用初級學習器生成的,若直接用全部的原始數據集訓練次級訓練集,就會增大過擬合的風險,本實驗采用k折交叉驗證的方式生成次級訓練集,具體過程如下。

為了使每次劃分的訓練集足夠大,本文將初始訓練集D隨機劃分成k 個大小相同的子集D1,D2,…,Dk。Dj 表示第j折的測試集,DJ 表示第j 折的訓練集,其表示如下:

本文給定T 個初級學習算法,初級分類器l(j) t 為在訓練集DJ 上使用第t 個分類算法所得。其中,Dj 中的每個樣本xi為計算出的9維特征向量。初級分類器的預測結果為pit,表示如下:

由xi 產生的次級訓練樣本集示例為pi=(pi1,pi2,pi3,…,piT ),標記部分yi 為樣本的類別,其中正常樣本標記為0,異常樣本標記為1。于是,在整個交叉驗證過程結束后,從T 個分類器產生的次級訓練數據集如下:

將D'用于訓練次分類器STi,本實驗預選的次級分類算法的集合如表3所示,將選擇預測精度最高的預選次級分類算法訓練次級分類器,最終得到本文基于Stacking的異構分類器。

2.6 評估指標

為驗證不同分類模型的有效性,本文采用準確率(Accuracy)、查準率(Precision)、召回率(Recall)和F1度量對不同的模型進行評估。

對于二分類問題,TP 為真陽性,表示頭顱畸形的樣本預測結果也是畸形的;TN 為真陰性,表示頭顱正常的樣本預測結果也是正常的;FP 為假陽性,表示將正常的樣本預測為畸形;FN 為假陰性,表示將畸形的樣本預測為正常。

3 實驗結果與分析(Experimental result andanalysis)

對本文使用的初級分類器進行十折交叉驗證,計算準確率、查準率、召回率和F1度量在10次驗證過程中的平均得分以及標準差,初級分類性能評價指標得分均值與標準差(x±s)如表3所示。

由表3可知,排名前4的初級分類器分別為SVM、KNN、RandomForest、XGBoost,其精度分別約為0.822、0.955、0.859、0.912,性能優于其余的候選分類器。用排名最靠前的4個異構的初級分類器對原始訓練集進行預測,將預測的結果作為新的訓練集用于訓練次級分類器,并選出性能最優的次級分類器。次級分類器性能評價指標得分及標準差如表4所示。由表4中的數據可以看出,當用RandomForest作為次級分類器時,集成學習分類器的準確率約為0.984,相比其他次級分類器SVM(準確率約為0.981)、LR(準確率約為0.982)、Tree(準確率約為0.981),分別提升了0.003、0.002、0.003。

相比僅使用單一分類的模型中準確率最高,本文所提模型的精度則至少提升了0.1左右。綜合以上數據,本文提出的將SVM、KNN、RandomForest、XGBoost作為初級分類器,將RandomForest作為次級分類器的Stacking方法所集成的異構分類器的性能最優,精度約為0.984,準確率約為0.986,召回率約為0.979,F1得分約為0.982。為了更清楚地比較上述次級分類器和集成分類器的性能,特繪制出各分類器的ROC(受試者工作特征)曲線以及PR (查準率-查全率)曲線(圖3)。ROC 曲線邊界越靠近左上角邊界,AUC(曲線下面積)值越大,就表示分類器性能越好,PR 曲線直觀地展示了學習器在總體樣本上的準確率和召回率。由圖3可見Stacking異構分類器的PR 曲線完全包住了其余分類器,可以判斷Stacking分類器的性能最優。

4 結論(Conclusion)

本研究實現了一種用于自動判斷顱骨畸形的集成學習方法,該方法首先對原始的CT圖像數據集進行格式轉化,然后進行3D模型清洗、興趣區域提取、類別平衡、2D投影及數據擴充等一系列圖像處理工作,利用數字圖像處理的方式提取出用于訓練畸形判別分類模型的9個數值特征,并構建訓練集和測試集,最后對比了9種常見的初級分類器在訓練集上進行十折交叉驗證的評價得分,選出了SVM、KNN、RandomForest、XGBoost四種性能最優的初級分類器,用于訓練次級訓練器所需的新的訓練集,并在新的訓練集上選出最佳的次級分類器,至此構建了初級分類器為SVM、KNN、RandomForest、XGBoost,次級分類器為RandomForest的Stacking異構集成學習分類模型。實驗結果表明,本文實現的基于Stacking的異構集成學習分類模型能夠很好地區別頭顱畸形樣本和正常樣本,并且與單一分類模型相比精度更高、性能更好。

受限于項目初期樣本量,本文僅嘗試了基于機器學習的分類方法,在后期樣本量得到擴充后,將進一步研究深度學習的應用場景,以期進一步提高分類模型的泛化能力。對于建立的分類模型,將結合攝影測量技術,對采集到的攝影圖像進行分類判別,實現對兒童顱骨畸形的早篩。

猜你喜歡
圖像處理
海戰場偵察圖像處理技術圖譜及應用展望
人工智能輔助冠狀動脈CTA圖像處理和診斷的研究進展
基于ARM嵌入式的關于圖像處理的交通信號燈識別
基于圖像處理的機器人精確抓取的設計與實現
機器學習在圖像處理中的應用
Bayesian-MCMC算法在計算機圖像處理中的實踐
改進壓縮感知算法的圖像處理仿真研究
基于圖像處理的定位器坡度計算
基于圖像處理的晶圓表面缺陷檢測
對圖像處理中ROF全變分模型的兩種算法的比較研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合