?

樹結構組套索人腦超網絡構建與分類

2022-11-04 07:11聞敏劉永艷李瑤IBEGBUNnamdiJulian郭浩
科學技術與工程 2022年27期
關鍵詞:腦區聚類分類

聞敏, 劉永艷, 李瑤, IBEGBU Nnamdi Julian, 郭浩

(太原理工大學信息與計算機學院, 晉中 030600)

由世界衛生組織2020年的調查統計得知,全世界已有3.5億人為抑郁癥患者,根據相關新聞報道,每年有1%~6%的抑郁癥發病率[1],抑郁癥患者人數逐年上升,抑郁癥已成為危害人類健康的第二大殺手,其癥狀為情緒低沉、興趣衰減、行動積極性下降。在中國,抑郁癥還未被列入門診醫療保險慢性疾病的范疇,高額的心理咨詢費用也未被歸入醫保報銷領域。抑郁癥不僅會對患者的身心造成極大的傷害,勢必也會對患者的家庭造成不小的經濟壓力。近年來,全球性的抑郁癥患者比例的大幅度上升引起了世界各國的精神疾病研究人員的關注。由于精神疾病影響大腦的認知功能,而神經成像的宗旨也是在對精神疾病患者與正常人的大腦圖像進行分類。而這能夠在不同腦區之間的連接中確定精神疾病患者大腦的變化。腦區之間的連接是由神經成像數據,例如磁共振成像(magnetic resonance imaging,MRI)技術產生的,并使用功能、結構或形態網絡[2]表示。

對于現有的研究,許多方法被提出來用從靜息態功能磁共振成像(functional magnetic resonance imaging,fMRI)技術獲取的數據上進行腦網絡建模,如基于相關[3]的方法,基于稀疏[4]的表示方法等。而以上所提出的腦功能連接模型反映出腦區之間信息傳遞的二階關系。隨著功能性腦網絡研究的發展,有研究表明大腦區域之間的聯系,不僅是兩個腦區之間的信息傳遞,同樣包含大腦區域的多個腦區之間信息的高階傳遞。針對研究與抑郁癥相關的生物標志物,這種傳遞的高階信息對于提高識別抑郁癥的準確性至關重要。為此,一些研究人員開始使用超網絡來描述腦網絡[5]。

超網絡是基于超圖理論發展而來的,是圖的延伸,在超網絡中,一個腦區對應一個節點,多個腦區構成一條超邊,即在大腦區域內,多個腦區進行信息傳遞作用。然而目前大多數的超網絡的構建方法均是利用套索(least absolute shrinkage and selection operator,Lasso)[6]方法進行超網絡建模。然而Lasso的L1范數存在每個變量都是獨立估計的缺點,因此沒有考慮變量之間的關系和結構。研究人員更希望所有相關的腦區被作為一個組來選擇[7]。假定腦區分組為可用的先驗知識,并且它是以整組而不是用單個腦區作為變量選擇的單位。但該方法僅能在組級上選擇變量,缺乏選擇組間變量的能力,對于組套索來說它被擴展到一個更一般的設置[8]。在稀疏模式上有各種更復雜的結構,而不是簡單的分組信息。然而研究表明,生物信息領域不僅存在重疊組的情況(即某種功能可由多個腦區共同協作來實現,且某一腦區在同一時間下參加多種特定功能),還存在復雜的樹組結構問題[9]。為了解決這個問題,本研究考慮了大腦區域中的樹組結構問題,并引入了樹結構組套索方法來改進超網絡的構建。

為了增強組間差異表征能力,以準確地發現生物標志物以及疾病的病理機制,現提出利用樹結構組套索方法構建腦功能超網絡,力求創建更有效及更可靠的超網絡模型。該方法屬于層級樹結構,包括根節點(所有腦區),中間節點(對腦區進行分組)以及葉子節點(組中高度相關的一些腦區)。既可以通過事先定義分組,也可以事先對每組進行細劃,相當于組級以及組間都采用了預設組進行劃分,還可以解釋組間的覆蓋情況。

主要工作包括:①利用樹結構組套索的方法進行腦功能超網絡建模;②利用超網絡定義的三個局部聚類系數對構建的腦功能超網絡進行特征提??;③利用KS(Kolmogorov & Smimov)[10]非參數檢驗方法選取局部聚類系數指標間顯著性差異的特征;④使用支持向量機(support vector machine, SVM)[11]對顯著性差異特征進行分類,提供更準確和相關的成像標記。

1 材料和方法

研究可分為以下幾個流程進行:數據采集及預處理、使用基于樹結構組套索的方法進行腦功能超網絡建模、計算三個不同定義的聚類系數進行特征提取、采用非參數檢驗方法選擇最具差異性特征以及采用SVM方法進行分類。研究流程如圖1所示。

MDD表示抑郁癥患者;NC表示正常人;AAL表示自動解剖圖1 研究流程Fig.1 Research flow chart

1.1 材料與分析

1.1.1 被試信息

被試數據在山西醫科大學第一附屬醫院的放射科醫生在嚴格遵守山西醫學倫理委員會(編號:202013)和赫爾辛基宣言要求的情況下采集完成,并且數據采集工作之前,嚴格遵守漢密爾頓量表(Hamilton depression rating scale,HAMD)的規定,征得被試及其法定監護人的同意,和每位被試簽訂書面協議。實驗研究對象包括38名第一次發病,且未服用過藥物的抑郁癥患者(major depression disorder,MDD)和28名正常對照組(normal control,NC),總共66名被試。研究所有的被試均使用西門子3T系統進行功能磁共振(fMRI)掃描。被試的具體數據信息如表1所示。

表1 被試的具體信息Table 1 Specific information of participants

1.1.2 數據采集和預處理

為了保證數據的準確性,在掃描過程中,采用軟海綿將被試的頭部固定住以防因被試頭部晃動而產生數據誤差。除此以外,被試者要求在掃描過程中輕閉眼睛,腦部呈放空狀態,但不能陷入昏睡并保持思維清晰。實驗掃描參數設置如下:回波時間為30 ms,射頻重復時間為2 000 ms,層厚為4 mm,層間間隔為0,視野范圍為192 mm×192 mm,翻轉角為90°,存儲矩陣為64 mm×64 mm。

數據處理在MATLAB平臺環境下進行,且本研究利用SPM8 (http://www.fil.ion.ucl.ac.uk/spm)來完成本實驗的數據預處理工作。對于每一名被試,數據預處理步驟如下:由于fMRI信號的不穩定,每名受試者的前10卷功能時間序列會被丟棄。在對數據樣本采集時需要時間層校正和頭動校正,即除去超出允許頭動范圍的被試數據,頭動允許范圍為頭動小于等于3 mm且轉動小于等于3°,最終有2組抑郁癥及正常對照組數據因超過頭動允許范圍被丟棄,即最終得到66例被試數據。隨后,將圖像通過仿射變換標準化為3 mm×3 mm×3 mm2的蒙特利爾神經研究所(montreal neurological institute,MNI)標準空間中。

1.2 超網絡構建

1.2.1 稀疏線性回歸模型

采用稀疏表示[12]方法,利用 rs-fMRI時間序列構建成腦功能超網絡。首先通過自動解剖標記(anatomical automatic labeling,AAL)[13]模板將大腦區域分割為90個感興趣解剖區域(regions of interest,ROI),每個腦半球被均分為45個ROI,每一個ROI可被定義為腦網絡中的一個節點。在構建超網絡之前,需要提取各腦區的時間序列信號。其次,白質信號、頭動校正以及平均腦脊髓液(cerebro-spinal fluid,CSF)對信號的影響巨大,為減小實驗的誤差性,需要對每個腦區的平均時間序列進行回歸分析;最后,根據計算得到的殘差來構建腦功能超網絡。

稀疏線性回歸模型具體表示為

(1)

1.2.2 基于樹結構組套索方法進行腦功能超網絡建模

標準的Lasso方法假設所有的特征都是獨立的,但這并不適用于真實的特征是復雜關聯的情況。具體來說,研究表明腦區間經常協同工作來實現某種功能[14],因而套索方法缺乏組效應的解釋能力。鑒于腦區間存在的組結構問題,已有的研究針對群體結構問題引入了分組的方法模型[15],如彈性網(elastic net)方法、組套索(group Lasso,gLasso)[16]方法。但彈性網方法存在的主要問題之一是依據數學公式自動選擇組,缺乏腦區間組結構先驗知識的表達?;诖?,組套索解決了自動組選擇效應的問題,也就是可以人為事先定義分組情況,但該方法僅能在組級上選擇變量,缺乏選擇組間變量的功能。因此稀疏組套索(sparse group Lasso,sgLasso)方法[17]被提出用來改善腦功能超網絡的構建。該方法實現了能在組級和組間自由選擇變量的功能,但這種方法在選擇組間變量時是依據數學模型自動選擇組中一些腦區,認為與所選腦區存在信息交互。為了提高特征選擇的性能,有必要獲取模型中特征之間的結構關系。

圖2 樹組結構示例圖Fig.2 Example diagram of tree group structure

為了體現出樹形結構的層次空間關系,在進行超網絡建模之前,先使用K-means[18]聚類方法將所有腦區聚類為K組,即樹的第二層每個節點代表對腦區進行聚類操作得出的一個分組,每個葉子結點代表組中高度相關的腦區。隨后進行樹結構組套索方法的超網絡模型建模。

正則化目標函數優化模型為

(2)

1.3 特征提取

在得到了由樹結構組套索構建的腦功能超網絡之后,要對已構建好的腦網絡拓撲進行特征提取,用以分析網絡屬性。本實驗的特征提取由3個指標的計算組成,而這三個指標的計算為三個不同定義、不同關系的聚類系數[21]。從目前已有的研究中可以看出,聚類系數在很大程度上被用來評估超網絡局部屬性的性能。有關公式為

(3)

(4)

式(4)中:HCC2(v)為與節點v相連的鄰居節點的數量;N(v)為超邊中包含節點v及其相鄰節點的集合。如果?ei∈E且u,t,v∈ei,則I′(u,t,v)=1。

(5)

式(5)中:HCC3(v)計算超邊之間的重疊量,即指節點v的相鄰超邊,鄰居區域的密度由鄰居區域的超邊重疊量來表示;|e|為超邊中包含的節點數目;S(v)表示超邊的集合,在這些超邊中都包含節點v,S(v)={ei∈E:v∈ei}。

1.4 特征選擇與分類

特征選擇是機器學習中最常見的問題之一,其目的是選擇最具判別性的特征進行分類和預測。從已構建好的腦功能超網絡中提取出270個特征,但這些特征并不都是最具差異性特征,它可能會存在不相關或者虛假的屬性,因此要選取最具顯著性差異的特征并將其成功應用于分類。具體地說,分別對由根據抑郁癥患者和正常對照組這兩種被試構建出的腦功能超網絡中分別進行HCC1、HCC2、HCC3局部屬性指標計算,隨后將得到的270個節點屬性特征由已通過偽發現率(false-discovery rate,FDR)(q=0.05)[22]方法矯正的Kolmogorov & Smimov nonparametric test進行組間非參數檢驗,最后經由KS檢驗方法得出的每個被試的p<0.05的最具差異性特征,隨后將選取的特征用于分類。

在完成特征選擇以后,以選取的最具顯著性的差異特征作為分類標準構建分類模型,由此實現有效分類。因而在將分類特征進行分類前,需將具有顯著性差異的特征選擇出來,并將其計算得出它的算術平均值與標準差,降低因數據的不精確而導致的實驗誤差性,以此來提高分類準確率。分類問題作為機器學習下的一個重要問題,是為了對已有類標簽的訓練集數據展開訓練,構建相應的分類模型。在實驗分類過程中,使用SVM作為分類器,并使用腦網絡建模方法中常用的徑向基函數(radial basis function, RBF)作為核函數,并采用留一交叉驗證方法對分類模型的性能進行驗證。

2 實驗和結果

2.1 差異性腦區

為探究精神疾病大腦區域發病的病理機制,從抑郁癥患者和正常人的大腦區域中提取出差異性腦區。首先計算由樹結構組套索方法構建的超網絡得到的三個局部聚類屬性指標,并用KS非參數檢驗方法對其做分析研究,本方法下共得到10個MDD與NC之間最具顯著性差異的腦區,它們分別是:是右側眶部額上回(ORBsup.R)、右側補充運動區(SMA.R)、左側眶內額上回(ORBsupmed.L)、右側眶內額上回(ORBsupmed.R)、右側海馬旁回(PHG.R)、左側楔葉(CUN.L)、右側緣上回(SMG.R)、右側尾狀核(CAU.R)、左側豆狀殼核(PUT.L)、左側顳橫回(HES.L)。選擇出來的最具差異性腦區在目前已有的關于抑郁癥分類研究中已得到充分驗證??导位鄣萚23]研究證明了與健康對照組相比,青少年抑郁癥患者的右側眶部額上回的低頻振幅(amplitude of low frequency fluctuation,ALFF)值顯著升高。王利娟等[24]研究證明患有睡眠障礙的抑郁癥患者與健康對照組相比在右側補充運動區的局部一致性(regional homogeneity,ReHo)值顯著增加。Ying等[25]研究證明晚發性抑郁癥(late-onset depression,LOD)原發性病變的ALFF廣泛分布于左側眶內額上回。李璐莎等[26]研究證明與健康對照組相比,抑郁癥患者的右側眶內額上回的ALFF值在降低。Rolls等[27]研究證明了與未用藥的抑郁癥患者相比,接受藥物治療的抑郁癥患者的海馬旁回的功能連接性較低。Peng等[28]研究證明了焦慮性抑郁癥患者的左側楔葉的灰質體積大于健康對照組。Chen[29]等研究證明了與健康對照組相比,伴有抑郁癥的早泄患者右側緣上回的淋巴結參與減少。Filip等[30]研究證明了右側尾狀核區域的灰質體積的增加與核心評估分數顯著相關。王智等[31]研究證明了與健康對照組相比,刺激前治療難治性抑郁癥患者的左側豆狀殼核的功能連接較高。Hall等[32]研究證明了與健康青少年對照組相比,患有重度抑郁癥的青少年在左側顳橫回區域中看到可怕的面孔時具有較低的激活性。通過樹結構組套索方法構建的腦功能超網絡選取的MDD與NC之間最具差異性的腦區名稱及p值對應表以及使用BrainNet軟件將最具差異性腦區映射到皮質表面的分布圖分別如表2及圖3所示。綜合分析看,本研究提取到最具差異性腦區與之前的研究結果基本一致,對抑郁癥診斷有著重要的意義。

2.2 分類表現

為有效研究新方法的性能優劣,基于樹結構組套索方法構建出的腦功能超網絡通過準確率、敏感度、特異度以及BAC(balanced accuracy)這四個方面來評估所建的模型的分類性能。分類準確率定義為抑郁癥患者及正常對照組可以被正確分辨的概率;靈敏度定義為抑郁癥患者可以被成功分辨為抑郁癥病人的概率;特異度定義為正常對照組可以被成功分辨為正常人的概率。為避免由數據集不平衡導致的膨脹性能[33],將敏感度和特異度的算術平均值來表示BAC,以此來減少實驗的誤差性。

表2 顯著差異腦區及其p表Table 2 Table of significantly different brain regions and their p

圖3 差異腦區分布Fig.3 Differential brain area distribution

綜合評估了該研究所述的方法構建的超網絡的分類性能,并結合傳統的腦網絡的構建方法、套索方法、彈性網方法、組套索方法以及稀疏組套索方法進行了對比分析的實驗。由于本方法具有預設組效應,在對超網絡建模以前采用的K-means聚類方法進行分組時具有隨機性,為了保證避免在對腦區分組時出現因分組隨機性而導致的實驗結果產生誤差,在每個實驗分組下分別以相同的操作重復做了50次實驗,隨后將每組實驗的結果進行算術平均運算得到均值作為實驗的最終結果進行對比分析。為了對比出基于本方法進行的腦功能超網絡建模和其他方法之間的差異性,本研究僅使用三種聚類系數進行特征選擇以及使用RBF核函數的分類方法,不同腦網絡的構建方法以及新的超網絡建模方法的分類結果如表3所示。結果表明,樹結構組套索方法下的分類性能要高于傳統的腦網絡構建方法、套索方法、彈性網方法、組套索方法以及稀疏組套索方法。

表3 各方法的分類表現對比Table 3 Comparison of classification performance of each method

3 參數討論

參數調優在整個實驗過程中是一項不可或缺的環節,參數的選擇會對實驗的最終結果造成不可忽視的影響。在本研究中,主要涉及在樹結構組套索方法下構建的超網絡選取的聚類數K和正則化參數λ對于最終的分類效果的差異性。為了分析這兩個參數對于抑郁癥患者和正常對照組之間分類效果的影響,以樹結構組套索進行超網絡建模構的方法進行了對比分析實驗。

3.1 聚類參數K的影響

為了體現出預設組的效應,本實驗在創建超邊前實選用了K-means[17]聚類算法進行聚類。參數k為在基于樹結構組套索方法下構建腦功能超網絡的分組數。分組數K值的選擇會影響到使用該方法構建的網絡拓撲結構同時也會對最終的分類結果產生影響。

為了探究分組數K對構建的網絡模型產生的影響,將聚類參數k的取值范圍設置為[3,90],步長間隔為3,總共30組實驗,在每一組的實驗下構建樹結構組套索方法的腦功能超網絡。根據聚類算法的特性,它在每次的聚類過程中都會進行一次中心點的移動,它會將中心點移動到每一次劃分的包含其他節點的平均位置上。因而在本部分的實驗,分組數K的選取具有不確定性,聚類的結果會因分組數K的選取而隨之改變,進而導致該方法構建的網絡拓撲結構及其最終分類結果產生不穩定的差異性。為了確保實驗的準確性,在每個實驗分組K下進行了50次實驗,并對每組實驗的結果求其均值作為該組的最終結果,最后將各組的實驗結果進行比對分析。如圖4所示,當K=57時,有最高的分類準確率,達到87.25%。

圖4 聚類參數k對應的分類結果Fig.4 Classification result of clustering parameter k

3.2 正則化參數λ的影響

構建樹結構組套索腦功能超網絡時通過設置λ來控制模型的稀疏度,即不同的λ會產生不同的超邊,進而產生不同的分類效果。采用升序的組合方法,共測試9組λ,它們分別為{0.1}, {0.1,0.2}, {0.1,0.2,0.3}, …, {0.1,0.2,…,0.9},分別采用這9組λ進行網絡建模,并選取最具判別性特征并進行分類。分類結果如圖5所示,結果表明,在λ采用{0.1,0.2,…,0.9}時,有最高的分類準確率,為87.25%,表明分類準確性可能隨著λ個數的增加而提高。

圖5 正則化參數λ對應的分類結果Fig.5 Classification result of regularization parameters λ

4 結論

近年來,靜息態腦功能超網絡已廣泛應用于腦部精神疾病的分類研究中。腦病變并非嚴格集中在一個地方,其周圍區域也有助于臨床診斷?,F有的超網絡建模方法在進行超網絡構建時不能有效考慮層次組結構問題。鑒于這個問題,提出樹結構組套索方法構建超網絡??梢酝ㄟ^事先定義分組,即對組級以及組間都采用了預設組進行劃分,并可以對組間的重疊性做出解釋。結果顯示樹結構組套索方法下得到的分類效果要優于其他方法,能更好地體現人腦中復雜的層次組結構關系。

盡管在目前的研究中,實驗已取得較好的結果,但仍存在局限性。首先,在構建模型之前采用K-means聚類方法進行分組時具有一定的隨機性,即使求取多次實驗結果的均值來減小誤差,但仍給實驗結果帶來一定的影響;其次,考慮到抑郁癥患者的隱私性問題,實驗的數據采集具有一定的難度,因而本實驗采用數據集的受試者數量較少。以上的幾個局限問題有待于日后的研究來改進。

猜你喜歡
腦區聚類分類
一種傅里葉域海量數據高速譜聚類方法
基于知識圖譜的k-modes文本聚類研究
長期戒斷海洛因成癮者沖動性相關腦區的結構及功能特征*
一種改進K-means聚類的近鄰傳播最大最小距離算法
基于模糊聚類和支持向量回歸的成績預測
再不動腦, 真的會傻
按需分類
教你一招:數的分類
說說分類那些事
止咳藥水濫用導致大腦結構異常
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合