?

基于多任務循環神經網絡帶狀回歸模型的乳腺癌個體生存分析

2024-03-04 06:05羅智浩
廣東工業大學學報 2024年1期
關鍵詞:多任務校驗神經網絡

陳 睿,蔡 念,羅智浩,劉 璇,黎 劍

(1.廣東工業大學 信息工程學院, 廣東 廣州 510006;2.中山大學腫瘤防治中心 華南腫瘤學國家重點實驗室, 廣東 廣州510060;3.中山大學腫瘤防治中心 廣東省惡性腫瘤臨床醫學研究中心, 廣東 廣州 510060)

乳腺癌已成為全球最常見的女性癌病,是最致命的女性癌癥之一[1], 2020年約有68.5萬女性死于患乳腺癌[2]。研究發現部分乳腺癌患者在確診后十年期間仍存活于復發可能性的陰影之下[3],因此針對乳腺癌患者的預后管理顯得尤為重要,但其適用性和有效性又受限于臨床醫生頗具主觀性的專業經驗。近年來,生存分析[4]技術被用以輔助像乳腺癌這種發病不明顯、病程較長的疾病制定預后措施,研究人員將預后和預測特征即患者病理協變量獨立或整合以指導患者的治療[5]。鑒于個體化醫學的重要性,研究人員結合當下個體化醫學研究中流行的用于發現并識別復雜數據之間模式和關系的機器學習技術,對乳腺癌等長病程數據集進行個體生存分析。此類方法基于患者間的病理協變量表達差異實現個性化的生存風險估計,進而繪制患者個體生存曲線,以輔助實現精準醫療。

近年來,個體生存分析研究主要分為基于Cox比例風險假設的生存分析和無參數型離散生存分析。Cox比例風險模型假設獨立協變量對生存時間的影響不隨時間而變化,以評估多個協變量對生存的影響[6]。Katzman等[7]基于Cox對數比例風險假設搭建一個深度前饋神經網絡DeepSurv,用于預測患者協變量對風險率的影響。Lee等[8]使用一個共享子網絡以處理并預測時變協變量,同時設計多個特定原因子網絡捕獲特定原因風險同協變量之間的關系,構成Dynamic-DeepHit模型用于動態風險預測。Tang等[9]對刪失數據進行最大似然估計并結合常微分方程進行生存分析建模。上述單任務回歸模型遵循對數風險假設,導致乳腺癌患者間的風險函數永不相交,雖然可描繪出患者病情在總生存期中一個大致的走勢,但難以實現階段性且個性化的生存風險描述。Yu等[10]提出多任務線性回歸模型(Multi-task Logistic Regression, MTLR),其采用響應轉換的方式繞過比例風險假設以實現生存函數預測,但回歸器核心為線性變換,難以捕捉患者生存數據中的非線性關系。Fotso等[11]通過往MTLR中引入多層感知器,實現靈活的建模,并命名為N-MTLR(Neural Multi-task Logistic Regression)。Hu等[12]基于時下流行的Transformer網絡架構,使用有序回歸實現對時變生存概率的優化,但受限于多頭注意力機制在病理協變量對風險概率貢獻較均衡時難以分配權重。Wang等[13]提出了多任務帶狀回歸模型(Multi-task Banded Regression, MTBR),帶狀校驗矩陣的引入為響應轉換提供約束,解決風險概率下降緩慢導致的生存概率分配不均的情況。以上的多任務回歸模型采用線性變換或多層感知器進行響應轉換,使得協變量獨立于多個序列之間,難以提取出病理協變量對不同患者生存時間之間影響的異同關系,導致模型一致性指數下降。

為此,本文提出了一種新的多任務回歸模型RNN-MTBR(Multi-task Banded Regression via Recurrent Neural Network) 用于乳腺癌個體生存分析。首先,針對以往的多任務模型的回歸器無法使序列之間產生前后聯系的狀況,使用循環神經網絡(Recurrent Neural Network, RNN)[14]作為多任務回歸模型的核心,RNN可通過維護網絡過去的記憶,讓模型在提取病理協變量同生存時間的關系時能利用到序列的上下文信息。其次,將帶狀校驗矩陣改進并探究其對風險分布的作用效果。最后,在乳腺癌真實數據集上實現了對個體生存分析區分度的優化,成功驗證了模型的有效性。

1 乳腺癌生存分析

給定一個含有M名患者的乳腺癌生存數據集,設?i∈[1,M],(Xi,δi,ti)為一個數據點,其中包含生存時間、與生存時間有關聯的p維獨立變量Xi=和事件類型標簽 δi(0或1)。生存數據分為完全數據、刪失數據。完全數據指從觀察起點到發生死亡事件所經歷的時間均被觀察到的生存數據。刪失數據則分為左刪失數據、區間刪失數據和右刪失數據[15]。左刪失表示事件發生在觀察時間開始之前。區間刪失表示只能得知患者在不連續的2次隨訪區間中發生終點事件與否,而無法得知終點事件發生的具體時間。右刪失表示在隨訪觀察中,已知患者被觀察的起始時間,而無法得知患者發生終點事件的時間,其生存時間大于觀察時間。本文實驗中“刪失”數據只包含“右刪失”數據。

圖1 患者生存數據形式Fig.1 Forms of patient survival data

乳腺癌個體生存分析利用患者病理獨立協變量Xi與 生存時間ti建立一個乳腺癌風險隨時間變化的函數,常見為風險函數h(t) 、風險概率分布函數f(t)或概率累計函數F(t) 。

2 多任務循環神經網絡帶狀回歸

2.1 基本原理及流程

多任務方法通過在不同時間間隔上建立回歸模型,來計算乳腺癌患者死亡在每個時間間隔中發生的概率,使不同患者間的結果具有更為明顯的差異性。多任務回歸模型以響應變量的形式來分別代表患者在每一時間間隔的狀態(生存或死亡)。假設總生存期分為N個生存子區間,則在第j個生存子區間τj(左開右閉)內患者的響應變量為

且患者發生死亡事件后的所有時間間隔響應變量值將恒為1。因而患者的生存向量為

多任務循環神經網絡帶狀回歸模型的處理流程如圖2所示。將患者的病理協變量X輸入循環神經網絡回歸器中并以生存向量Y作為監督向量,多個回歸器輸出的生存響應 ψ (X)再經過帶狀響應轉換,則得到患者在每個生存子區間的風險概率,即可擬合出患者的生存曲線。

圖2 多任務循環神經網絡帶狀回歸模型的操作流程Fig.2 Operation process of RNN-MTBR

圖3 不同帶狀校驗矩陣轉換生成的患者生存曲線Fig.3 Survival curves generated by different banded verification matrices

2.2 帶狀校驗矩陣的優化

當乳腺癌患者的生存時間分為N個生存子區間,則多任務回歸模型的可信度矩陣[16]為

且必須保持矩陣主對角線占優,故矩陣需滿足各行和(對稱矩陣中同各列和)為1,且b0>b-1+b1。后續實驗將研究b-1、b1變化對患者生存概率分布的影響。

2.3 生存函數計算及損失函數設計

本文中乳腺癌患者的風險分布函數為

模型的損失函數由兩部分組成,第1部分為累計損失函數,公式為

3 實驗與討論

3.1 數據集與實驗預設置

本文采用METABRIC[18]和GBSG[19]2種常用的乳腺癌真實數據集來評估模型的性能。METABRIC數據集包含1 980例乳腺癌患者的9項特征記錄,其中約58%的患者死于患乳腺癌,中位生存時間為116個月。GBSG數據集包含2 232例乳腺癌患者的記錄,其中1 546例為淋巴結陽性乳腺癌患者,以及686例隨機臨床試驗的患者完整數據,刪失數據約占57%。

本文采用生存分析研究中常用的一致性指數(Concordance index, C-index)[20]作為評估指標,Cindex常被用于評價預后模型的預測精度,判斷出模型的區分能力,公式為

式中: φ(·)為 患者對的比較,η 為生存子區間的風險值。為了驗證模型的可靠性,將數據集以6:2:2的比例分為訓練集、驗證集和測試集,并采用更換隨機種子的方式進行10次實驗,基于正態分布法計算C-index的95%置信區間。RNN-MTBR的模型采用循環神經網絡作為核心,隱藏層維度為32,選用Adam優化器,Dropout概率設為0.1,學習率設為0.01。

3.2 實驗結果

3.2.1 帶狀校驗矩陣系數對患者生存概率分布的影響

3.2.2 帶狀校驗矩陣優化對性能的影響

圖4為各組分為正二對角塊非奇矩陣的帶狀校驗矩陣與優化為只含有主對角線元素和次對角線元素的Toeplitz矩陣生存模型C-index的對比。經比較,優化后帶狀校驗矩陣對模型性能的提升更大。

圖4 帶狀校驗矩陣優化前后模型C-index對比圖Fig.4 Comparison of C-index in survival models before and after banded check matrix optimization

3.2.3 生存分析模型性能對比

CoxCC[21]、DeepSurv[7]、DeepHit[8]、SODEN[9]、NMTLR[11]、Transformer-Based DSA[12]和MTBR[13]共7種生存分析模型作為RNN-MTBR的實驗對比模型。表1為各生存分析模型在乳腺癌數據集測試集上的Cindex值及95%置信區間。從表1可以看出,本文提出的RNN-MTBR模型效果在變更回歸器核心為循環神經網絡和優化了帶狀校驗矩陣后,模型在2個數據集上的預測性能相比原先的MTBR模型均有所提升,且同其他主流的生存分析模型相比具有最好的預測性能。

表1 各生存分析模型所獲取的C-index(95%置信區間)1)Table 1 C-index in 95% confidence interval achieved by each survival analysis model

圖5給出了幾種模型分別在GBSG數據集中擬合相同的5例乳腺癌患者的生存曲線的效果。CoxCC和DeepSurv屬于比例風險模型,該種模型默認所有個體擁有相同的基線風險,且實際風險與基線風險成正比,使得計算得到的患者間風險不會出現交叉,這與現實相悖。DeepHit沒有考慮對連續時間的尺度離散化,導致患者間生存曲線差異化不明顯。NMTLR將多層感知器引入多任務回歸中,能提取患者生存數據中的非線性關系,但存在響應轉換在閾值附近波動的現象,導致生存曲線中較多出現生存率下降幅度減小的情況。MTBR通過引入帶狀校驗矩陣有效抑制了響應轉換波動在閾值附近出現的現象,使得患者生存曲線能呈現較明顯的下降趨勢,但患者之間差異性的體現仍不明顯。RNN-MTBR將MTBR核心替換為RNN,輸入數據則得以在各時間步之間實現上下文關聯,并能在不同時間步之間共享權重,并合理調整帶狀校驗矩陣,使得患者生存概率下降幅度隨時間變化顯得更為合理且患者之間的生存曲線能有較為明顯的差異性,從而方便個性化預后管理的施行。

圖5 各生存分析模型擬合GBSG數據集中五名患者的生存曲線Fig.5 Survival curves of five patients in GBSG dataset fitted from each survival analysis model

4 結論

本文采用循環神經網絡作為多任務回歸器,優化設計了帶狀校驗矩陣,提出了一種多任務循環神經網絡帶狀回歸模型,并應用于乳腺癌個體生存分析。在2個乳腺癌真實數據集的生存分析中,多任務循環神經網絡帶狀回歸模型的C-index較醫學界常用的Cox比例風險模型提升了0.02,且有效縮小了95%置信區間。研究還通過可視化的生存曲線驗證了新模型對患者間區分效果的增益性。

猜你喜歡
多任務校驗神經網絡
神經網絡抑制無線通信干擾探究
基于中心化自動加權多任務學習的早期輕度認知障礙診斷
爐溫均勻性校驗在鑄鍛企業的應用
基于判別性局部聯合稀疏模型的多任務跟蹤
基于多任務異步處理的電力系統序網絡拓撲分析
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
大型電動機高阻抗差動保護穩定校驗研究
基于加窗插值FFT的PMU校驗方法
鍋爐安全閥在線校驗不確定度評定
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合