?

基因與壽命關系的統計分析

2016-03-16 03:03王碩楊陳銳峰
環球市場 2016年12期
關鍵詞:因變量廣義線性

王碩楊 陳銳峰

山東大學

基因與壽命關系的統計分析

王碩楊 陳銳峰

山東大學

在人體眾多基因當中,人類的壽命只與某些特定的基因高度相關。本文以兩組獨立的基因組,每組200個基因作為研究對象,通過線性回歸模型的方法,對眾多基因進行篩選,找到與人體壽命高度相關的基因。額外的,本文還應用了廣義相關性測量的方法對基因進行篩選,通過結果的對比比較找到最佳的結果。

基因;制藥;線性回歸;一般相關性測量

1.線性回歸相關理論與方法的應用

本文首先檢驗所用數據的正態性,即所用數據是否滿足正態假設。篩選自變量是本文研究的重中之重,首先本文采用了線性回歸的思想和方法篩選自變量。在第一部分中,本文采取了前進法、后退法以及逐步回歸的方法,結合AIC、BIC作為基本準則,對自變量進行篩選。進而,本文采用交叉驗證的方法對得到的多個結果進行優化。

線性回歸過程:

1.1boxcox變換

1.2數據清理:本文采用R語言中的函數OutlierTest() 與cook's distance的理論來檢驗異常值,最終遵循保守的做法,保留下了除去因變量缺失或為0以外的所有數據。

1.3多重共線性的檢測:研究發現,一些自變量具有非常大的VIF值,進而本文發現多重共線性普遍存在于自變量之間,進而本文需做進一步的改善來消除多重共線性。

1.4自變量篩選:自變量的篩選是線性模型中最重要的一部分。本文采用了前進法、后退法以及逐步回歸法的方法篩選自變量,并且均分別結合了AIC、BIC作為篩選準則。對于以上提及的兩種準則,試驗分別產生了3個線性回歸模型。然后,本文通過交叉驗證的方法,將兩組數據組分別分成10個片段,找到使得CV值達到最小的模型作為本文該部分的最佳模型。

1.5線性回歸模型結論

剩余壽命作為因變量:基于交叉驗證的模型:就第一組數據組而言,基于AIC準則并采用前進法的模型被認為是自變量選擇的最佳模型。就第二組數據組而言,基于AIC準則并采用后退法的模型被認為是自變量選擇的最佳模型。篩選模型之后,明顯發現多重共線性得到了顯著的改善,VIF圖也證實了這一說法?;趌asso回歸的模型:就第一組數據組而言,最終保留下了4個高度相關的自變量(基因):PYY, FLJ20323, FNDC4, CELP;就第二組數據組而言,最終保留下了6個與因變量高度相關的基因:BRP44L, PYY,FNDC4, SLC38A3, CASKIN2, SPIN。

2.GMC模型篩選自變量

2.1函數選擇

2.2GMC過程

選擇一個函數。 設定λ1和λ2的值,或者設定單個λ的值。 然后預先規定一個參考值,選取跑完數據之后自變量系數大于該規定的參考值的自變量,記錄下篩選出來的自變量的指數,將其余的自變量的系數設定為0. 隨后通過篩選出的自變量的系數計算出廣義相關性測量的值。改變λ1和λ2的值,或者改變單個λ的值, 重復第二至第四三個步驟。 通過循環改變λ1和λ2的值(或者是改變單個λ的值)100次,找到結果最大的廣義相關性測量的值并找到相應的自變量,即本文得到的最終的模型。這些得到的自變量便是與因變量高度相關的基因組?;诓煌念A定的模型,重復步驟1至步驟6的過程,對每個模型找到使得廣義相關性測量達到最大值的自變量及廣義相關性測量的值,進而進行比較。

2.3GMC 模型結論

剩余壽命作為因變量:方法1:當采用函數g3(x)= x3時,兩個數據組的廣義相關性測量達最大值,并且值比其他四個函數均大恨多。因此最終本文選擇模型函數g3(x)= x3。方法2: 對于第一個數據組,當采用函數g4(x)= ex時,廣義相關性測量達最大值。此時函數g3(x)= x3同樣可以得到非常大的結果。對于第二個數據組,當采用函數g3(x)= x3時,廣義相關性測量達最大值。因此總的而言,函數g3(x)= x3最穩定,即為本文的最佳選擇。

3.結論

函數的選取在GMC的運用中是至關重要的,不同的函數可能會得到迥異的廣義相關性測量的值。從最終的結果我可以知道,當本文選取二次或三次函數時,得到的結果要優于其他函數得到的結果,尤其是三次函數表現最佳。這也就是說,因變量和擬合值之間很有可能是存在二次方或者三次方的關系的。同時本文注意到,因變量與自變量之間的相關關系也有可能因為R優化的局限性而被隱藏。舉個例子說明,廣義相關性測量的值在第二種方法中采用指數函數關系時突然變得很大,當出現這樣的情況時,我還需要做進一步的檢測。額外地,當本文對beta的值進行兩次優化時,結果會變得更高效,即廣義相關性測量的值會變得更大,然而這樣得到的結果非常接近于1,即失去了方法存在的意義。最后,本文還直接對總體自變量進行了抽樣選取,但結果發現這樣得到的結果不能覆蓋所有可能得到的結果,甚至不到其十分之一。

[1]Carroll, R. J. and Cline, D. B. H. (1988). An asymptotic theory for weighted least- squares with weights estimated by replication. Biometrika,75, 35-43.

[2]Carroll, R. J. and Ruppert, D. (1984). Power transformations when ftting theoret- ical models to data. J. Am. Stat. Assoc, 79, 321-328.

王碩楊(1994-),男,漢族,山東省青島市人,數學學士,單位:山東大學,研究方向:數理統計。

陳銳峰(1994-),男,漢族,重慶市人,學生,統計學士,單位:山東大學,研究方向:數理統計。

猜你喜歡
因變量廣義線性
漸近線性Klein-Gordon-Maxwell系統正解的存在性
Rn中的廣義逆Bonnesen型不等式
調整有限因變量混合模型在藥物經濟學健康效用量表映射中的運用
線性回歸方程的求解與應用
適應性回歸分析(Ⅳ)
——與非適應性回歸分析的比較
從廣義心腎不交論治慢性心力衰竭
二階線性微分方程的解法
王夫之《說文廣義》考訂《說文》析論
偏最小二乘回歸方法
廣義RAMS解讀與啟迪
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合