?

決策樹分析在高校大學生生活壓力影響因素分析中的應用

2013-12-03 07:35陳新林包生耿顏偉紅王小廣萬建成吳丹桂
衛生軟科學 2013年2期
關鍵詞:結點決策樹變量

陳新林,包生耿,顏偉紅,王小廣,萬建成,吳丹桂

(1.廣州中醫藥大學,廣東 廣州 510006;2.廣東外語外貿大學,廣東 廣州 510420;3.廣東藥學院,廣東 廣州510006;4.中山大學中山醫學院,廣東 廣州 510080;5.廣州醫學院,廣東 廣州 510182)

大學階段是人格發展,世界觀形成的關鍵時期。這一時期大學生要面臨著一系列重大的人生課題:如大學生活的適應、專業知識的學習、交友戀愛、擇業就職等。而且隨著社會的發展,大學生承受的壓力越來越大。但是,大學生由于身心發展尚未完全成熟,自我調節和自我控制能力不強。大學生面對復雜的問題,容易導致強烈的心理沖突,從而產生較大的心理壓力,甚至產生心理障礙或心理疾病[1]。這使得大學生的身心健康受到日趨嚴重的危害。而大學生的生活壓力受到很多因素的影響,本研究以廣州地區大學生為研究對象,試圖通過決策樹的方法以及 Logistic回歸方法探討影響大學生生活方式的因素,為促進大學生的心身健康提供科學依據。

1 對象與方法

1.1 對象及一般情況

采用多階段整群隨機抽樣方法,從廣州醫學院、廣州中醫藥大學、中山大學、廣東藥學院、廣州外語外貿大學隨機抽取學生。抽樣方式:以學院作為第二階段抽樣總體,以學院的專業作為第三階段抽樣總體,抽取到某專業的班級,則該班級所有學生均是調查對象。一共抽取到2319名學生,發放問卷2319份,回收2319份,回收率100%,有效問卷2306份,有效率99.4(94.7)%。

本研究采用劉賢臣等人于 1987年編制的青少年生活事件量表(ASLEC)[2];還調查了大學生的一般人口學特征(包括性別、年級、專業、家庭子女數等)及生活行為方式(運動、學習時間、人際關系、戀愛情況等)。

1.2 決策樹分析

本文采用C5算法和CHAID算法建立決策樹。

CHAID(Chi-square automatic interaction detection)算法是按照卡方檢驗的顯著性進行多元列聯表的自動判斷分組。其過程是:用自變量與結果變量進行交叉分類,產生一系列二維分類表,分別計算二維分類表的值,以產生 P值最小的二維列表的變量為最佳的初始分類變量,然后在此基礎上繼續分類,直到P大于設定的有統計意義的a值時停止[5]。CHAID算法是一個不斷合并和拆分的過程[6],每一個自變量每個水平都要兩兩配對比較,如果兩個類別相似的話就劃歸為一類,如果有差別就不能夠劃分為一組。決策樹生長“枝條”分割顯著性檢驗水準定為0.05。采用預修剪的方法,事先設定決策樹生長的深度為3層,事先指定母結點上的最小樣本量為80,子結點上的最小樣本量為40,如果結點上的樣本量達不到此要求,則這一結點為終末結點,不再進行分割。

1.3 統計分析

采用橫斷面調查方法。使用 Epidata對資料進行錄入。用SPSS建立logistic模型(前進法篩選變量)探索壓力總分的影響因素,使用Clementine軟件的C5.0算法和Answer Tree軟件的CHAID算法分別建立決策樹。

2 結果

通過前進法篩選后,經濟情況、兼職、家庭子女數、人際關系對生活壓力有影響(P<0.05)。其中經濟情況、人際關系是保護因素,家庭經濟條件好、人際關系好的大學生生活壓力小。而獨生子女、兼職是危險因素,獨生子女或者需要參加兼職的大學生生活壓力大(見表1)。

表1 Logistic回歸結果

C5.0決策樹分為三層(見圖1):樹的第一層是按照人際關系進行分枝,大學生生活壓力最主要的影響因素是人際關系。第二層是按照經濟情況進行分枝。第三層是按照子女數進行分枝。從整個決策樹分支可以看出,人際關系差的大學生最容易出現生活壓力問題(63.72%),其次是人際關系好、經濟情況好的獨生子女大學生 (59.79%)。而經濟情況好、人際關系好的大學生的生活壓力較小(38.22%)。人際關系好、經濟情況好的非獨生子女大學生的生活壓力也較小(49.05%)(見表2)。

圖1 C5.0分類樹形圖

CHAID決策樹分為三層,共7個結點(見圖2)。樹的第一層是按照經濟情況進行分枝。經濟情況差的那支又按照人際關系分支。第三層按照子女數分支。經濟情況好的那支按照人際關系分支。第三層按照參加兼職分支。從整個決策樹分支可以看出,經濟情況差、人際關系差的大學生生活壓力所占的比例最大(68.84%),其次是經濟情況好、人際關系差的大學生(60.23%)。另外,經濟情況差、人際關系好、獨生子女的大學生生活壓力大的所占比例也較大。經濟情況好、人際關系好的大學生的生活壓力都較小(見表3)。

表2 C5.0樹模型終末結點的分類規則

表3 CHAID模型終末結點的分類規則

3 討論

Logistic回歸可以直觀闡述各個因素對生活壓力的影響。通過前進法篩選后,經濟情況、人際關系是生活壓力的保護因素;而家庭子女數、兼職情況是生活壓力的危險因素。

決策樹分析采用的是一個多次分層的辦法,把樣本劃分為若干個亞群,生成的樹型圖非常直觀,能夠清楚地顯示出不同特征的亞群其發生不同結果的比例,而且在生成二維分類表時把解釋變量的類別進行了重新劃分。C5.0算法按照信息增益來對樣本進行劃分,CHAID按照產生P值最小的二維列表的變量進行劃分,兩者的結果大體相同。

C5.0和CHAID決策樹分析法只顯示出的是變量之間相互作用的關系,而無法反映因素的主效應和疊加效應。本文中,C5.0決策樹分析方法沒有體現出兼職這一因素的作用,但是logistic回歸中顯示這一因素的主效應有統計學意義。兼職與經濟情況存在密切相關,得到關聯系數等于 0.184;兼職與人際關系也存在關系。決策樹分析方法在納入了人際關系和經濟情況后,由于表現出大量的交互作用,可能就忽略了兼職的效應。但logistic回歸模型表明,這一作用是不可忽視的。

C5決策樹既可以非常直觀的解釋,也可以根據規則進行解釋,適合對某一屬性作深入的分析。決策樹容易理解、結果簡單、結構直觀,能清楚顯示對分類或預測有意義的變量,同時可以處理有數值型、兩分類和多分類資料,并且可以處理缺失數據,生成一些規則(從根節點到每個葉子節點對應的路徑就是“規則”)為決策提供依據[7]。

它可以分析類別變量、等級變量以及連續變量。CHAID算法是先固定一個首要影響因素,接著固定次要影響因素,而不是用窮盡法把每一種可能性都列舉出來,其對最末枝人群的劃分不是最優的分類,而是一種比較恰當的分類。它能夠給我們提供人群的劃分結果和劃分標準,并且能揭示自變量之間交互作用。Magidson[8]發現這種交互作用有一定的限制,其得到的是次要因素進行的交互作用,并不是全局的交互作用。Magidson認為進行Logistic分析時,首先需要用CHAID算法模型來進行檢驗,然后再建立Logistic模型。Green也認為CHAID算法模型能得到結果的基本結構,而Logit模型則能夠提供這些表述的參數[9]。

本次研究由于時間和客觀條件等因素的限制,所采用的生活壓力預測變量不盡完善,數據集中個別危險因素結果無統計學意義,如應對方式等因素未納入預測指標集。

本文旨在為大學生生活壓力的研究提供一種新的思路。不同屬性的大學生的生活壓力可能有不同的危險因素,應分別構建預測模型。開展大學生心理健康教育和指導時,要結合不同亞群人群的特點,有針對性開展;要特別關注人際關系差、經濟情況差或者獨生子女的大學生。

[1]倪有娣,樓美麗.大學生生活事件及應對方式的研究[J].杭州師范學院學報(醫學版),2005,(05):84-86,89.

[2]劉賢臣,劉連啟,楊杰等.青少年生活事件量表的編制與信度效度檢驗[J].中國臨床心量學雜志,1997,(5):34-36.

[3]方俊群,羅家有,姚寬保,等.C5.0決策樹法在出生缺陷預測中的應用[J].中國衛生統計,2009,26(5):473-476.

[4]張家旺,韓光勝,張 偉.C5.0算法在RoboCup 傳球訓練中的應用研究[J].計算機仿真,2006,23(4):132-134.

[5]石 玲,王 燕.嬰幼兒死亡危險因素的研究--兼論CHAID方法的原理及應用[J].中國衛生統計,2002,19(5):283-285.

[6]PERREAULT WD,BARKSDALE HC.A model-free approach for analysis of complex contingency data in survey research[J]. Journal of Marketing Research,1980,17(4):503-515.

[7]陸安生,陳永強,屠浩文.決策樹C5算法的分析與應用[J].電腦知識與技術,2005,(3):17-20.

[8]MAGIDSON J.Some Common Pitfalls in Causal Analysis of Categorical Data[J].Journal of Marketing Research, 1982,19(4):461-472.

[9]GREEN P E. An AID/Logit procedure for analyzing large multiway contingency tables[J].Journal of Marketing Research,1978,15(1):132-137.

猜你喜歡
結點決策樹變量
LEACH 算法應用于礦井無線通信的路由算法研究
基于八數碼問題的搜索算法的研究
抓住不變量解題
也談分離變量
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應用
分離變量法:常見的通性通法
變中抓“不變量”等7則
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合