?

利用SAS軟件快速方差分析多組資料

2018-06-13 06:58張白鴿
生物學雜志 2018年3期
關鍵詞:語句葉綠素辣椒

宋 釗, 張白鴿, 曹 健

(廣東省農業科學院蔬菜研究所 廣東省蔬菜新技術研究重點實驗室,廣州 510640)

SAS的英文全名是Statistical Analysis System,即統計分析系統,從20世紀60年代末期由美國北卡羅來納州立大學兩位教授開始發展的,是當今國際上最著名的數據分析軟件之一,目前已經與SPSS(Statistical product and service solutions)和BMDP(Bio Medical Data Processing)并駕齊驅[1],在國際上被譽為數據處理和統計分析的標準軟件系統,在國內廣泛用于農業試驗統計分析[2]。

對于SAS,SPSS和EXCEL等幾個數據統計軟件的使用已經有多篇報道從各方面進行了較多研究[3-5],比較各個軟件在實際使用過程的優缺點。由于SAS系統為全英文界面,對于英語基礎比較薄弱的使用者存在一定困難,并且程序模塊化,對于沒有計算機程序語言編程基礎的人員來說不易掌握[5],所以很長一段時間內國內研究者在進行單因素或者多因素方差分析時大多使用在農業生物統計中得到廣泛應用的Excel[6-7]。但是Excel只能給出方差分析表,不能進行平均數的多重比較和字母標記差異顯著性結果[5],不能同時對多組觀察值一次性全部進行方差分析,如果樣本數較多將費時費力并且容易出錯。本文介紹利用SAS統計軟件同時對20組辣椒品種在3個不同脅迫條件下辣椒葉片葉綠素含量數據進行方差分析,檢測同一個品種在不同澇漬脅迫條件葉片葉綠素含量差異顯著性,同時對20個品種間的葉綠素含量差異進行比較。

1 材料與方法

1.1 實驗材料

總計20份辣椒材料,為辣椒屬一年生種(CapsicumannuumL.),按照果實形狀可以分為尖椒、甜椒、美人椒和線椒4個類型,均為在華南地區栽培較廣,具有一定代表性的栽培種。

1.2 實驗方法

試驗在廣州市天河區五山路廣東省農業科學院蔬菜研究所旁邊科研基地大棚中進行,2015年4月15號播種,5月12間苗,5月15號開始脅迫處理。試驗設置1個對照和澇漬脅迫3、6和9 d等3個處理,然后恢復3 d,每個處理3個重復,每個重復每個品種10株,穴盤1孔放1株,品種隨機排序。對照進行正常田間管理,缺水后即澆水。澇漬脅迫方法參照尹冬梅等[8]的方法加以改進,水層高于辣椒植株根部2~3 cm,用帶體積刻度的量杯倒入等體積水量開始脅迫處理。

1.3 葉綠素測定

使用日本柯尼卡美能達(Konica Minolta)SPAD-502 PLUS葉綠素熒光儀對葉片的葉綠素含量進行測定,該儀器通過測量葉子對兩個波長段里的吸收率,來評估當前葉子中的葉綠素的相對含量,用SPAD值表示目前葉子中葉綠素含量相對應的參數。

1.4 數據分析軟件和方法

The SAS System for Windows Version 8.01 TS Level 01M0;SAS Institute,Cary,NC,USA(美國北卡羅來納州SAS研究所出品)。本試驗為平衡試驗設計,采用過程步PROC的ANOVA進行方差分析,同時進行Duncan′s multiple-range test多重比較。

2 結果與分析

2.1 辣椒葉片葉綠素測量結果

表1為澇漬脅迫處理后對照和3個處理的植株葉片葉綠素SPAD值,每個品種每個處理測量15個數據,20個品種4組數據總計1200個數據。限于篇幅表1每個品種只列出了5個重復數據,省去了小數點后面數值。

表1 20份辣椒材料澇漬脅迫下葉片葉綠素熒光SPAD值Table 1 Chlorophyll SPAD values of leaves of 20 pepper varieties under waterlogging stress

2.2 比較每個品種處理間的差異顯著性

2.2.1 建立SAS數據集

如表1數據在SAS系統中是不能直接使用的,需要轉換成SAS的格式,也就是建立數據集,我們通過SAS語言的數據步DATA中的INPUT函數和CARDS選項建立數據集。

核心代碼及說明如下:

DATA Work.yelvsu; /*輸入20個辣椒品種葉綠素數據*/

DO trt=1 TO 4; /*4個處理數序號,保留*/

DO t=1 TO 15;

INPUT brd1-brd20@@;

OUTPUT;

END;

END;

DROP t; /*15個重復數序號,丟棄*/

CARDS;

38 32 32 42 37 34 29 32 32 38 37 37 35 44 40 35 28 30 37 30

40 35 33 38 40 36 37 29 39 38 36 36 38 41 42 39 31 33 37 34

40 34 35 39 32 36 27 27 43 34 39 35 37 38 35 39 38 33 33 33

39 39 29 35 37 39 31 29 36 33 42 36 34 36 38 39 39 37 34 31

41 36 38 37 32 33 33 29 31 25 38 37 39 37 37 40 28 28 36 34

……(省略部分類似數據)

;

RUN;

“DATA Work.yelvsu;”語句建立臨時庫Work的數據集yelvsu;“DO trt=1 TO 4;”語句表示在最外層進行4次循環,因為有4組數據;“DO t=1 TO 15;”語句表示連續寫入15個重復值;“DROP t;”語句則表示重復次數1到15不需要寫入數據集,只寫入相對應的SPAD值;“INPUT brd1-brd20@@;”語句表示一行寫入20個品種的SPAD值;“OUTPUT;”語句表示將過程步中的數據輸出到數據集中保存起來;“CARDS;”語句則列出INPUT所有變量對應的數據,以“;”表示數據的結束。執行之后自動建立trt和brd1,brd2,brd3…,brd20等21列數據。只有當原始數據排列格式如表1時,使用上述SAS程序語句就可以直接建立適合SAS進行統計分析的數據集。

2.2.2 對20個辣椒品種同時進行方差分析

在Excel中只能對20組辣椒澇漬脅迫實驗數據逐個進行方差分析,在SAS中可以一次性對20組數據同時進行分析。使用SAS的過程步PROC對數據進行分析,同時進行DUNCAN多重比較,顯著性水平0.05。

核心代碼及注釋如下:

PROC ANOVA data=WORK.Yelvsu; /*調用上一步建立的數據集Yelvsu*/

class TRT;

model BRD1 BRD2 BRD3 BRD4 BRD5 BRD6 BRD7 BRD8 BRD9 BRD10 BRD11 BRD12 BRD13

BRD14 BRD15 BRD16 BRD17 BRD18 BRD19 BRD20=TRT; /*對20個品種進行方差分析*/

means TRT / HOVTEST=LEVENE; /*進行方差齊性檢驗*/

means trt / DUNCAN alpha=0.05; /*進行DUNCAN多重比較*/

RUN;

對本試驗而言,辣椒葉片葉綠素SPAD值是因變量,進行澇漬脅迫使得辣椒葉片葉綠素含量在處理間出現差異,那么脅迫處理為“因素”,加上對照,此“因素”具有4個“水平”,在單因素方差分析中該“因素”為自變量,自變量是唯一的。在SAS語句中,通過“class TRT;”語句將TRT設置為水平,對4個水平進行方差分析和比較。按照蓋鈞鎰[9]對實驗統計方法的描述,本試驗中對1個辣椒品種進行4個水平方差分析為“組內觀察值數目相等的單向分組資料的方差分析”,那么上述SAS語句“model BRD1 BRD2 BRD3 BRD4 BRD5 BRD6 BRD7 BRD8 BRD9 BRD10 BRD11 BRD12 BRD13 BRD14 BRD15 BRD16 BRD17 BRD18 BRD19 BRD20=TRT; ”可以一次性完成20組單向分組資料的方差分析,這樣就一次性對20個品種在澇漬脅迫3、6和9 d后葉片的葉綠素含量差異進行了顯著性分析,而不用重復20次相同的工作?!癿eans TRT / HOVTEST=LEVENE;”表示在方差分析之前先進行方差的齊性檢驗?!癿eans trt / DUNCAN alpha=0.05;”表示執行唐肯氏多范圍檢定(Duncan’s Multiple-Range Test),當進行顯著性水平為0.05的多重比較時,“alpha=0.05”參數可以省略。

2.3 比較辣椒品種間的差異顯著性

2.3.1 建立數據集

比較20個辣椒品種在3個處理與對照之間的葉片葉綠素SPAD含量差異顯著性,需要重新建立數據集。

核心語句及注釋如下:

DATA Work.yelvsu1; /*輸入所有品種葉綠素數據*/

DO trt=1 TO 4; /*4個處理數,保留*/

DO t=1 TO 15; /*15個重復數,不寫入數據庫*/

DO brd=1 TO 20; /*20個品種數,保留*/

INPUT spad@@;

OUTPUT;

END;

END;

END;

DROP t;

CARDS;

38 32 32 42 37 34 29 32 32 38 37 37 35 44 40 35 28 30 37 30

40 35 33 38 40 36 37 29 39 38 36 36 38 41 42 39 31 33 37 34

40 34 35 39 32 36 27 27 43 34 39 35 37 38 35 39 38 33 33 33

39 39 29 35 37 39 31 29 36 33 42 36 34 36 38 39 39 37 34 31

41 36 38 37 32 33 33 29 31 25 38 37 39 37 37 40 28 28 36 34

……(省略部分類似數據)

;

RUN;

由于是比較品種間在不同澇漬脅迫條件下葉片葉綠素含量的差異,那么這里可以把20個品種看成一個因素的20個水平,所以需要將所有20個品種葉片葉綠素SPAD值放到SAS數據集單獨一列中,以便進行處理間的方差比較,在SAS語句中通過添加一個循環來實現,具體語句為“DO brd=1 TO 20;”。執行之后數據集yelvsu1會產生trt,brd和spad共3列數據。

2.3.2進行方差分析

比較澇漬脅迫下辣椒品種間葉片葉綠素含量差異,并進行DUNCAN多重比較。

核心代碼和注釋如下:

PROC anova data=Work.yelvsu1; /*調用上一步建立的數據集Yelvsu1*/

class BRD;

model spad=BRD;

means BRD / HOVTEST=LEVENE;

means brd / DUNCAN; /*默認顯著性水平為0.05*/

RUN;

“class BRD;”語句是把所有20個辣椒品種看作一個因素的20個水平,比較20個辣椒品種間在澇漬脅迫下葉綠素含量是否存在差異顯著性。如果把所有的辣椒品種看成一個整體,比較4個處理之間在澇漬脅迫下葉片葉綠素含量是否有差異,在程序中把class的值修改為TRT即可。在進行多重比較時,不寫alpha參數值則默認顯著性水平為0.05。如果想同時比較不同品種間和不同處理間辣椒葉片SPAD值差異,按照蓋鈞鎰[9]對實驗統計方法的描述,此類分析屬于“組內有重復觀察值的兩向分組資料的方差分析”[9],即多因素方差分析。與楊孔雀等[10]使用的方法不同,SAS系統PROC步的anova分析主要研究單個因素對因變量的影響[11],多因素方差分析建議使用PROC步的GLM模型進行參數估計。

3 討論

在SAS數據集的建立方法上,除了本文所述采用DATA步的input函數方法外,還可以使用從外部導入數據文件的方法,但是在導入數據之前需要將數據整理成SAS所需要的格式。在農業生物統計中常常需要對大量的數據進行統計分析,在本篇文章中有1500個葉綠素SPAD值數據,在將該數據在Excel中整理成SAS所需格式時,由于數據超長,1500個數據就需要占用1500行,超過一個屏幕的高度,這樣在整理數據容易造成數據的丟失、重疊等問題。當使用SAS分析較大數量的數據時建議使用DATA步來建立數據集,盡量不要采用人工整理數據然后導入SAS的方式,避免人為錯誤導致分析結果的失真。

4 小結

使用SAS同時對20個辣椒品種進行差異顯著性分析,明顯比用Excel逐個進行方差分析更為方便快捷,并且能用字母標注法顯示各個品種在各處理間的顯著性差異。在SAS系統中Work數據庫是一個臨時庫,當SAS系統關閉時,臨時數據庫中的內容會被自動清空,所以在實際使用過程中建議單獨建立一個永久庫,這樣避免每次進行數據分析時都要重新建立數據集的麻煩。DATA步INPUT語句中的“@@”符號表示順序依次連續讀入數據,如果沒有此符號則按照行讀入數據。在實際SAS分析數據時我們往往遇到組內觀察值數據不完整的情況,這時我們可以將空格數據用英文狀態的“.”來代替,但是過程步PROC這里不能使用ANOVA,ANOVA主要對平衡實驗設計的數據執行變異數分析,對于不平衡試驗設計數據則建議用一般線性模型GLM進行變異數分析。

[1]彭紹英.世界統計與分析全才 SAS 系統應用指南[M].北京: 希望電子出版社, 2000: 1-868.

[2]顏亭玉, 杜曉林.SAS聚類分析過程在農業試驗統計分析中的應用[J].北京農學院學報, 2009,24(1): 73-75.

[3]周 倩, 張晉昕.含缺失值的重復測量資料分析在SPSS和SAS中的實現[J].循證醫學, 2013,13(2): 120-123.

[4]林 潔, 孫志明.SAS、PASS、Stata三種常用軟件樣本量計算方法及結果差異的比較[J].中國醫藥導報, 2015,12(18): 133-137.

[5]詹秋文.Excel和SAS在生物統計學的應用比較[J].生物學雜志, 2009,26(1): 74-76.

[6]霍志軍, 李菊艷, 潘曉琳.Excel在農業生物統計分析中的應用[J].現代化農業, 2003(9): 28-30.

[7]范 平, 崔黨群, 詹克慧, 等.Excel軟件在生物統計實驗教學中的綜合開發應用[J].實驗技術與管理, 2003,20(2): 65-69.

[8]尹冬梅, 管志勇, 陳素梅, 等.菊花及其近緣種屬植物耐澇評價體系建立及耐澇性鑒定[J].植物遺傳資源學報, 2009, 10(3): 399-404.

[9]蓋鈞鎰.試驗統計方法[M].北京: 中國農業出版社, 2000: 100-127.

[10]楊孔雀, 孫占育, 蒙惠軍.用SAS軟件進行組內有重復的兩向分組資料的方差分析[J].河北農業科學, 2010,14(10): 165-166.

[11]阮 敬.SAS統計分析從入門到精通[M].北京: 人民郵電出版社, 2009: 99-122.

猜你喜歡
語句葉綠素辣椒
辣椒也瘋狂
提取葉綠素
辣椒之爭
重點:語句銜接
揀辣椒
桃樹葉綠素含量與SPAD值呈極顯著正相關
葉綠素家族概述
由松針制取三種葉綠素鈉鹽及其穩定性的研究
如何搞定語句銜接題
作文語句實錄
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合