?

統計學方法的合理選擇和常見誤區

2016-01-24 03:22史蕓萍劉軍廷么鴻雁于石成王琦琦胡躍華
中國防癆雜志 2016年5期
關鍵詞:均數定性定量

史蕓萍 劉軍廷 么鴻雁 于石成 王琦琦 胡躍華

?

·流行病學與統計學方法·

統計學方法的合理選擇和常見誤區

史蕓萍 劉軍廷 么鴻雁 于石成 王琦琦 胡躍華

統計學是幫助人們透過“偶然性”掌握事物發展規律的重要工具,但現狀卻是很多學者不重視統計學甚至不具備基本的統計技能。本文以“統計資料類型”為著手點,對統計學方法的選擇進行了系統介紹,并匯總了文獻中常見的統計方法誤區,期望引起廣大學者對統計學方法的重視。

統計學; 人口統計學; 生物統計學

統計學的應用貫穿于整個科學研究過程中,包括研究設計、資料收集整理、分析方法和軟件選擇,以及最終的結果解釋。英國著名統計學家高爾頓曾說:“統計學具有處理復雜問題的超凡能力,當科學探索者在前進的過程中荊棘載途時,惟有統計學可以幫助他們打開一條通道?!笨墒?,統計學也很容易被誤用或濫用。Nature雜志于2014年發表的評論文章Numbercrouch中提到:很多研究者缺乏統計學基本知識,普遍存在統計學方法誤用現象,在一些基礎科學領域這種情況十分嚴重[1]。關于文獻中的統計學問題,早在二十世紀30年代就已展開討論[2],來自不同領域的研究者們發現,很多科學文獻中存在統計學錯誤,甚至包括那些發表在影響因子很高的雜志的文章[3-4]。二十世紀80年代,國外的醫學文獻審稿人發現,統計學方法使用不正確的文章大約占50%[5]。我國學者也指出:“我國科技期刊,尤其是醫學期刊中,存在大量的誤用和濫用統計學方法的現象[6]。筆者就統計學方法的合理選擇進行匯總分析,并指出統計學方法選擇的常見誤區,旨在幫助讀者避免常見錯誤,正確使用統計學方法。

一、統計資料分類

合理選擇統計學分析方法的首要前提是正確識別統計資料類型。資料類型的現代劃分法將資料先分成定量資料和定性資料兩大類。其中,定量資料是測量每個觀察單位某項指標值大小所得到的資料;定性資料是觀測每個觀察單位某項指標質的狀況所得的資料。

定量資料又劃分為計量資料和計數資料。計量資料是指標的取值可以帶度量衡單位,甚至可以帶表示測量精度的小數位的定量資料,例如測量正常成年男女的身高(cm)、體質量(kg)、血紅蛋白(g/L)、體溫(℃)等所得的資料。計數資料是指標的取值可以帶度量衡單位,但不可以帶小數,只能取整數,通常為正整數的定量資料;例如,測得正常成年男子脈搏數(次/min)、引體向上次數(次/min)、現有子女數(個)等所得的資料。

定性資料又劃分為名義資料和有序資料。名義資料是指標的不同狀況之間在本質上沒有數量大小或先后順序之分的定性資料,可分為二項分類名義資料和多項分類名義資料。二項分類名義資料舉例:檢查某小學學生大便中的蛔蟲卵,以每名學生為觀察單位,結果分為蛔蟲卵陽性或陰性所得的資料;觀察某藥治療某病患者的治療結果,以每例患者為觀察單位,結果分為治愈和未治愈所得的資料。多項分類名義資料舉例:某學校全體師生按血型A、B、O、AB來記錄每個人的情況所得的資料;某鄉鎮全體居民按人群分類(散居兒童、幼托兒童、學生、教師、農民、工人、干部職員、家務及待業等)記錄每個人的情況所得資料。有序資料是指標的不同狀況之間在本質上有數量大小或先后順序之分的定性資料,例如:測定某化工廠全體職員血清反應,結果可分為“-、±、+、++”四級所得到的資料;觀察某藥治療某病患者的治療效果,分為治愈、顯效、好轉、無效、死亡所得到的資料。

二、描述性統計方法

(一)常用方法

對于定量資料,常用的描述指標分為兩類,一類是描述數據分布集中趨勢的指標,另一類是描述數據分布的離散程度的指標。其中,描述集中趨勢的指標主要包括算術均數、幾何均數、中位數;描述離散趨勢的統計指標主要包括極差、四分位數間距、方差、標準差、變異系數。

對于定性資料,常用的描述指標有相對數,包括比和率。相對數可以分為結構相對數和強度相對數,比反映部分與整體或某一部分與另一部分之間的關系,屬結構相對數;率反映某種事物或現象發生的強度,屬強度相對數。常用的相對數指標包括率、構成比、相對比、動態數列的定基比和環比。

(二)定量資料常見誤區

1.使用均數描述偏態資料的集中趨勢:算術均數適用于描述對稱分布資料,特別是滿足正態分布資料的集中趨勢;幾何均數適用于原始數據不對稱、但經對數轉換后呈對稱分布的資料。而中位數則適用于任何分布的資料,包括對稱的、偏態的、開口的。需要根據資料分布情況來選擇合適的描述指標,不能一出現對資料進行描述就采用均數加減標準差的形式。例如,描述正常人血鉛含量時,因血鉛含量呈偏態分布,不應再用均值來描述?!吨袊腊A雜志》2015年11月第37卷第11期的一篇文章[7]中,在描述“取樣時病程”和“取樣時抗結核治療時間”也是采用均數加減標準差的形式,但文獻中數據顯示,標準差與均值接近甚至標準差大于均值,數據資料明顯不服從正態分布,應采用中位數(四分位間距)描述更為恰當。

2.混淆標準差和標準誤:標準差用來描述數據分布的離散程度,表示觀察值之間波動的大??;而標準誤用來描述樣本均數間的離散程度,可以表示均數抽樣誤差的大小。前者可與均數一起計算正常值范圍,后者可計算置信區間,文獻中有混用現象。

(三)定性資料常見誤區

1.構成比與率混淆濫用:構成比只能說明事物各組成部分的比重或分布,率是用來描述某種現象發生的頻率或強度。兩者概念和計數方法都不同,所得結論也不同。文獻中容易發生用構成比代替率來表達強度,并得出錯誤結論。還要注意,不能用構成比的動態分析代替率的動態分析。例如文獻[7]中,描述研究對象的一般情況時,制作的表1將構成比以“率(%)”來描述,且表中數據與文中描述不符。

2.計算相對數的分母過?。喝绻^察單位過少,那么偶然性就大,則其可靠性就差。例如,觀察某藥物療效時,5例患者,4例有效,1例無效,不能說該藥物有效率為80%。一般當觀察例數較少時,如觀察例數少于30例時,采用絕對數表示為好。通常觀察單位足夠多時,計算出的相對數比較穩定,能夠正確反映實際情況。

3.相對數比較時忽略了可比性:影響率或構成比變化的因素很多,除了要比較的研究因素外,其余的影響因素應盡可能相同或相近。一旦其他影響因素不同或者差異很大而直接進行分析和比較時,往往會得到錯誤的結果和結論。但實際應用中,很多學者只關注研究因素,而把其余的影響因素,如觀察時間、地區、民族、性別、年齡等因素忽略了。例如,分析某工廠不同工種工人的疾病發病規律時,要考慮年齡、工齡、工種、病程、環境條件等因素;比較兩地人口某病發病及死亡情況時,應考慮兩地人口構成?!吨袊腊A雜志》2015年第37卷第9期中的一篇文章[8]對正常組和異常組利福平血藥濃度進行了比較,但治療時間的長短對血藥濃度有直接影響,文中就未考慮或未對治療和服藥時間因素進行交代。

三、推斷性統計學方法

(一)常用方法

對于定量資料,常用到的基本的統計學分析方法有t檢驗、方差分析、相關與回歸等。要想做到合理選用定量資料統計分析方法,關鍵在于做好以下兩點:第一,正確判斷定量資料所應用的實驗設計類型;第二,檢查資料是否滿足“正態分布、獨立性和方差齊性”3個前提條件。

對于定性資料,當原因變量全是定性變量時,常用到的基本的統計學分析方法包括卡方檢驗、秩和檢驗、Spearman秩相關檢驗、Kappa檢驗等;當原因變量既有定性變量,又有定量變量時,需要根據實驗目的來選擇是將資料離散化還是設置啞變量采用logistic回歸分析方法;當原因變量全為定量變量時,可直接采用logistic回歸分析方法。

(二)定量資料常見誤區

1.直接進行分析未判斷方法的前提條件:文獻中會出現拿到定量資料后不進行判斷甚至在不滿足前提條件的情況下,仍舊直接進行統計學分析。但不論是t檢驗、方差分析還是相關與回歸,都有著方法自身的前提條件。如t檢驗要求資料正態、獨立和方差齊性;直線相關分析要求雙變量滿足雙變量正態分布等。當資料不滿足條件時,可尋找其他分析方法。例如,t檢驗如果資料不滿足正態性條件,可以對數據進行變量變換后再進行正態性檢驗,然后進行分析;或者,可以采用非參數檢驗方法。

2.選擇統計學分析方法時未正確判斷實驗設計類型:多因素實驗設計本身就復雜,再加上收集資料表達形式多樣化(未必一定是標準的樣子),一旦缺乏一定的統計能力,就會被資料的表象所迷惑,不能正確判斷實驗設計類型,例如,將兩因素析因設計看成單因素四水平設計或成組設計。因此,成組、配伍組、配對、交叉等基本實驗設計方法一定要分清楚。

3.t檢驗的誤用:不考察定量資料所對應的實驗設計類型,不檢查定量資料是否滿足“正態、獨立和方差齊性”的條件,只要看到資料為定量資料,就使用t檢驗進行分析。成組設計、配對設計、單因素多水平設計的t檢驗互相混用,甚至對多組均數的比較也采用t檢驗進行兩兩比較。

4.方差分析的誤用:醫學文獻中經常涉及到重復測量資料,因重復測量數據間存在一定的自相關性和隨機誤差的多層次性,直接使用普通的方差分析方法來分析重復測量資料是不妥的。正確判斷資料實驗設計類型,如果為重復測量資料,應該采用重復測量的方差分析方法進行分析。

(三)定性資料常見誤區

1.對于四格表,不區分普通卡方與確切概率法:很多人在看到普通四格表定性資料時,隨手就進行普通卡方檢驗。其實應首先判斷資料的情況。例如,對于普通的四格表,當樣本量≥40并且所有理論頻數>5時,可以用普通的卡方檢驗;當樣本量≥40而有理論頻數在1~5之間時,應使用校正的卡方檢驗;當樣本量<40或者有理論頻數<1時,則應該使用確切概率法,不能在應該使用確切概率法時還在用普通的卡方檢驗。而在分析R×C表資料時,除了上述方法外,一旦分析的數據出現了理論頻數<1,或者理論頻數≥1且<5的格子數超過格子總數的1/5,還可以通過增加樣本量,使理論頻數增大;或者根據專業知識,刪去理論頻數太小的行或列,或者看能否將理論頻數太小的行或列與性質相近的鄰行或鄰列進行合并來解決。

2.對于復雜的R×C列聯表,不判斷資料是否有序:不同情況的列聯表,需選取不同的分析方法。對于復雜的R×C列聯表,要在錯綜復雜的實際問題中,看清事物的本質面目。例如,單向有序列聯表可采用“秩和檢驗或Ridit分析,或有序資料的logistic 回歸模型”進行處理;兩有序變量之間的相關關系可采用Spearman秩相關分析或典型相關分析進行處理;兩有序變量之間的線性變化趨勢可采用線性趨勢檢驗進行分析。對于高維列聯表資料,根據分析目的,則可選用加權卡方檢驗、對數線性模型、一般的logistic回歸模型或有序資料的logistic回歸模型進行分析。

綜上所述,只有在科學地進行實驗設計,合理地進行資料收集和數據整理,準確地判斷實驗類型的前提下,才有可能選取正確的統計學分析方法。在避開常見統計學錯誤的同時,還需注意統計圖表的表達、統計結果的表述等,也需要遵循統計學要求。

[1] Number crunch. Nature, 2014,506(13):131-132.

[2] Mainland D. Chance and the blood count. Can Med Assoc J, 1934, 30(2):225-227.

[3] Gore SM, Jones G, Thompson SG. The Lancet’s statistical review process: areas for improvement by authors. Lancet, 1992, 340(8811):100-102.

[4] Schor S, Karten I. Statistical evaluation of medical journal manuscripts. JAMA, 1966, 195(13):1123-1128.

[5] Glantz SA. Biostatistics: how to detect, correct and prevent errors in the medical literature. Circulation, 1980,61(1):1-7.

[6] 胡良平,李子建. 醫學統計學基礎與典型錯誤辨析.北京:軍事醫學科學出版社,2003:2.

[7] 梁瑞霞,谷蘊婷,董偉杰,等. 兩種分子檢測技術快速診斷骨關節結核及其耐藥性的研究. 中國防癆雜志,2015, 37(11):1126-1129.

[8] 鄧國防,孫麗珍,詹森林,等. 有機陰離子轉運多肽1B1基因多態性和利福平血藥濃度對肝毒性的影響. 中國防癆雜志,2015, 37(9):933-937.

(本文編輯:李敬文)

Proper selection and common pitfalls of statistical methods

SHIYun-ping*,LIUJun-ting,YAOHong-yan,YUShi-cheng,WANGQi-qi,HUYue-hua.

*DepartmentofStatisticsandInformation,BeijingCenterforDiseasesControlandPrevention,Beijing100013,China

Correspondingauthor:HUYue-hua,Email:huyueer@163.com

Statistics is an important tool that helping people master the law of things through the accidental, however, currently many scholars do not care statistics enough or even have no basic statistical skills. This article systemly introduces the selection of statistical method based on types of statistical data, as well as summarizes common statistical methods pitfalls in literature, in order to make scholars pay more attention to statistics.

Statistics; Demography; Biometry

10.3969/j.issn.1000-6621.2016.05.004

中國疾病預防控制中心青年科研基金課題(2016A201)

100013 北京市疾病預防控中心信息統計中心(史蕓萍);首都兒科研究所流行病學研究室(劉軍廷);中國疾病預防控制中心流行病學辦公室(么鴻雁、于石成、王琦琦、胡躍華)

胡躍華,Email: huyueer@163.com

2016-04-17)

猜你喜歡
均數定性定量
近紅外光譜分析技術在紡織品定性定量分析上的應用
分裂平衡問題的Levitin-Polyak適定性
多重熒光定量PCR法同時定量檢測4種混合熟肉種源
顯微定量法鑒別林下山參和園參
現代主義與20世紀上半葉中國畫“進步”之定性
10 種中藥制劑中柴胡的定量測定
宋代草市鎮研究中的定性與定量
關于均數與偏差
關于均數與偏差
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合