?

體育科學定量研究中測驗的信度與效度分析

2010-12-29 03:32劉照宇
體育教育學刊 2010年6期
關鍵詞:效度信度測驗

劉照宇

(南京師范大學 體育科學學院,南京 210046)

體育科學定量研究中測驗的信度與效度分析

劉照宇

(南京師范大學 體育科學學院,南京 210046)

在體育科學定量研究中,常需要借助一些測驗工具來搜集數據,而一份優良的測驗工具必須具備高信度和高效度兩個特征。分析了信度和效度的內涵、特性,重點討論了測量信度和效度常用的方法,及其如何借助SPSS軟件對信度和效度分析。特別指出增進信度的方法:清楚地概念化所有的構想;增加測量層次;使用多重指標來測量一個變量。最后,分析了信度和效度的關系。

體育科學;定量研究;問卷;量表;信度;效度

AbstractSports Science Dept.,Nanjing Normal Univ.,Nanjing 210046,China

在體育科學定量研究中,研究者常需要借助一些測驗作為搜集數據的工具。而一份優良的測驗工具必須具備高信度和高效度兩個特征。如此借由一份具有信度和效度的工具所測量搜集得來的數據,再利用適當的統計方法進行分析工作,所得到的結論,才能為人們所接受。然而許多研究論文在信度和效度的描述中存在概念混亂問題,使用的問卷中含有許多不適宜做重測信度檢驗的問題,及效度的評價過于簡單,不知道還有校標效度、結構效度等需要做定量化的考察。

信度

1.1 信度的含義及特性

信度即可靠性,它指的是采用同樣的方法對同一對象重復進行測量時,其所得結果相一致的程度。換句話說,信度是指測量結果的一致性或穩定性,即測量工具能否穩定地測量所測的事物或變量。信度是一個相對概念,并非絕對的有或無,而是一個程度上或多或少的問題。沒有一測驗是絕對可靠的,信度只是告訴我們測驗結果的可信程度。

信度具有以下特性:(1)信度是指測驗所得結果的一致性,而非測量本身。(2)信度值是指在某一特定類型下的一致性,非泛指一般的一致性。信度系數可能因不同時間、不同試題或不同評分者而出現不同的結果,如復本高,折半未必高。(3)信度是效度的必要條件,非充分條件。信度低效度一定低,但是高信度未必表示具有高效度。(4)信度檢驗完全依據統計分析方法,不管是采用“信度系數”還是“測量標準誤”作為測驗信度的指標,它們完全是一種統計量。

由于信度檢驗完全依據統計分析方法,因此它必須在測量實施后,根據所搜集到的數據,采用適當的方法檢驗測量結果的信度。當然,決定信度最理想的方法是在完全相同的情境下對一組樣本施測兩次,在比較其分數的差異情形,但是事實上這完全不可能,所以只有找替代的方案。

1.2 信度分析的基本方法

檢測信度的方法有很多種,主要的方法有重測信度法、折半信度法和 Cronbach’sα系數法,其中最常用的是第三種Cronbach’sα系數法,下面簡述各種不同方法的基本含義。

1.2.1 重測信度法

重測信度是以同一測驗在不同的時間對同一樣本施測兩次,計算兩次測試結果的相關系數。由于它是在檢驗樣本經過一段時間后,測驗結果的差異情形,所以它是一個穩定性系數,即跨時間的一致性。由于重測信度需要對同一樣本測試兩次,而被測容易受到各種事件、活動的影響,所以時間間隔需要適當。較常用者為間隔兩星期或一個月。

重測信度法適用于事實性問卷,也可以用于不容易受環境影響的態度、意見式問卷。

1.2.2 折半信度法

折半信度法是指將測量項目按奇偶項分成兩半分別計分,測試出兩半分數之間的相關系數,再據此確定整個測量的信度系數。折半信度屬于內在一致性系數,測量的事兩半項目間的一致性。由于分半信度只是半分測驗的信度系數,且在一般情形下,題數愈多則信度便愈高,因此分半信度通常必須進行校正的工作。常用的分半信度校正方法是斯皮爾曼-布朗(Spearman-Brown)校正公式。

折半信度在使用上確實比重測信度簡便,但是它不具有穩定的性質,且如何分半目前仍是一大爭議。其次,若測驗只是測量同一行為層面較無問題,但是如果同時測量多個層面,則隨機分半將是一件很危險的事。

這種方法不適合測量事實性問卷,常用于態度、意見式問卷的信度分析。

1.2.3 Cronbach’sα系數法

克朗巴哈α信度系數是目前最常用的信度系數??死拾凸列哦认禂凳橇勘碇许椖康梅珠g的一致性,屬于內在一致性系數。它避免了折半信度的缺點,它對量表或問卷的內部一致性作了更為慎重的估計,因為它相當于以所有的組合拆分量表所得到分半信度的平均值。不同研究者對信度系數的界限值有不同的看法,一般認為,0.60~0.65認為不可信;0. 65~0.70認為是最小可接受的值;0.70~0.80認為相當好; 0.80~0.90就是非常好。Streiner和Norman認為克朗巴哈α信度系數不宜高于0.9,以避免人為地通過增加問卷或量表中條目數量的方法達到提高α信度系數的目的,因為這種條目數量的增加僅僅是靠同一問題以差異甚微的不同方式多次出現在量表或問卷中而實現的。因此,一份信度系數好的量表或問卷最好在0.80以上。若分量表的內部一致性系數在0.60以下或者總量表的信度系數在0.80以下,應該考慮重新修訂量表或增刪題目。

表1 用SPSS軟件進行信度測量的調用與分析

這種方法適用于態度、意見式問卷(量表)的信度分析。

1.3 用SPSS軟件實現信度的測量

在SPSS for Window 17.0(Statistical Package for Social Science)統計分析軟件中Analyze分析菜單下的Scale下有專門的Reliability Analysis信度分析模塊,通過對該模塊的部分選項的選擇可以實現大部分的問卷信度分析。詳見表1。

1.4 增進信度的方法

任何能導致測量過程中產生誤差的因素都會影響信度。如導致產生不一致的事件方面(被測者的實際特征發生了變化、被測者的配合調查程度、外界環境的變化等);量表或問卷的設計方面(條目的級數、條目的數量、條目的代表性等)。

因此,完美的信度是罕見的。但是要想增進測量工具的信度,可以參考下面4條原則:(1)清楚地概念化所有的構想; (2)增加測量層次;(3)使用多重指標來測量一個變量;(4)使用前測、測試研究和復制。

1.4.1 清楚地概念化所有的構想

如果是對單獨的一個構想或構想的某個次維度進行測量,那會提高信度。這意味著研究者應當努力發展沒有任何模糊不清之處的理論定義。構想應該要有清楚明確的定義,以消除來自其他構想的“雜音”(例如,令人分心或干擾思考的信息)。每個測量工具都應該預測一個,而且是唯一的一個概念,否則就無法決定被預測出來的究竟是哪一個概念。

1.4.2 增加測量層次

測量層次比較高或比較精確的指標,可能會比測量層次不那么精確的指標,具有較高的信度,這是因為后者所獲得信息不如前者詳盡。如果要測量的是比較特定的信息,那么就不大可能會測到那個構想以外的其他事物。一般的原則是:盡可能以最精確的等級來測量構想。

1.4.3 使用多重指標來測量一個變量

增進信度的另一個方式是使用多重指標,因為對同一個構想,使用兩個或多個指標,會比只用一個好。多重指標允許研究者對一個概念定義的內容進行廣泛的測量??梢詫嬒氲牟煌瑢用孢M行測量,每個層面都有自己的指標。而且,一個指標(例如,問卷或量表上的一個題目)可能不夠完美,但是數個測量工具就不可能犯同樣的錯誤。多重指標測量工具會比單獨一個項目的測量工具更為穩定。

1.4.4 使用前測、測試研究和復制

增進信度的第四個原則是先行使用前測或測試版的測量工具。在正式使用最終版本進行假設檢驗之前,先就某個測量工具發展出一個或多個草案或測試版。這比較消耗時間和精力,但是能夠產生具有信度的測量工具。

使用測試的這個原則尚包括復制其他研究者使用過的測量工具。例如,通過查閱文獻、尋找過去研究曾經用來測量的工具。如果先前的測量工具是個好工具,我們可以以該測量工具為基礎并且使用它,當然要注明這個量具的來源。

效度

2.1 效度的含義及特性

測量的效度,也稱做測量的有效度或準確度。它是指測量工具或測量手段能夠準確測出所要測量的變量的程度,或者說能夠準確、真實地度量事物屬性的程度。就其核心,測量效度是構想與其指標間的吻合程度,觸及的是概念與操作性定義兩者間契合程度的問題。契合程度越高,測量效度就越大。獲得效度要比獲得信度更加困難。研究者無法得到絕對效度,這是因為構想都是抽象的概念,而指標則是具體的觀察。效度是動態過程的一部分,會隨著證據的積累與時俱增。如果沒有了效度,所有的測量都會變得毫無意義。

效度具有4個性質(Gronlund&Linn,1990):(1)效度是指“測驗結果”的正確性或可靠性,而并非工具本身;(2)效度并非全有或全無,只是程度上的差別;(3)效度是針對某一特殊功能或用途而言,不可以普遍性角度衡量;(4)效度無法實際測量,只能從現有數據中去推論。

2.2 常用的效度

常用的效度具有三種的類型,即內容效度、校標效度和結構效度。它們分別從不同的方面反映測量的準確程度。同時人們在評估各種測量的效度時,也往往采用這三種類型作為標準。

2.2.1 內容效度

內容效度指的是測量內容或測量指標與測量目標之間的適合性和邏輯相符性。也可以說是指測量所選擇的項目是否“看起來”符合測量目的和要求。內容效度涉及3個步驟。首先,明確指出某個構想定義的內容;其次,從該定義涵蓋的所有區域內抽取樣本;最后,發展一個涵蓋該定義下所有不同部分的指標。

評價一種測量是否具有內容效度,首先必須知道所測量的概念是如何定義的,其次需要知道這種測量所收集的信息是否和該概念密切相關,然后評價者才能盡其判斷能力之所及,作出這一測量是否具有內容效度的結論。內容效度的重要缺點是缺乏理想的數量指標,因而妨礙了信息交流和各測驗間的相互比較。

內容測驗對于能力傾向測驗和人格測驗一般是不適用的。因為能力測驗傾向和人格不像成就測驗那樣容易限定范圍。而且,通過檢查測驗的內容來準確確定所有要測量的心理特性,實際上是不可能的。

2.2.2 校標效度

如果測驗的目的是在于預測樣本未來的表現或是估計目前在其他測驗上的表現,可采用校標效度來檢驗測驗的效度。它是利用實證的方法,檢驗測驗與一些外在校標間的相關,當測驗與外在校標間的相關愈強時,我們說該測驗工具有很高的校標效度。最常用的校標效度的檢驗方法是相關系數。校標效度是一種屬于事后統計分析的效度檢驗方法。

2.2.3 結構效度

結構效度針對的是多重指標的測量工具。它通過利用現有的理論或命題來考察當前測量工具或手段的效度。它論及的問題是:如果這個測量工具有效度,不同指標會產生一致的結果嗎?結構效度檢驗的步驟包括:(1)建立假設性理論建構(包括建構本身及相關的理論假設);(2)根據步驟一編制一份檢驗,并對學生進行施測;(3)以邏輯或實證的方法檢驗該測驗是否能有效解釋所欲建構。

常用來檢驗結構效度的方法是因素分析。因素分析是一種利用相關系數找出一份測驗潛在共同建構(因素)的復雜統計方法。因素分析的基本原理是借助共同因素的發現,以驗證理論性心理特質建構的正確性。

2.3 用SPSS軟件實現效度的測量

在SPSS統計分析軟件中Analyze分析菜單下的Correlate下有專門的Bivariate分析模塊和Analyze分析菜單下的Dimension→Factor模塊,分別通過對某個模塊的部分選項的選擇可以實現大部分的問卷或量表效度分析。具體如表2所示。

表2 用SPSS軟件進行效度測量的調用與分析

信度與效度之間的關系

測量的效度和信度都是一種相對量,而不是一種絕對量,即他們都是一種“程度事物”。信度和效度都并非絕對的有或無,而是一個程度上或多或少的問題。

測量的信度和效度之間存在著某種既相互聯系,又相互制約的關系。一方面,信度是效度的必要非充分條件:信度低,效度未必低;信度高,未必效度高。另一方面,效度是信度的充分非必要條件:效度高,信度未必高;效度低,未必信度低??梢?信度高不一定效度也高,但一個測驗要想效度高,其信度必須也高。

信度與效度經常是互補的概念,但是某些特殊情況下它們也會相互抵消。有些時候當信度增加時,效度會變得比較難以掌握;反之,有些時候當效度增加時,會比較難以確保信度。這是發生在當某個構想過于抽象、缺乏容易觀察的定義之時。

[1]風笑天.社會學研究方法[M].北京:中國人民大學出版社,2005:110-112.

[2]王寶進.英文視窗版SPSS與行為科學研究[M].北京:北京大學出版社,2007:481.

[3]張力為.信度的正用與誤用[J].北京體育大學學報,2002, 25(3):348.

[4]安勝利,陳平雁.量表的信度及其影響因素[J].中國臨床心理學雜志,2001,9(4):315-318.

[5]張力為.效度的正用與誤用[J].北京體育大學學報,2002, 25(4):494.

Reliability and validity analysis of test in quantitative research of sports science

LIU Zhao-yu

The paper analyses the connotations and features of reliability and validity and ways to measure the reliability and validity.The paper also analyses the SPSS which can be used to measure the reliability and validity.The paper also proposes ways to increase the reliability and analyses the relationship between the reliability and validity.

quantitative research;questionaire;measurement;reliability;validity

G80-32

A

1672-268X(2010)06-0035-03

(2010-09-28 收稿)

猜你喜歡
效度信度測驗
平衡損失函數下具有兩水平共同效應的信度模型
凈保費在平衡損失函數下的回歸信度估計?
問卷是否可信
——基于體育核心期刊論文(2010—2018年)的系統分析
Beep test評估11~15歲少年游泳運動員有氧能力的效度研究
談高效課堂下效度的提升策略
巧用模型法提高科學課堂教學的效度
兩個處理t測驗與F測驗的數學關系
數字測驗
你知道嗎?
語言測試效度研究的另一視角:考試的因子結構研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合