?

數據挖掘中描述性數據匯總技術在中小學教學質量分析中的應用

2017-06-05 15:04孫慶
中國教育信息化 2017年7期
關鍵詞:考分考試分數極差

孫慶

(上海市黃浦區教育信息中心,上海200011)

數據挖掘中描述性數據匯總技術在中小學教學質量分析中的應用

孫慶

(上海市黃浦區教育信息中心,上海200011)

本文重點闡述了在基于學科考試的中小學教學質量分析過程中,如何利用數據挖掘過程中的描述性數據匯總技術,對考試分數實施匯總分析,展現考試分數的數據特征,識別考試分數中的噪聲數據,進而為有效開展學科教學質量的測評分析提供科學依據。

教學質量分析;數據挖掘;數據預處理;描述性數據匯總

一、引言

為了全面提高中小學學科教學質量,有效地指導學校開展學科教學活動,區(縣)基礎教育管理部門往往需要通過開展區域性的學科統考,并對考試成績實施全樣本數據統計分析,從中獲取基于不同層面的學科教學質量的反饋信息,并據此對區域內學校的學科教學實施有效的監測和指導。因此,構建以成績統計分析為基礎的中小學教學質量分析系統,成了區(縣)基礎教育管理部門較為關注的一項信息化建設工作。

然而,對于教學質量分析系統來講,其上層應用特色應體現在,能夠針對區內學校的學科教學質量及學生學業發展水平,為區教育管理部門提供全面、準確、綜合的評估分析報告。進而為區教育管理部門,對全區學校的學科教學質量實施有效監控,提供科學的輔助決策依據。但是,要達到上述之目的,構建的教育質量分析系統就必須具備能夠分析、呈現考試成績的總體數據特征,以及辨識、去除隱藏于考試成績中的噪聲數據的功能。而這些功能,正是對數據挖掘在預處理過程中所利用的描述性匯總技術的具體實現。

二、數據挖掘相關技術

1.數據挖掘

數據挖掘(DM,Data Mining)就是從常態生成的、帶有噪聲的、大容量的真實業務數據中,尋找并獲取隱藏其內的新的知識和信息的過程。這個過程對駐留在數據庫中的已有的大量數據,實施了抽取、轉換、分析及模型化處理,并最終為實際業務的開展生成提供了具有輔助決策支持作用的關鍵性數據。數據挖掘的過程,有效地實現了對原有業務數據的進一步的深度應用。數據挖掘經常被稱為另一個常用的術語:數據庫中的知識發現(KDD,Knowledge Discovery in Databases)。通常知識發現的過程由以下步驟組成:數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估和知識表示。

2.數據預處理

由于真實的業務數據存在著缺陷,帶有噪聲且不甚完整。如果對這類品質不高的數據急于實施數據挖掘,必然會影響最終的數據挖掘結果。然而,通過數據預處理則可以有效地改善數據的質量,以使后續實施的數據挖掘過程,能夠在性能和精度上得到盡可能大地提高。利用數據預處理技術可以先期檢測到各類異常數據,從而為調整改善數據質量和規范約束待分析數據,創造了有利條件。數據預處理為最后獲得高質量的知識發現,提供了重要的基礎保障。由此可以看到,數據預處理的重要作用體現在,它為改善現實數據的質量和獲取高質量的數據挖掘結果,奠定必要的基礎。所以,數據預處理是知識發現過程中不可或缺的重要環節,它由數據清理、數據集成、數據變換和數據規約等幾個步驟構成。

3.描述性數據匯總

全面了解數據的整體特征,是成功實施數據預處理的必要前提。那么如何才能準確有效地獲取數據的整體特征,并充分展示出數據集的集中趨勢和離散趨勢呢?對這個問題的回答是:必須利用描述性數據匯總技術。描述性數據匯總技術主要是基于一批描述性統計度量,對數據實施計算分析,識別出數據的固有特性,暴露出潛藏在數據中的噪聲點或離群點。這批統計度量由兩類組成,其中一類是用于描述數據集中趨勢的度量:中位數(median)、眾數(mode)和平均值(mean)。而另一類是用于描述數據離散趨勢的度量:標準差(σ)、四分位數(quartiles)和四分位極差(IQR)。

三、考試分數的描述性數據匯總分析

1.度量考試分數的集中趨勢特征

在描述性數據匯總中,用以考察度量數據集中趨勢的方法常見的有三種,它們分別是分布式度量(distributive measure)、代數度量(algebraicmeasure)和整體度量(holistic measure)。其中,分布式度量是指,把數據集分割成更小的數據子集,然后計算出每個子集的度量值,最后將計算結果進行合并以得到整個數據集度量值的度量。代數度量是指,由包含了一個或多個分布式度量的代數函數所計算的度量。而整體度量是指,對整個數據集計算的度量。

在中小學教學質量分析中,當導入一次考試的所有學生的原始考分后,是通過計算平均分、眾數和中位數這三個集中量數來獲取這批原始考分的集中趨勢信息的。然而,平均分、眾數和中位數正是屬于描述性數據匯總技術中的集中趨勢度量。其中,平均數屬于代數度量,因為它可以通過分布式度量sum()/count()計算得到,而中位數和眾數都是屬于整體度量。如果是區(縣)級的學科質量測評考試,依據平均分、眾數和中位數這三個集中量數就可以對區內不同學校之間的學科教學質量進行比較;如果是校級的學科質量測評考試,則可以對校內不同班級之間的學科質量進行比較。因為平均分、眾數和中位數能夠很好地歸納出,基于不同層面(學校、班級)的考生群體的總體考核情況。

(1)平均分(mean)

平均數就是指一組數據值的均值,它是考察和度量數據集中趨勢最有效、最常用的數據度量值。在教育質量分析中,我們稱之為平均分,也就是指考試原始分數的算術平均數:

其中,Xi代表第i個考生的原始考分,n代表參加考試的考生總人數。平均分容易計算、易于理解,并具有較強的代表性。但是,平均分的主要問題是對于極端值表現得比較敏感,容易受到極端數值的影響而致使其喪失代表性。例如,某次考試很可能因為少數幾個非常低的分數而拉低了整個考試的平均分。因此,為了消除少數極端數據值對平均分的影響,我們可以去除數據集合高、低兩端的極端數值,然后再計算出能夠更加準確地體現集中趨勢的均值。例如,在計算考試平均分時,我們可以考慮去掉原始考分中,高、低兩端一定比例的數據值,使計算得到的平均分能夠更為準確地描述出原始考分的集中趨勢,從而為反映考生群體的總體水平提供有效的度量信息。當然,被去除數據的比例值需謹慎確定,如果比例太大反而會適得其反,影響平均分的有效性。

(2)中位數(median)

就考試而言,中位數是指在全樣本空間內,將全部考生的原始成績按序排列,若考生人數為單數,就取正中間的那一個分數作為考試成績的中位數;若考生人數為雙數,則取中間兩個分數的平均數作為考試成績的中位數。相比于平均分,中位數的優勢在于,其度量值不受極端數值影響。當遇到平均分受到極端考分影響而失去代表性時,就可以用中位數的大小來代表這次考試分數。中位數屬于整體度量,其缺點在于不夠靈敏,且沒有平均分可靠。

當然,中位數還可以通過劃分數據區間的方法(或稱分組)來計算獲取,具體的計算方法是:按照指定的組距(即數據區間寬度)將數據集劃分成若干個連續的數據區間,然后確定每個區間內的數據個數(即,區間頻率)。例如,可以按照10分的區段間隔,將原始考分劃分入0~10,10~20,20~30等區間,然后清點每個區間內原始考分的個數。我們把包含中位數的那個區間稱為中位數區間,而中位數就可以按照下面這個公式計算獲?。?/p>

其中,Ll是中位數所在區間的下限,N是整個數據集的數據個數,(∑freq)l是低于中位數所在區間的其它所有區間的頻率總和,freqmedian是中位數所在區間的頻率,width是數據區間的寬度。當然,這樣計算得到的只能是數據集中位數的近似值。

(3)眾數(mode)

在數據集合中,出現次數最多的那個數被稱為眾數。就考試而言,眾數就是考試成績樣本空間中,出現頻率最高的那個分數。眾數也屬于整體度量,它的特點是用頻數大小來呈現數據的集中趨勢。因此,眾數也是一個被用來反映考試總體狀況的度量值。但是,眾數的有效性會受限于樣本數據的數量。例如,如果考生人數不多,就有可能會導致每個原始考分只出現一次,這樣的話,就沒有眾數可尋了。當然,也存在著這樣一種情況,如果考試成績中有多個高頻出現的分數,那么就會導致有多個眾數出現。所以,眾數只有在考試人數足夠多,且考試成績具有明顯的集中趨勢的情況下才顯得有意義。

(4)利用平均分、中位數和眾數對考試做趨勢性分析

對考試原始分繪制頻率分布曲線時,如果得到的是適度傾斜的單峰頻率曲線,那么平均分、中位數和眾數這三個集中量數之間,存在著如下關系:

由此,我們可以發現對于能產生適度傾斜的原始分單峰頻率曲線的考試來講,就能通過該關系式推算出考試原始分數據集合中的眾數。

對于呈正態分布的原始分單峰頻率分布曲線(見圖1)來講,平均分、中位數和眾數都是相同的中心值,這當然是一種理想化考試結果的呈現。它說明了就本次考試而言,考生群體學業水平能力以中等為主,有相對優秀和相對較差的學生存在,但不占主體。

對于呈正偏態分布的原始分單峰頻率分布曲線(見圖2)來講,mode<median<mean;這表明考分高于平均分的考生低于50%。如果此時的平均分較低,則說明就本次考試而言,考生群體的學業水平能力較差(當然這種情況也有可能是因為試卷難度較高而造成的)。

對于呈負偏態分布的原始分單峰頻率分布曲線(見圖3)來講,mode>median>mean,這表明考分高于平均分的考生超過了50%。如果此時的平均分較高,則說明就本次考試而言,考生群體的學業水平能力較高(當然這種情況也有可能是因為試卷難度較低而造成的)。

圖1

圖2

圖3

2.度量考試分數的離散趨勢特征

在分析數據集合的離散程度時最常用的度量有:極差(R)、標準差(σ)和中間四分位數極差(IQR),我們稱之為差異量數。這三個差異量數可以用來描述一批分數的差異程度。如果說度量考試分數中心趨勢特征的集中量數是一個中心點,它讓所有分數圍繞著它分布;那么用于度量考試分數離散趨勢特征的差異量數,則是用于表示各分數與中心點之間的距離,它描述了分數與中心點之間存在的差異統計值。利用這三個差異量數對考試成績進行數據離散趨勢分析時,可以準確地了解參加考試的學生群體在學科學業水平上存在的差異狀況。

(1)極差 (R)

極差(又稱全距)是一組數據中的最大值與最小值之差。極差用R來表示:

在對考試成績做統計分析時,極差就是一次考試中的最高分和最低分之差。極差在某種程度上反映了參與考試的學生群體,在學業水平上存在的最大差距。極差雖然計算簡單、意義明確,但是它的大小完全由位于兩個極端的分數來決定,它無法對位于兩個極端分數之間的其他分數的差異性狀況進行有效分析。因此,如果僅用極差來描述考試分數的整體離散趨勢狀況,效果肯定是很差的。就如同,如果一次考試的最高分是滿分,而最低分是0分,那么就不存在極差的度量意義了。但是,我們還是可以利用極差粗略地了解關于某次考試學生成績的最大差異。

(2)標準差(σ)

標準差是方差的平方根,又稱為均方差,用σ來表示:

標準差是一個能夠有效衡量、精確描述數據分散程度的差異量數。它能對一次考試分數,偏離平均分程度的大小給出明確的判斷。如果標準差越小,考試分數就越向平均分集中,即分數的分布差異越小。反之,則說明考試分數離開平均分的程度增大,分數分布的差異也越大。一般情況下,如果考試分數的頻率分布呈現正態分布,那么極差應該大致等于6個標準差(R≈6σ)。

組合使用極差和標準差這兩個差異量數,可以準確有效地判斷出數據集合的離散差異程度。特別是在教學質量分析中,極差和標準差的組合使用,可以準確有效地分析出考試分數的離散分布狀況,并由此推斷出參與考試的學生群體在學業水平上存在的差異和不同。當然,也可以依據這種分析對試卷的質量做出評判。例如,如果根據考試分數計算得到的極差和標準差均很小,則反映了考生的學業水平非常接近。但這種情況也很可能說明試卷的命題組卷出現了問題,導致無法拉開考生的成績,進而也掩蓋了考生實際學業水平的真實差距。反之,如果極差和標準差均很大,這就表明考生群體的學業水平整體差異性較大,高水平學生和低水平學生都很多。

(3)中間四分位數極差(IQR)

在按升序排列的數據集合中,第k個百分位數是指該數在數據集合中的定位,即,數據集合中有k%的數據小于或等于該數。據此定義,中位數就是第50個百分位數,第25個百分位數被稱為第一四分位數(Q1),而第75個百分位數被稱為第三四分位數(Q3)。而中間四分位數極差(IQR)就是指按升序排列的數據集合中,第三四分位數與第一四分位數的差值:

IQR值反映的是中間數值的分散程度,對于教學質量分析來講,它描述的是原始考試分數集中分布的范圍,反映了考生成績的集中趨勢狀況。從使用經驗上講,一般一組數據中的可疑離群點(或稱數據噪聲),其位置基本位于高于第三個四分位或低于第一個四分位數的1.5 X IQR處。在教育質量分析中,利用這一方式可以有效地識別和剔除考分中的那些無意義的分數。例如,誤將缺考學生的成績(0分)納入考分統計樣本之中;由于特殊原因導致個別學生無法進行正??荚嚩a生不正常的低分;個別學生提前知道試卷答案得到了異乎尋常的高分。這些分數數值一般都有可能超過了四分位數極差值的1.5倍,這足以提醒分析人員倍加關注并確定是否要予以剔除,從而有效地減小其對考試評估分析的影響。

四、描述性數據匯總技術應用舉例

在中小學基于考試成績所做的教育質量分析中,我們可以利用中位數、兩個四分位數(Q1、Q3)以及原始分的最小值和最大值這五個描述性數據度量值,總體概括出考生成績的集中趨勢和離散程度。在數據挖掘中,這種描述性數據匯總技術又被稱之為五數概括(five-number summary),而利用盒狀圖又可以直觀地呈現五數概括所要反映的數據特征。

圖4給出的是一次區域性數學學科考試中,參加考試的每所學校的考試成績的盒狀圖。盒子的上下兩條底邊,分別代表的是Q1和Q3兩個四分位數,而盒子的高度就是中間四分位極差IQR。盒子中間的橫線代表中位數。盒子上下兩條線的末端,代表的是每所學校的最高考分和最低考分。由于在不出現極端考分數據值的情況下,在盒狀圖中使用平均分能更好反映各??荚嚦煽兊目傮w趨勢,因此此圖中用平均分取代了中位數。另外,盒狀圖中兩個四分位數(Q3、Q1)分別被調整為排名前25%學生和排名后25%學生的成績平均分(分別被稱為高分組平均分和低分組平均分),這也是為了更好的反映各??忌目荚嚦煽冊谏?、下兩端間的整體差距。

由圖我們可以看到,利用平均分這個描述數據集中趨勢的集中量數,很好地說明了各校學生成績在區內的整體定位;而兩個四分位數所形成的IQR這個用于描述數據離散趨勢的差異量,也清晰地反映了各校學生學業水平的差異狀況。

圖4

五、結束語

用于度量考試分數中心趨勢特征的平均分、眾數和中位數,以及用于度量考試分數離散趨勢特征的極差、標準差和中間四分位數極差,這些描述性統計量在中小學教學質量分析中的應用,可以幫助我們有效地理解原始考分數據的總體特征和分布情況。從數據挖掘的角度來看,我們應該充分理解這些描述性統計量的計算意義并合理地使用它們,形成科學準確的分析結果,挖掘出隱藏在考試成績背后的知識信息。從而為教育管理部門監測區內學校教育質量、開展課程教學指導,提供有效的決策依據。

[1][加]Jiawei Han著;范明,孟小峰譯.Micheline Kamber.Data Mining Concepts and Techniques,Second Edition[M].

[2]劉新平,劉存俠.教育統計與測評導論[M].北京:科學出版社,2003.

[3]雷新勇.考試數據的統計分析和解釋[M].上海:華東師范大學,2007.

[4]楊思清.數據挖掘技術對提高教學質量的應用研究[J].黑龍江科技信息,2007(4).

[5]黃羿,馬新強,武彤,唐作其,朱瑩.基于數據倉庫的學生成績分析模型設計[J].信息技術,2007(2):18-23.

[6]李琳,徐雨明,孫士兵.數據挖掘在教學質量分析中的應用研究[J].衡陽師范學院學報,2009,30(3):86-88.

[7]郭曉利,郭平,馮力.基于數據挖掘技術的教學質量分析評價系統的實現[J].東北電力大學學報(社會科學版),2006,26(3):70-73.

(編輯:王曉明)

TP393

:A

:1673-8454(2017)07-0065-04

猜你喜歡
考分考試分數極差
厘清概念 領悟意義
二次函數極差的規律與應用
分式求值——中考分式題的核心
考試分
這樣將代詞考分收入囊中
數學模型之試卷綜合評價模型
中考分式題題型展示
透過試卷分數查找知識能力缺陷
作弊
方差中亟待澄清的兩個錯誤觀點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合