?

對數據分布特征測度的分析

2014-09-21 20:32陳龍禹
北方經貿 2014年8期
關鍵詞:分析

陳龍禹

摘要:統計數據經過整理和顯示后,我們對數據分布的類型和特點就有了一個大致的了解,但這種了解只是表面上的,還缺少代表性的數量特征值準確地描述出統計數據的分布。對統計數據分布的特征,可以從三個方面進行測度和描述:一是分布的集中趨勢;二是分布的離散程度;三是分布的偏態和測度。這三個方面分別反映了數據分布的測度特征。

關鍵詞:數據分布;特征測度;分析

中圖分類號:F270 文獻標識碼:A

文章編號:1005-913X(2014)08-0192-01

一、集中趨勢的測度

(一)分類數據:眾數

眾數主要用于測度分類數據的集中趨勢,同時也適用于順序數據以及數值型數據集中趨勢的測度位。需注意的是,只有當數據較多,具有明顯集中趨勢時,計算眾數才有意義,才可以利用它來作為某種決策的參考依據。如紡織企業職工“性別”中“女性”人數最多,則“女性”為眾數。再如鞋廠在制定各種尺碼鞋子的生產計劃時,市場上銷量最多的型號是眾數,也是生產廠家或經銷商應該重點生產和銷售的型號。

(二)數值型數據:平均數

平均數用于反映所有數值型數據的一段水平。根據計算方法的不同,有算術平均數和幾何平均數之分。平均數表明所有變量值的集中趨勢,受極端值的影響,它是集中趨勢的最主要測度值,主要用于數值型數據集中趨勢的測度。

(三)眾數、中位數和平均數的比較

1.眾數、中位數和均值的關系

從分布的角度看,眾數始終是一組數據分布的最高峰值,中位數是處于一組數據中間位置上的值,而均值則是全部數據的算術平均。因此,對同一組數據計算眾數、中位數和均值,三者之間具有以下關系:在單蜂分布條件下,如果數據的分布是對稱的,則眾數、中位數和均值必定相等,即眾數=中位數=均值;如果數據是左偏分布,說明數據存在極小值,必然拉動均值向極小值一方靠,而眾數和中位數由于位置是代表值,不受極值的影響,因此三者之間的關系表現為:均值<中位數<眾數;如果數據是右偏分布,說明數據存在極大值,必然拉動均值向極大值一邊靠,則眾數<中位數<均值,如圖1所示。

2.眾數、中位數和均值的特點與應用場合

眾數、中位數和算術平均數各自具有不同的特點,掌握它們之間的關系和各自的不同特點,有助于在實際應用中選擇合理的測度值來描述數據的集中趨勢。

(1)雖然對于順序數據以及數值型數據也可以計算眾數,但眾數主要適合于作為分類數據的集中趨勢測度值,而且眾數只有在數據量較多時才有意義,當數據量較少時,不宣使用眾數。

(2)中位數以及其他分位數主要適用于作為順序數據的集中趨勢測度值,雖對于順序數據也可以使用眾數,但以中位數為宜。

(3)算數平均數適合用于數值型數據的集中趨勢測度值,特別是當分布比較法則,不存在極端值比較偏離現象時,用算述平均數達標集中趨勢最合適,但平均值的主要缺點是易受數據極端值的影響,對于偏態分布的數據,平均數的代表性差。因此,當數據位偏態分布,特別是偏斜的程度較大時,可以考慮選擇眾數或中位數等位置代表,這時它們的代表性要比平均數好。

(4)算術平均數包含的信息是最多的、最豐富的,算術平均數具有兩個重要的數學性質,即所有觀測值與算術平均數的離差和等于零;所有觀測值與算術平均勢的離差平方和為最小。

二、離散程度的測度

集中趨勢只是統計總體數據分布的特征之一。介于個體的差異性,總體中的各數據還呈現出與集中趨勢的代表值和分散的離中趨勢,這是數據的另一特征,它所反映的是各變量值遠離其中心值的程度。因此,對統計數據的分析,除了要反映其分布的集中趨勢外,還要反映統計數據的離散程度,以達到對數據變動規律的全面描述。

根據所依據數據類型的不同,數據離散程度的主要指標有極差、平均差、四分位差、方差、標淮差以及離散系數等。測度離散程度的主要作用如下。一是反映現象總體中變量分布的離中趨勢??傮w各單位的標志值存在差異,標志變動度表明總體各單位標志值的分散程度。變量值的差異越大,離散趨勢也越大;反之,變量值越小,離散趨勢也越小。二是衡量均值的代表性。均值作為總體數量標志的代表,其代表性取決于總體各數據的差異程度??傮w中各數據的變異程度越大,均值的代表性就越??;反之,總體中各數據的變異程度越小,均值的代表性就越大。三是測定現象變動的均勻性或穩定性程度。離散程度能夠表明生產過程的節奏性和其他活動的均衡性,可作為企業產品質量控制和評價經濟管理工作的依據。

三、偏態與峰態的測度

(一)偏態的測度

在客觀實際生活中,一些經濟變量的次數分配往往是非對稱型的,如收入分配、市場占有份額、資源配置等等,這些經濟變量經分組后,總體各單位在不同的分組變量值下分布并不均勻對稱,而呈現出偏斜的分布狀況,統計上將其稱為偏態分布。利用眾數、中位數和平均數之間的關系就可以判斷分布是對稱、左偏還是右偏。顯然,判斷偏態的方向并不困難,但要測度偏斜的程度則需要計算偏態系數。統計分折中測定偏態系數的方法很多。

(二)峰態的測度

峰態是指數據分布的尖峭狀況和程度。峰態是次數分布的另一個數量特征。這個特征是:某種次數分布與正態分布相比較,是尖頂還是平頂,其尖頂或平頂的程度如何。蜂度是次數分布曲線頂端的尖峭程度。峰度通常分為三種:正態峰度、尖峰度和平峰度。如果分布的形狀比正態分布更高更瘦,則稱為尖峰分布;如果分布的形狀比正態分布更矮更胖,則稱為平峰分布。峰態系數是統計中描述次數分布狀態的又一個重要特征值,用以測定鄰近數值周圍變量值分布的集中或分散程度。

參考文獻:

[1] 陳文麗,韓立巖.λ-可加模糊測度的一般形式及分布特征[J].模糊系統與數學,2007(1).

[2] 張 紅,王新生,余瑞林.基于Voronoi圖的測度點狀目標空間分布特征的方法[J].華中師范大學學報(自然科學版),2005(3).

[責任編輯:文 筠]

摘要:統計數據經過整理和顯示后,我們對數據分布的類型和特點就有了一個大致的了解,但這種了解只是表面上的,還缺少代表性的數量特征值準確地描述出統計數據的分布。對統計數據分布的特征,可以從三個方面進行測度和描述:一是分布的集中趨勢;二是分布的離散程度;三是分布的偏態和測度。這三個方面分別反映了數據分布的測度特征。

關鍵詞:數據分布;特征測度;分析

中圖分類號:F270 文獻標識碼:A

文章編號:1005-913X(2014)08-0192-01

一、集中趨勢的測度

(一)分類數據:眾數

眾數主要用于測度分類數據的集中趨勢,同時也適用于順序數據以及數值型數據集中趨勢的測度位。需注意的是,只有當數據較多,具有明顯集中趨勢時,計算眾數才有意義,才可以利用它來作為某種決策的參考依據。如紡織企業職工“性別”中“女性”人數最多,則“女性”為眾數。再如鞋廠在制定各種尺碼鞋子的生產計劃時,市場上銷量最多的型號是眾數,也是生產廠家或經銷商應該重點生產和銷售的型號。

(二)數值型數據:平均數

平均數用于反映所有數值型數據的一段水平。根據計算方法的不同,有算術平均數和幾何平均數之分。平均數表明所有變量值的集中趨勢,受極端值的影響,它是集中趨勢的最主要測度值,主要用于數值型數據集中趨勢的測度。

(三)眾數、中位數和平均數的比較

1.眾數、中位數和均值的關系

從分布的角度看,眾數始終是一組數據分布的最高峰值,中位數是處于一組數據中間位置上的值,而均值則是全部數據的算術平均。因此,對同一組數據計算眾數、中位數和均值,三者之間具有以下關系:在單蜂分布條件下,如果數據的分布是對稱的,則眾數、中位數和均值必定相等,即眾數=中位數=均值;如果數據是左偏分布,說明數據存在極小值,必然拉動均值向極小值一方靠,而眾數和中位數由于位置是代表值,不受極值的影響,因此三者之間的關系表現為:均值<中位數<眾數;如果數據是右偏分布,說明數據存在極大值,必然拉動均值向極大值一邊靠,則眾數<中位數<均值,如圖1所示。

2.眾數、中位數和均值的特點與應用場合

眾數、中位數和算術平均數各自具有不同的特點,掌握它們之間的關系和各自的不同特點,有助于在實際應用中選擇合理的測度值來描述數據的集中趨勢。

(1)雖然對于順序數據以及數值型數據也可以計算眾數,但眾數主要適合于作為分類數據的集中趨勢測度值,而且眾數只有在數據量較多時才有意義,當數據量較少時,不宣使用眾數。

(2)中位數以及其他分位數主要適用于作為順序數據的集中趨勢測度值,雖對于順序數據也可以使用眾數,但以中位數為宜。

(3)算數平均數適合用于數值型數據的集中趨勢測度值,特別是當分布比較法則,不存在極端值比較偏離現象時,用算述平均數達標集中趨勢最合適,但平均值的主要缺點是易受數據極端值的影響,對于偏態分布的數據,平均數的代表性差。因此,當數據位偏態分布,特別是偏斜的程度較大時,可以考慮選擇眾數或中位數等位置代表,這時它們的代表性要比平均數好。

(4)算術平均數包含的信息是最多的、最豐富的,算術平均數具有兩個重要的數學性質,即所有觀測值與算術平均數的離差和等于零;所有觀測值與算術平均勢的離差平方和為最小。

二、離散程度的測度

集中趨勢只是統計總體數據分布的特征之一。介于個體的差異性,總體中的各數據還呈現出與集中趨勢的代表值和分散的離中趨勢,這是數據的另一特征,它所反映的是各變量值遠離其中心值的程度。因此,對統計數據的分析,除了要反映其分布的集中趨勢外,還要反映統計數據的離散程度,以達到對數據變動規律的全面描述。

根據所依據數據類型的不同,數據離散程度的主要指標有極差、平均差、四分位差、方差、標淮差以及離散系數等。測度離散程度的主要作用如下。一是反映現象總體中變量分布的離中趨勢??傮w各單位的標志值存在差異,標志變動度表明總體各單位標志值的分散程度。變量值的差異越大,離散趨勢也越大;反之,變量值越小,離散趨勢也越小。二是衡量均值的代表性。均值作為總體數量標志的代表,其代表性取決于總體各數據的差異程度??傮w中各數據的變異程度越大,均值的代表性就越??;反之,總體中各數據的變異程度越小,均值的代表性就越大。三是測定現象變動的均勻性或穩定性程度。離散程度能夠表明生產過程的節奏性和其他活動的均衡性,可作為企業產品質量控制和評價經濟管理工作的依據。

三、偏態與峰態的測度

(一)偏態的測度

在客觀實際生活中,一些經濟變量的次數分配往往是非對稱型的,如收入分配、市場占有份額、資源配置等等,這些經濟變量經分組后,總體各單位在不同的分組變量值下分布并不均勻對稱,而呈現出偏斜的分布狀況,統計上將其稱為偏態分布。利用眾數、中位數和平均數之間的關系就可以判斷分布是對稱、左偏還是右偏。顯然,判斷偏態的方向并不困難,但要測度偏斜的程度則需要計算偏態系數。統計分折中測定偏態系數的方法很多。

(二)峰態的測度

峰態是指數據分布的尖峭狀況和程度。峰態是次數分布的另一個數量特征。這個特征是:某種次數分布與正態分布相比較,是尖頂還是平頂,其尖頂或平頂的程度如何。蜂度是次數分布曲線頂端的尖峭程度。峰度通常分為三種:正態峰度、尖峰度和平峰度。如果分布的形狀比正態分布更高更瘦,則稱為尖峰分布;如果分布的形狀比正態分布更矮更胖,則稱為平峰分布。峰態系數是統計中描述次數分布狀態的又一個重要特征值,用以測定鄰近數值周圍變量值分布的集中或分散程度。

參考文獻:

[1] 陳文麗,韓立巖.λ-可加模糊測度的一般形式及分布特征[J].模糊系統與數學,2007(1).

[2] 張 紅,王新生,余瑞林.基于Voronoi圖的測度點狀目標空間分布特征的方法[J].華中師范大學學報(自然科學版),2005(3).

[責任編輯:文 筠]

摘要:統計數據經過整理和顯示后,我們對數據分布的類型和特點就有了一個大致的了解,但這種了解只是表面上的,還缺少代表性的數量特征值準確地描述出統計數據的分布。對統計數據分布的特征,可以從三個方面進行測度和描述:一是分布的集中趨勢;二是分布的離散程度;三是分布的偏態和測度。這三個方面分別反映了數據分布的測度特征。

關鍵詞:數據分布;特征測度;分析

中圖分類號:F270 文獻標識碼:A

文章編號:1005-913X(2014)08-0192-01

一、集中趨勢的測度

(一)分類數據:眾數

眾數主要用于測度分類數據的集中趨勢,同時也適用于順序數據以及數值型數據集中趨勢的測度位。需注意的是,只有當數據較多,具有明顯集中趨勢時,計算眾數才有意義,才可以利用它來作為某種決策的參考依據。如紡織企業職工“性別”中“女性”人數最多,則“女性”為眾數。再如鞋廠在制定各種尺碼鞋子的生產計劃時,市場上銷量最多的型號是眾數,也是生產廠家或經銷商應該重點生產和銷售的型號。

(二)數值型數據:平均數

平均數用于反映所有數值型數據的一段水平。根據計算方法的不同,有算術平均數和幾何平均數之分。平均數表明所有變量值的集中趨勢,受極端值的影響,它是集中趨勢的最主要測度值,主要用于數值型數據集中趨勢的測度。

(三)眾數、中位數和平均數的比較

1.眾數、中位數和均值的關系

從分布的角度看,眾數始終是一組數據分布的最高峰值,中位數是處于一組數據中間位置上的值,而均值則是全部數據的算術平均。因此,對同一組數據計算眾數、中位數和均值,三者之間具有以下關系:在單蜂分布條件下,如果數據的分布是對稱的,則眾數、中位數和均值必定相等,即眾數=中位數=均值;如果數據是左偏分布,說明數據存在極小值,必然拉動均值向極小值一方靠,而眾數和中位數由于位置是代表值,不受極值的影響,因此三者之間的關系表現為:均值<中位數<眾數;如果數據是右偏分布,說明數據存在極大值,必然拉動均值向極大值一邊靠,則眾數<中位數<均值,如圖1所示。

2.眾數、中位數和均值的特點與應用場合

眾數、中位數和算術平均數各自具有不同的特點,掌握它們之間的關系和各自的不同特點,有助于在實際應用中選擇合理的測度值來描述數據的集中趨勢。

(1)雖然對于順序數據以及數值型數據也可以計算眾數,但眾數主要適合于作為分類數據的集中趨勢測度值,而且眾數只有在數據量較多時才有意義,當數據量較少時,不宣使用眾數。

(2)中位數以及其他分位數主要適用于作為順序數據的集中趨勢測度值,雖對于順序數據也可以使用眾數,但以中位數為宜。

(3)算數平均數適合用于數值型數據的集中趨勢測度值,特別是當分布比較法則,不存在極端值比較偏離現象時,用算述平均數達標集中趨勢最合適,但平均值的主要缺點是易受數據極端值的影響,對于偏態分布的數據,平均數的代表性差。因此,當數據位偏態分布,特別是偏斜的程度較大時,可以考慮選擇眾數或中位數等位置代表,這時它們的代表性要比平均數好。

(4)算術平均數包含的信息是最多的、最豐富的,算術平均數具有兩個重要的數學性質,即所有觀測值與算術平均數的離差和等于零;所有觀測值與算術平均勢的離差平方和為最小。

二、離散程度的測度

集中趨勢只是統計總體數據分布的特征之一。介于個體的差異性,總體中的各數據還呈現出與集中趨勢的代表值和分散的離中趨勢,這是數據的另一特征,它所反映的是各變量值遠離其中心值的程度。因此,對統計數據的分析,除了要反映其分布的集中趨勢外,還要反映統計數據的離散程度,以達到對數據變動規律的全面描述。

根據所依據數據類型的不同,數據離散程度的主要指標有極差、平均差、四分位差、方差、標淮差以及離散系數等。測度離散程度的主要作用如下。一是反映現象總體中變量分布的離中趨勢??傮w各單位的標志值存在差異,標志變動度表明總體各單位標志值的分散程度。變量值的差異越大,離散趨勢也越大;反之,變量值越小,離散趨勢也越小。二是衡量均值的代表性。均值作為總體數量標志的代表,其代表性取決于總體各數據的差異程度??傮w中各數據的變異程度越大,均值的代表性就越??;反之,總體中各數據的變異程度越小,均值的代表性就越大。三是測定現象變動的均勻性或穩定性程度。離散程度能夠表明生產過程的節奏性和其他活動的均衡性,可作為企業產品質量控制和評價經濟管理工作的依據。

三、偏態與峰態的測度

(一)偏態的測度

在客觀實際生活中,一些經濟變量的次數分配往往是非對稱型的,如收入分配、市場占有份額、資源配置等等,這些經濟變量經分組后,總體各單位在不同的分組變量值下分布并不均勻對稱,而呈現出偏斜的分布狀況,統計上將其稱為偏態分布。利用眾數、中位數和平均數之間的關系就可以判斷分布是對稱、左偏還是右偏。顯然,判斷偏態的方向并不困難,但要測度偏斜的程度則需要計算偏態系數。統計分折中測定偏態系數的方法很多。

(二)峰態的測度

峰態是指數據分布的尖峭狀況和程度。峰態是次數分布的另一個數量特征。這個特征是:某種次數分布與正態分布相比較,是尖頂還是平頂,其尖頂或平頂的程度如何。蜂度是次數分布曲線頂端的尖峭程度。峰度通常分為三種:正態峰度、尖峰度和平峰度。如果分布的形狀比正態分布更高更瘦,則稱為尖峰分布;如果分布的形狀比正態分布更矮更胖,則稱為平峰分布。峰態系數是統計中描述次數分布狀態的又一個重要特征值,用以測定鄰近數值周圍變量值分布的集中或分散程度。

參考文獻:

[1] 陳文麗,韓立巖.λ-可加模糊測度的一般形式及分布特征[J].模糊系統與數學,2007(1).

[2] 張 紅,王新生,余瑞林.基于Voronoi圖的測度點狀目標空間分布特征的方法[J].華中師范大學學報(自然科學版),2005(3).

[責任編輯:文 筠]

猜你喜歡
分析
導數考向分析
民航甚高頻通信同頻復用干擾分析
分析:是誰要過節
一道解析幾何題的分析與探究
回頭潮
一個遞推數列問題的類化分析
萬有引力易錯題分析
三角恒等變換??键c分析
基于均衡分析的我國房地產泡沫度分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合