?

基于統計圖對概率密度概念的探討

2021-07-10 09:07孫廷哲
上饒師范學院學報 2021年3期
關鍵詞:組數概率密度函數概率密度

孫廷哲

(安慶師范大學 生命科學學院,安徽 安慶 246133)

生物統計學是一門運用概率論和數理統計方法,研究生命現象數據的科學[1]。生命科學領域的數據包括現象和調查資料,通過數據提取特征并得出相應結論,都需要運用到生物統計學的相關知識。在大數據時代,更需要統計學的分析方法提煉有效信息?!吧锝y計學”是生命科學本科各專業的必修課程,對培養學生的科研素質和解決問題的能力起到了至關重要的作用。但生物統計學的理論性強、公式較多、內容抽象,同時受限于課程安排,生命科學各專業的學生數學基礎普遍較為薄弱,所以學生學習“生物統計學”的積極性不高,普遍無法理解和掌握統計學核心內容。因此,探索“生物統計學”核心內容教學的合適方法,掙脫復雜理論的束縛至關重要。

概率質量函數(Probability Mass Function,PMF)是離散隨機變量在其定義域內特定取值的概率。由于現行中學教材已對基本概率統計進行介紹,同時概率質量函數多涉及有限情形,所以學生對其理解并不困難。當從離散隨機變量演化到連續隨機變量,隨機變量的描述需要從概率質量函數演變成概率密度函數(Probability Density Function,PDF)[2]。國內較為通用的“生物統計學”教材皆是先引入區間內取值概率的定義,進而通過取區間極限的方式定義概率密度[3]。但從離散隨機變量到連續隨機變量,本質上是從“有限、可列無限”到“不可列無限”情形的轉變,需要學生對“不可列無限”有較為直觀的認識,這是統計學的基礎。但對于初學者,尤其是生命科學相關專業的學生而言,概率密度并不是一個容易理解的概念。其基本思想,即“觀察到連續隨機變量任意特定取值的概率為0”和“連續隨機變量在特定非零區間取值的概率為概率密度函數在此區間積分”并非十分直觀。

直方圖(Histogram)是統計學中進行數據分布描述的一種重要圖譜,可用于描述數據的分布形式。通過使用MATLAB軟件繪制直方圖,比較了相對頻數(relative frequency,也稱為頻率)和頻率密度(frequency density)的不同,演示了相對頻數、頻率密度和累積頻率密度隨直方圖中組數(bin)的變化趨勢。由于相對頻數和頻率密度的極限分別對應于概率和概率密度,此演化過程有助于學生正確理解概率密度基本思想,為學習統計分析方法打下堅實基礎。

1 相對頻數和頻率密度直方圖

概率是生物統計學中的基本概念,在“生物統計學”教材中,一般以“統計概率”和“古典概率”的形式引入概率的概念。統計概率以事件發生的頻率逼近事件的概率,而古典概率則是在特殊的基本事件等可能性前提下給出了概率的定義。但受到生命科學專業課程設置和學生數學基礎限制,傳統的“生物統計學”教材都無法從勒貝格測度(Lebesgue measure)角度引入概率的概念[4],而多以相對頻數的極限方式介紹概率。因此,概率密度在“生物統計學”教材中一般是以頻率密度的方式引入。設fi為直方圖中第i 組的頻數,N 為數據總數,n 為直方圖組數,記:。這里表示相對頻數[5],也稱為頻率,其中

設直方圖第i組的組距為hi,記:表示頻率密度,其中

為了規避測度論的復雜內容而直觀地揭示概率密度的含義,首先使用MATLAB 生成一組偽隨機數,通過直方圖對相對頻數和頻率密度進行描述。此組隨機數服從標準正態分布N(0,1),隨機數樣本的容量為2×105,這里可以通過MATLAB 命令randn(1,2e5)或randn(2e5,1)實現。此組隨機數的分布如圖1A 所示,其中黑色的曲線作為參考線(下同),表示標準正態分布的密度函數,灰色直方圖則描述了2×105個隨機數的分布狀態。圖1B中繪制了此組隨機數相對頻數直方圖(圖中直方圖的組數為30,直方圖組距hi相等)。而當組距hi不等時,相對頻數直方圖的形態很可能發生顯著的變化(組數=30,見圖1C)。注意到相對頻數直方圖與標準正態分布概率密度函數一般具有比較明顯的偏離(見圖1B和C)。直方圖中組距越大,組中可能包含的數據個數則越多,其相對頻數則較大。此時,若用相對頻數除以組距,則可得到頻率密度直方圖(見圖1D),這里使用“頻率密度”可更好地描述數據分布的集中性特征。另外,注意到即使在直方圖中組數不多的情況下,頻率密度直方圖和標準正態分布曲線趨勢較為一致(比較圖1C和1D),因此,“頻率密度”直方圖與標準正態分布概率密度函數在圖形上的一致性表明,“頻率密度”可以更好地描述數據的分布特征。在“統計概率”定義下,“頻率”在極限意義下可以逼近“概率”。因此,“頻率密度”可以作為“概率密度”的一個近似。

圖1 相對頻數和頻率密度直方圖

2 相對頻數直方圖隨組數變化

進一步,運用MATLAB繪制相對頻數直方圖隨著組數的變化趨勢,這里使用MATLAB內置的histogram 函數。隨機數仍為以上生成的一組2×105個隨機數。注意到,當組數為100時,直方圖中相對頻數的最高值約為0.04(見圖2A)。而當組數增至500時,圖中顯示相對頻數的最高值將降至0.01以下(見圖2B)。而當進一步增加組數時,相對頻數圖的峰值將進一步降低(見圖2C,組數=2 000)。當組數設置為10 000時,注意到相對頻數峰值幾乎接近于0(見圖2D)。由于直方圖都使用同一組隨機數進行繪制,直方圖的組數越多,則組間距越小;較小的組間距可覆蓋的隨機數的數量也相應降低。以下使用一種形象化的描述:直方圖中組數的增多會導致落入每一組隨機數的數量減小,即每一組取值的相對頻數逐漸降低;對于真實服從標準正態分布N(0,1)的隨機變量,其取值數目為正無窮大。當增加直方圖的組數直至正無窮大時,每一組將最終只包含1個隨機數(即組距收斂為0)并且每一組的相對頻數將隨之降為0。通常情況下,根據概率的統計定義,相對頻數是概率的一種估計,概率為相對頻數的極限。因此,此圖形象地驗證了“觀察到連續隨機變量任意特定取值的概率為0”這一結論。

圖2 相對頻數隨組數變化直方圖

3 頻率密度和累積頻率密度直方圖

接下來,基于同一組隨機數分別繪制頻率密度和累積頻率密度直方圖,并探討其隨著組數的變化趨勢,結果如圖3所示。注意,累積頻率密度直方圖與對應的頻率密度直方圖在橫軸的組劃分方式相同。累積頻率密度直方圖中某一條形高度為其頻率密度直方圖對應位置(此處指橫坐標相同位置)及其左側所有條形高度之和。圖3中,上圖為頻率密度直方圖。當組數=30時,發現頻率密度直方圖和標準正態分布曲線較為吻合(見圖1A,圖3A 上)。增加組數至300,頻率密度直方圖中的組間距減小,而對應的累積頻率密度直方圖的進一步逼近一條平滑曲線,這條平滑曲線為標準正態分布的(累積)分布函數(見圖3B)。組數增至3 000時,注意到此時頻率密度直方圖的組距將進一步降低,而累積頻率密度直方圖的邊緣幾乎與標準正態分布的分布函數重合(見圖3C)。同時,也注意到一些特點:(1)與相對頻數直方圖不同,(累積)頻率密度直方圖的圖形特征相對穩定;(2)頻率密度直方圖中條形最大值并不隨組數的增加發生顯著改變,維持相對恒定。原因在于,雖然隨著組數的增加,落在每組中的隨機數減少,進而導致相對頻數降低,但直方圖的組間距也相應變小,故頻率密度趨于穩定;(3)累積頻率密度呈現單調不減趨勢,且逐漸趨近于1(由概率的歸一化性質決定)。由于累積頻率密度直方圖中條形高度為其對應頻率密度條形高度之和,而積分亦是一種求和運算。所以,當直方圖的組數逐漸增大至正無窮大,組距將逐漸降低至“只包含一個點”,此時的求和運算將“收斂”為積分。因此,“連續隨機變量在區間取值的概率為概率密度函數在此區間積分”。另外如前所述,概率為相對頻數(即頻率)的極限,則概率密度為頻率密度的極限。那么同樣,當組距縮小至“只包含一個點”,頻率密度將演化為概率密度,其條(線)形高度為隨機變量取值的概率密度。利用直方圖可形象化地探討概率密度及其相關概念。

圖3 頻率密度和累積頻率密度直方圖

4 結語

通過MATLAB軟件繪制相對頻數、頻率密度和累積頻率密度直方圖,直觀地解釋了生物統計學中較難理解的概率密度及其相關概念。之所以使用MATLAB 進行統計學教學,是因為MATLAB 作為一種高級語言,其數據結構和函數較之其他統計學軟件更接近自然語義并兼具強大的科學計算功能[6],此科學計算功能是SPSS所不具備的,而SAS,Python和R 的語法則不如MATLAB接近自然語義。另外,MATLAB具有友好的用戶圖形界面和強大的繪圖功能,這也是SPSS、SAS、Python和R 所欠缺的(如Python為了實現MATLAB的部分繪圖功能,特意引入了Matplotlib庫[7])。

值得注意的是,通過逐步繪制直方圖的方式來理解概率密度及其相關概念,雖然較為直觀,但并不能替代概率統計中對概率密度定義的正式介紹(即概率密度函數的積分為分布函數,或分布函數的導數為概率密度函數)[8]。另外,通過增加直方圖中組數的方式來逼近真實概率密度函數亦是不完備的,無法確切解釋概率作為一種“測度”的本質。只是由于生命科學專業的基礎課程不包含實變函數和概率論等經典數學內容,所以采用直方圖逼近的方式引出概率密度的概念可能只適用于非數學相關專業的本科生。另外,直方圖逼近的方式引出概率密度等概念亦無法完整描述概率論中“零測集”的概念[9],因此在直方圖中收縮組距至“只包含一個點”嚴格來講亦是一種不精確表述,這也是此方法的一個不足之處。但此方法本質上是建立在伯努利大數定律(Bernoulli's Law of Large Numbers,n 次獨立重復試驗中事件A 發生的頻率依概率收斂于事件A 發生的概率pA,即頻率穩定于概率[10])基礎之上。用相對頻數逼近概率,以頻率密度近似概率密度,仍不失為一種輔助生命科學各專業學生正確理解概率密度相關概念的重要手段。

猜你喜歡
組數概率密度函數概率密度
冪分布的有效估計*
連續型隨機變量函數的概率密度公式
計算連續型隨機變量線性組合分布的Laplace變換法
基于GUI類氫離子中電子概率密度的可視化設計
一類求不定方程正整數解的組數問題的解法及推廣
已知f(x)如何求F(x)
基于變構模型的概率密度函數的教學探索
論高三體育考生訓練中的力量訓練
隨機結構-TMD優化設計與概率密度演化研究
非高斯隨機分布系統自適應控制算法的研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合