?

貝葉斯統計中先驗分布的教學研究

2022-02-27 07:32曹桃云郭影玲
大眾科技 2022年12期
關鍵詞:后驗共軛先驗

曹桃云 郭影玲

貝葉斯統計中先驗分布的教學研究

曹桃云 郭影玲

(廣東財經大學統計與數學學院,廣東 廣州 510320)

貝葉斯統計是統計學的一個重要分支,近幾十年來貝葉斯統計迅速發展,在實際問題中獲得廣泛應用,如何選取先驗分布是貝葉斯統計的一個主要問題。文章對貝葉斯統計教學中的四種先驗分布:利用邊緣分布的第二型極大似然方法確定先驗、利用邊緣分布的矩方法確定先驗、無信息先驗、共軛先驗,分別從基本思想、求解步驟、應用舉例、使用對比四個環節進行梳理,以加深學生對幾種先驗分布的理解,培養學生運用貝葉斯統計解決實際問題的能力。

貝葉斯統計;先驗分布;教學研究

引言

貝葉斯公式盡管從形式上看是條件概率的一個推論,但包含的歸納推理思想意義深遠。學者們把貝葉斯公式發展成為一種統計推斷的系統理論方法,形成貝葉斯方法。由貝葉斯方法獲得的統計推斷的全部結果構成了貝葉斯統計[1,2]。貝葉斯統計作為統計學的一個重要分支,目前已被廣泛應用在機器學習等領域[3,4]。

貝葉斯統計將統計推斷問題中的未知參數視為在參數空間內取值的一個隨機變量,通過賦予隨機變量先驗信息,獲得觀測數據后綜合考慮總體信息和樣本信息進行后驗分布的計算并完成估計和檢驗。一般的先驗信息來自經驗和歷史資料,由于先驗信息的使用,使貝葉斯統計進行統計推斷的準確性更高,合理選取先驗分布是貝葉斯統計的一個主要問題[1]。本文對教學中的四種先驗分布:利用邊緣分布的第二型極大似然方法確定先驗、利用邊緣分布的矩方法確定先驗、無信息先驗、共軛先驗,分別從基本思想、求解步驟、應用舉例、使用對比四個環節進行梳理,以加深學生對幾種先驗分布的理解,培養學生運用貝葉斯統計解決問題的能力。

1 先驗分布及相關概念

先驗分布是指在抽取樣本之前對參數的認識,進一步可理解為在得到觀測數據前關于參數的可能值的所有信息和信念[1,2]。本文用()表示參數的先驗分布概率函數,以下簡稱()為參數的先驗分布。先驗分布()的核是指略去()表達式中和參數無關的因子,只留下與參數有關的。如參數來自伽瑪分布,在均已知時,則有先驗分布()為,為伽瑪函數。其中的符號表示正比于,則先驗分布()的核為。下文中涉及的核均指此意。若隨機變量有概率函數,的先驗分布為(),則為連續型隨機變量時隨機變量的邊緣分布,在為離散型隨機變量時隨機變量的邊緣分布。在先驗分布()中含有未知超參數λ時(超參數可以是參數向量),由于先驗分布()和超參數λ有關,有,此時的邊緣分布也與超參數λ有關,有。

2 幾種先驗分布的基本思想

基于邊緣分布的矩方法確定先驗分布的基本思想是:首先將邊緣分布的一些矩表示成超參數的函數,得到方程或方程組;接著將方程或方程組中的邊緣分布的矩用相應的樣本矩替代,得到以超參數為變量的方程或方程組;最后解方程或方程組。類似經典統計中的矩估計思想,此時邊緣分布()的矩相當于總體矩,用相應的樣本矩替代,建立方程或方程組,通過求解給出超參數的估計。將解出的超參數帶入先驗分布中確定先驗分布。

3 幾種先驗分布的求解步驟

教學中為方便學生的對比學習,歸納了四種先驗分布的求解步驟。

利用邊緣分布的第二型極大似然確定先驗分布的求解步驟:

(1)寫出參數分布中包含的超參數的對數似然函數;

(2)求解對數似然函數的最值給出超參數;

(3)帶入超參數確定先驗分布。

利用邊緣分布的矩方法確定先驗分布的求解步驟:

(1)計算樣本分布的期望、方差;

(2)計算邊緣密度的期望、方差;

(3)建立方程或方程組,求出超參數;

(4)帶入超參數確定先驗分布。

無信息先驗的求解步驟:

(1)寫出參數的對數似然函數;

(2)計算Fisher信息矩陣;

(3)給出參數的無信息先驗。

共軛先驗的求解步驟:

(1)寫出參數的似然函數的核;

(2)選擇與似然函數具有同類核的先驗分布作為共軛先驗分布。

下面通過舉例進一步展示先驗分布的應用。

4 幾種先驗分布的應用舉例

第二型極大似然方法確定先驗分布的計算如下:

(3)在已知時的先驗分布為伽瑪分布。

矩方法確定先驗分布計算如下:

(3)給出參數的無信息先驗

(2)選擇與似然函數具有同類核的先驗分布作為共軛先驗分布

表1 常用的共軛先驗分布

5 幾種先驗分布的使用對比

對于四種先驗分布,表2給出了各自的使用條件。其中的利用邊緣分布的第二型極大似然方法確定先驗和利用邊緣分布的矩方法確定先驗,這兩種先驗的使用條件一樣,都是通過給出超參數估計確定先驗分布。無信息先驗是連經典統計學家也認為是客觀的,可以接受的,被認為是貝葉斯統計研究中最成功的的部分[1],文獻[5]中使用了無信息先驗并和經典統計中的最大似然估計、矩估計等方法做了比較,結論是無信息先驗下的貝葉斯估計具有優勢。共軛先驗具有計算方便且易于解釋的優勢,文獻[3]中在模型的隨機誤差項服從正態分布的假定下,使用了正態分布的均值的共軛先驗分布和方差的共軛先驗分布,也是將貝葉斯方法融入集成學習中。實際應用中,應根據條件和需要選取先驗以高效地進行統計推斷。

表2 四種先驗分布的使用條件

為了調動學生動手、動腦、動心,教師讓學生收集數據,如調查大學生的睡眠問題(或每日運動量等問題),關注大學生群體中充足睡眠者所占的比例P,作為比例P的似然函數是二項分布,可以寫為L(P)=Ps(1-p)n-s,其中的L(P)=Ps(1-p)n-s分別代表充足睡眠的學生數和調查的所有學生數,根據表1可知,比例的共軛先驗分布是貝塔分布Beta(a, b)。課上借助相關研究[2,6]的資料,如調查了30名學生,其中12名可以保證8小時的充分睡眠,而其它18名學生的睡眠時間則不足8小時,并假設50%分位數對應的比例值為0.3,90%分位數對應的比例值為0.5,運用統計軟件R編寫的代碼如下,得到先驗和后驗的圖形對比。圖1展示的先驗和后驗的圖形對比說明,后驗分布綜合了先驗分布和抽樣信息,利用了更多信息,因此后驗分布更集中。

library(LearnBayes)

library(ggplot2)

quantile2=list(p=0.9,x=0.5)

quantile1=list(p=0.5,x=0.3)

Beta.prior<-beta.select(quantile1,quantile2)

a<-Beta.prior[1]

b<-Beta.prior[2]

print(c(a,b))

s=12;f=18

ggplot(data.frame(x = c(0, 1)), aes(x = x)) + stat_function (fun = dbeta,

args = list(shape1 = a, shape2 = b), geom = "area",

fill = "blue", alpha = 0.3, colour = "blue", lwd = 1) + stat_function(fun = dbeta,

args = list(shape1 = s + a, shape2 = f + b),

geom = "area", fill = "red", alpha = 0.3, colour = "red", lwd = 1) +

annotate("text", x = 0.25, y = 3, label = "prior") + annotate("text", x = 0.37, y = 5.3, label = "posterior")

圖1 先驗和后驗的圖形對比

形象直觀的圖形讓學生感受到有趣,通過引導和訓練,一是收集數據動手編程可以激發學生的興趣,二是加深學生對所學知識的理解運用,三有助于培養學生分析問題和解決問題的能力。

6 結束語

貝葉斯統計作為“全球九大開拓性新興科技領域”之一,對未來科技的發展具有重要的意義。貝葉斯統計作為統計學的專業課程,普遍開設在大三和研究生二年級,如何獲得良好的教學效果,讓學生能夠學以致用,對這門課程的教學提出了高要求。文章對課程中先驗分布的選取進行了探討,針對如何選取先驗分布,從基本思想、求解步驟、應用舉例、使用對比四個環節對教學中的四種先驗分布:利用邊緣分布的第二型極大似然方法確定先驗、利用邊緣分布的矩方法確定先驗、無信息先驗、共軛先驗進行梳理,旨在加深學生對四種先驗分布的理解,重點培養學生運用貝葉斯統計解決問題的能力。

[1]韋來生. 貝葉斯統計[M]. 北京: 高等教育出版社,2016.

[2] 韓明. 貝葉斯統計學及其應用[M]. 上海: 同濟大學出版社,2015.

[3] CHIPMAN H A, GEORGE E I, MCCULLOCH R E. BART: Bayesian additive regression trees[J]. Annals of applied statistics, 2010, 4(1): 266-298.

[4] LINERO A R. Bayesian regression trees for high dimensional prediction and variable selection[J]. Journal of the American Statistical Association, 2018, 113(522): 626-636.

[5] 張文清,錢夕元. 非對稱三參數廣義誤差分布的參數估計及應用[J]. 華東理工大學學報(自然科學版),2021(3): 411-418.

[6] 豆瓣. 貝葉斯集錦(4): 貝葉斯統計基礎[EB/OL]. https://site.douban.com/182577/widget/notes/10567181/note/294041203/,2013-8-9

Teaching Research on Prior Distribution in Bayesian Statistics

Bayesian statistics is an important branch of statistics. Bayesian statistics has developed rapidly in recent decades and has been widely used in practical problems. How to select a prior distribution is a major problem in Bayesian statistics. The article combs four kinds of prior distributions in teaching: determining a prior by using the second type maximum likelihood method of marginal distribution, determining a prior by using the moment method of marginal distribution, determining a prior, a prior without information, and a conjugate prior from four aspects: basic ideas, solving steps, application examples, and use comparison, so as to deepen students' understanding of several prior distributions, cultivating students' ability to solve practical problems by using Bayesian statistics.

Bayesian statistics; prior distribution; teaching research

G642

A

1008-1151(2022)12-0124-04

2022-09-09

曹桃云(1968-),女,廣東財經大學統計與數學學院副教授,博士,碩士研究生導師,研究方向為統計機器學習、貝葉斯統計教學研究;郭影玲(1991-),女,供職于廣東財經大學統計與數學學院,碩士,研究方向為美術視覺傳達設計、高等教育研究。

猜你喜歡
后驗共軛先驗
一個帶重啟步的改進PRP型譜共軛梯度法
一個改進的WYL型三項共軛梯度法
巧用共軛妙解題
基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
一種自適應Dai-Liao共軛梯度法
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
基于貝葉斯理論的云模型參數估計研究
基于自適應塊組割先驗的噪聲圖像超分辨率重建
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
康德審美判斷的先驗演繹與跨文化交流
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合