?

單分位數方法對時間序列尾指數變點檢測及應用

2019-04-30 02:43周江娥商明菊
貴州大學學報(自然科學版) 2019年2期
關鍵詞:變點車流量樣本

周江娥,胡 堯,2*,商明菊

(1.貴州大學 數學與統計學院,貴州 貴陽 550025;2.貴州省公共大數據重點實驗室,貴州 貴陽 550025)

通常,我們將樣本用一個分布或者模型進行刻畫,變點則是指其分布、模型或其參數突然發生改變之點稱為變點,通過變點檢測可以分析出造成該變點的原因,從而找到有效的解決辦法。自Page以來,大量的研究都致力于變點分析這一理論及其在各個領域中的應用[1]。在現有的方法中,Cusum檢驗因其在實際應用中的易用性而長期流行,與似然法相比,原序列真實分布未知情況可使用Cusum方法。例如文獻[2,3]。在金融和生物統計中,數據常具有尖峰厚尾的性質,尾指數是描述此特征的一個重要指標。實際應用中,大多數文獻關注的是導致極端事件發生變化的均值或方差,但尾部的變化(即尾指數變化)會導致更多的極端事件。

極端現象的統計建模和分析是非常關鍵的,因為災害和恐慌事件(如洪水、大地震和股市崩盤)的潛在風險可以事先確定,從而使它們得到充分的管理或預防。在此基礎上,研究極值理論中的變點檢驗問題,特別是由于尾指數代表分布的肥胖程度,并確定了樣本最大值等極值漸近分布的形狀,因此本文重點研究分布尾指數的變點檢測。尾指數估計問題是幾十年來統計、金融、水文[4]、可靠性和通信工程中的一個核心問題。Quintos et al.和Kim et al.發展了一種檢測分布尾指數參數變點的方法,這兩種方法都是基于Hill的尾指標估計,都是針對厚尾分布而進行的[5,6]。根據Lee et al.提出的檢驗程序,考慮尾序過程,構造Cusum檢驗并證明尾序列過程在假設尾指數保持為常數的原假設下弱收斂于布朗運動[7]。

本文將根據Oka et al.提出的變點估計修正單分位數方法進行樣本尾指數變點檢測,利用Cusum檢驗思想,主要是針對多元時間序列尾指數變點檢測[8]。采用單分位數方法對多元時間序列進行樣本尾指數變點檢測。文章主要從以下方面進行:首先,進行模型基本假設介紹、檢驗統計量的構造和統計量極限分布的證明;其次,變點存在性檢驗及臨界值的模擬計算;然后,針對三個經典厚尾分布類型模擬數據進行模擬研究,最后,利用本文提出的方法對深圳市香蜜湖路市委黨校南行路段車流量數據進行變點存在性研究分析。

1 模型理論介紹

1.1 模型基本假設

利用變點檢測模型檢測多元時間序列中樣本尾指數的變化,我們假設所有隨機變量都被定義在概率空間(Ω,P)中。假設樣本觀測值為{Zit,i=1,…,n,t=1,…,T}是一個非負隨機變量序列,其i是指某個個體(如:年),t是指時間(如:天)。設m是將樣本劃分為m+1段的m個未知變點,及T1,…,Tm為對應未知變點。對于每個i,假設Zit~fj,對于t∈[Tj-1,Tj),j=1,…,m+1,其中T0=1,Tm+1=T+1,fj是其分布函數,使得fj在實際應用中不同于fj-1和fj+1。為了避免估計的序列樣本量過少,進行變點檢測時默認對原序列存在以下可能的劃分:Λε={(T1,…,Tm):Tj-Tj-1≥εT,T1≥εT,Tm≤(1-ε)T},其中ε>0是個較小的常數。Kim et al.提出的基于累積和檢測時間序列尾指數變化的模型,將其應用到多元時間序列尾指數變點檢測中。尾指數是衡量樣本尾部分布的肥胖程度的指標[9]。對于該變點檢測問題,有如下假設:

H0∶{Zit}尾指數無變點 vsHa∶尾指數存在變點。

設τ是樣本的一個高分位點,則構造如下檢驗統計量,定義

(1)

1.2 統計量漸近性質

假設3

以上四個假設成立且在一定的正則條件下有:

(2)

其中s=t*/T。

根據式(1)和式(2)對該部分有:

=(τ(1-τ))1/2[W(s)-sW(1)]。

其中W(·)是一個維納(WIENER)過程,則有

2 變點存在性檢驗

2.1 變點存在性檢驗步驟

對于變點問題,由變點檢驗統計量的極限分布得到變點檢測法則,具體檢測過程可分為三個步驟:

步驟1根據式子(1)可得到統計量SQτ,1的檢驗法則,如果SQτ,1

H0∶存在j個變點 vsHa∶存在j+1個變點。

步驟3重復步驟2,直到檢測原假設失敗或者當j=M時終止該檢驗程序,M是預先指定的變點個數的最大值。

2.2 臨界值的確定

3 模擬研究

3.1 模擬數據介紹

利用數據模擬研究說明該方法的有效性。在模擬研究中,我們采用了分位數水平τ=0.95。為了不失一般性,考慮三個分布類型的數據,即Beta-,GP-和t-分布??偣伯a生了50年×365天的獨立隨機變量,設置變點位置為T1=182,在變點T1前數據的分布為f0,變點T1后數據的分布為f1,根據Dupuis D J.所定義數據的尾指數τ(F)理論計算公式如下[10],

(3)

在不同分布下根據公式(3)得到尾指數τ(F)如表1所示。

表1 根據公式(3)計算得到樣本尾指數

由尾指數計算公式得出的各樣本尾指數情況如表1所示,可以看出在樣本的參數變化時其尾指數也隨之變化。 但在實際情況下,我們是無法從散亂的數據中觀測到該變化。下面的模擬研究中我們將針對上述三個類型分布數據中檢測其尾指數的變化,即尾指數變點存在性檢驗。

3.2 臨界值的確定

檢驗統計量的極限分布性質檢測尾指數變點存在情況,由于臨界值通過其極限分布不容易計算,所以通過蒙特卡洛模擬(Monte Carlo simulation)方式獲得檢驗法則中的臨界值,即在給定顯著性水平為α的條件下,分別產生隨機數εi,且εi~N(0,1)樣本量為1000,模擬10000次,α分別取0.1,0.05,0.01,計算μn,1,得到10000次模擬最大值的(1-α)分位數即為對應α水平下的臨界值,其結果展示如表2。

表2 給定顯著性水平下的臨界值

3.3 變點檢測

在得到給定顯著性水平下的臨界值之后,根據檢驗統計量對序列進行單變點檢測,其實驗模擬500次,其模擬結果如表3,其中TP表示真實變點數,TPR(%)表示500次模擬中檢測出真實變點所占比例。

表3 模擬500次變點檢測結果

由上表可以看出單分位數方法對多元時間序列尾指數變點檢測在顯著性水平α=0.05下準確度相對最高,且針對三個分布類型數據當分布從正態分布變化到t分布時檢測正確率很高,說明該方法針對分布變化導致尾指數變化情形的變點識別更加精確,且運算速度較快,尤其對于t分布的檢測時間比其他兩種分布都少。

4 實例分析

本實例分析數據源于深圳市局部區域道路的流量監測數據,主要選取深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數據為例,數據結構為每兩分鐘記錄一次該路段車流量總數(一天共720個數據),根據實際數據得到過車量的時序圖1所示。

圖1 兩分鐘過車量時序圖Fig.1 Two-minute traffic volumes sequence charts

分別以深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)、2018年3月30號(星期五)和2018年3月31號(星期六)三天的數據為例,利用本文的單分位數方法根據二分法原理將多變點轉化為單變點問題進行變點檢測,得到結果如圖2、圖3所示。

圖2 2018.3.27(星期二)和2018.3.30(星期五)兩天車流量變點檢測結果Fig.2 Detection results of two-day change point of traffic flow on Tuesday and Friday, 2018.3.27 and 2018.30(Friday)

由圖2(左)顯示深圳市香蜜湖路市委黨校南行路段2018年3月27號(星期二)車流量變點檢測情況,檢測結果顯示存在三個變點,對應的位置分別是205、274、555,相對應的時間為 06∶46,09∶04、18∶26,2018年3月30號(星期五)車流量變點檢測情況如圖2(右)所示,檢測結果顯示存在四個變點,對應的位置分別是199、217、512、550且相對應的時間為 06∶34,07∶10、17∶00、18∶16,從檢測結果容易看出工作日星期二和星期五有著類似的交通流變化規律,檢測出早高峰7∶00~9∶00和晚高峰17∶00~19∶00都存在交通流變點,對于星期五而言變化情況更為復雜,這是因為星期五是一周中工作日的最后一天,人們都有各自的周末安排,在結束一周的工作后將出行旅游或者和朋友聚餐等活動,這就造成交通流變化規律有一定的變化,本文的檢測結果和人們平時的出行規律相符合,證明了此方法的有效性。

2018年3月31號(星期六)車流量變點檢測結果如圖3所示。

從圖3中2018年3月31號(星期六)車流量變點檢測結果得到,在周末變點存在的時間為8∶22,15∶50,17∶56和上述工作日車流量變點檢測結果相比,周末的早高峰要比工作日來得晚,而晚高峰變點存在情況和工作日相差不大,這是因為周末是人們在經過辛苦的一周工作后放松的時間,人們的生活習慣傾向于更加隨意和散漫,人們都更愿意睡個舒服的懶覺再整理出門,這就導致了路段交通流變點的延遲,說明本文變點檢測方法能有效地檢測出交通流變點存在情況。

圖3 2018.3.31(星期六)車流量變點檢測結果Fig.3 2018.31(Saturday) traffic change point detection results

5 總結

本文通過單分位數方法對多元時間序列尾指數變化進行變點檢測。通過模擬研究證明了該方法的有效性,通過對交通數據的實例分析,得到該方法能準確檢測到交通流中存在的變點,進而對于出行者而言了解該信息可以避免出行高峰期,提高出行效率,對于相關交管部門而言可根據該信息有效且快速地采取解決方案,一定程度上舒緩交通壓力。

猜你喜歡
變點車流量樣本
回歸模型參數的變點檢測方法研究
用樣本估計總體復習點撥
正態分布序列均值變點檢測的貝葉斯方法
基于二元分割的多變點估計
獨立二項分布序列變點的識別方法
推動醫改的“直銷樣本”
基于車流量監測系統的荊岳大橋擁堵預警方法探討
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
參考答案
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合