?

我國經濟周期狀態劃分的影響因素分析

2020-06-17 02:24陳文青
信陽農林學院學報 2020年2期
關鍵詞:轉折點經濟周期決策樹

陳文青

(安徽大學 經濟學院,安徽 合肥,230601)

2020年是全面建成小康社會和“十三五”規劃的收官之年,在突如其來的新冠肺炎疫情影響下,如何快速恢復經濟增速,保持經濟穩中向好、長期向好的發展局面,對推動經濟高質量發展提出了更高要求。從經濟周期角度來看,我國經濟目前正處于一個較長周期的收縮階段,經濟是否持續回落、何時到達轉折點也成為了社會各界熱切討論的話題。為更好地抵御風險,開展高效的宏觀經濟管理與調控,對當前經濟狀態的清晰了解、對未來經濟發展的準確預測就成為最基礎卻重要的工作。我國經濟已呈現“新常態”,增速放緩、經濟結構改革、驅動轉向,在獨特的經濟體制作用下,我國經濟運行存在著特有的復雜性與不確定性。因此,對當前經濟周期狀態準確劃分有助于加強對整個經濟運行態勢的了解,對影響經濟周期狀態劃分的影響因素及其重要性分析,可以為預測經濟形勢及經濟周期轉折點提供有利幫助,對政府和投資者來說都具有重要的意義。對于宏觀經濟政策來說,經濟周期狀態劃分影響因素的研究結果可以成為其調整的理論依據。

1 文獻綜述

經濟周期狀態劃分,即判斷該時點經濟運行狀態處于經濟周期中哪個階段,由此來確定和預測經濟周期轉折點,同時一旦確定經濟周期轉折點,也可以完成對經濟狀態的劃分。對于經濟周期轉折點的預測研究最早是由美國國民經濟研究局(NBER)提出的,他們提出的先行指標方法具有較大的局限性,存在主觀性和嚴重滯后性,且不具有可復制性。鑒于此,Bry和Boschan(1971)提出的經濟周期的非參數劃分方法(簡稱B-B法),成為最常用的確定經濟周期波動峰、谷日期的傳統方法[1]。該方法對于確定經濟周期轉折點提出兩個約束條件:第一,谷到峰或峰到谷的持續時間在兩個季度以上;第二,兩個相同的轉折點即一個波動周期的持續時間至少為五個季度。

在由經濟周期階段性劃分來預測經濟周期轉折點的研究中,有兩種較為典型的研究方法,一為利用馬爾科夫狀態轉換模型,二是利用二元變量模型。Hamilton(1989, 1990)提出并發展完善的馬爾科夫狀態轉換模型,該模型包含一個離散的狀態變量,可將經濟處于不同狀態的概率估算出來[2,3]。王建軍(2007)在傳統馬爾科夫狀態轉換模型的基礎上,引入了新的虛擬變量,該變量能夠較好的反映我國經濟增長周期模式的改變和狀態轉移機制的變遷,由此解決了將馬爾科夫模型應用于中國年度宏觀經濟數據研究中國經濟周期問題的難題[4]。鄭挺國(2017)在馬爾科夫區制轉移動態因子模型的基礎上使用混頻數據,構造了一種能夠綜合利用不規則數據的經濟周期計量模型,較好的刻畫出我國經濟周期波動及階段性變化[5]?;诙x擇模型的預測研究是以一系列宏觀經濟指標為基礎,結合傳統的二元選擇模型來預測未來一段時間衰退發生的可能性。石柱鮮等(2007)應用Logistic回歸模型構建了我國先行3個月的經濟周期狀態預測模型,同時結合小波方法對2007年主要經濟指標發展趨勢進行預測,取得較好的預測效果[6]。

隨著人工智能的興起,機器學習(Machine Learning)方法在各個領域迅速崛起,為解決互聯網時代經濟研究提供了新的研究方法。Lapedes et al(1987)首次將人工神經網絡用于經濟預測,確定了人工神經網絡在經濟預測中具有較高的準確性和有效性,此后,人工神經網絡等大數據方法就成為經濟預測領域的研究熱點[7]。陳夢根等(2020)通過對比分析利用傳統方法和利用機器學習方法所得的居民消費價格指數預測結果,發現相比傳統的回歸方法和時間序列預測方法,神經網絡等機器學習方法對預測結果具有明顯優勢[8]。

整體上看,目前對于經濟周期狀態劃分的相關研究極為豐富,其中傳統的非參數方法B-B法對于經濟周期轉折點的判定結果已成為世界各國對于經濟周期階段劃分及轉折點預測時的重要參照,然而該方法無法實現經濟狀態的預測,且無法體現各經濟指標對經濟周期的影響。另一種被廣泛運用的思路是通過對經濟擴張期和收縮期狀態的劃分來確定和預測經濟周期轉折點,馬爾可夫狀態轉換模型和二元變量模型是其中較為典型的研究方法。機器學習方法作為一種較新的人工智能方法,其應用在經濟問題上的研究還比較少,在已有的對于經濟周期相關問題上的應用也更多偏向于對轉折點的預測及經濟狀態的劃分,方向較為單一。因此,本文在前人豐富的研究基礎上,應用機器學習方法探究經濟周期狀態劃分及其影響因素,相比已有成果更偏重于對于影響因素及其重要性的分析。

2 模型介紹與指標選取

2.1 模型簡介

2.1.1 邏輯回歸模型 邏輯回歸(Logistic Regression)是一種廣義的線性回歸分析模型,可以用于估計某事件發生的可能性,本文使用的是二分類的邏輯回歸。邏輯回歸實現分類問題的處理是通過Sigmoid函數引入了非線性因素,將函數的輸入范圍(∞,-∞)映射到了輸出的(0, 1)之間且具有概率意義。對于輸入x,在給定參數θ條件下分類結果為1或0的概率分別為:

(1)

(2)

邏輯回歸模型實現簡單,可以較為便利的觀測樣本概率分數,但容易欠擬合,影響分類結果準確率。

2.1.2 決策樹模型 決策樹是在分類問題中經常使用到的一種監督型學習算法,可以根據輸入變量中最顯著的分裂點將總體或樣本劃分為兩類或多類。本文采用的是決策樹中的 CART 分類樹算法(Classification And Regression Tree)。該算法是一種二分遞歸分割技術,把當前樣本劃分為兩個子樣本,使得生成的每個非葉子結點都有兩個分支,即它在每一步的決策都只能是“yes”和“no”,因此 CART分類樹算法生成的決策樹是結構簡潔的二叉樹。

CART分類樹算法使用基尼系數Gini(p)作為劃分函數,基尼系數代表模型的不純度,基尼系數越小,模型純度越高,特征越好。對于二分類問題,假設第一類輸出的概率為p,則

Gini(p)=2p(1-p)

(3)

對于樣本D,個數為|D|,根據特征A的某個值a,把D分成|D1|和|D2|,則在特征A的條件下,樣本D的基尼系數表達式為:

(4)

CART 算法主要由決策樹的生成和剪枝兩個步驟組成。

決策樹的輸出結果比較直觀,易于理解,可以處理多維度輸出的分類問題,但樣本的微小改動可能導致樹結構的劇烈改變,該問題可以通過集成學習里面的隨機森林等方法解決。

2.1.3 隨機森林模型 隨機森林是利用多棵樹對樣本進行訓練并預測,其基本思路為:(1)從樣本集中隨機選取n個樣本;(2)從所有屬性中隨機選取K個屬性,選擇最佳分割屬性作為節點建立CART決策樹;(3)重復以上兩步m次,即建立了m棵CART決策樹;(4)這m個CART形成隨機森林,通過投票表決結果,決定數據屬于哪一類。

隨機森林對于高維數據的處理較為理想,在樣本特征維度很高時仍然能高效的訓練模型,且在訓練后可以給出各個特征對于輸出的重要性。

2.2 指標選取

分類模型的構建需要目標變量與解釋變量,目標變量是描述某時點經濟狀態的二分類變量,它的確定需要我們先對經濟周期進行階段劃分。解釋變量是在大量的宏觀經濟指標中篩選出的能夠全面、及時反應經濟運行態勢的指標,它的確立需要經濟周期轉折點的基準指標作為主要選取標準。

2.2.1 目標變量的確定 本文根據國家統計局公布的一致合成指數,基于B-B算法得到1995年以來我國經濟周期波動的轉折點日期,如表1所列:

表1 經濟周期波動的峰谷日期

圖1 一致合成指數(月度)曲線圖

依據經濟周期波動轉折點判定的約束條件及圖1(圖1中陰影部分區域為依據約束條件所確定的經濟周期收縮期)進一步判斷,表1中帶下劃線的時間為經濟周期的谷底。據此,構造一個描述經濟周期階段的二元序列,其中0表示收縮階段,1表示擴張階段,轉折點日期的值與其前期相同,狀態取值的變化從轉折點日期下個月開始。

2.2.2 解釋變量的確定 宏觀經濟指標的選取應能如實、全面和及時地反映當前的經濟形勢,需綜合考慮生產、消費、投資、進出口等方面的經濟活動,最終綜合考慮數據的全面性和可得性。本文在前人研究的基礎上,使用時差相關分析、K-L信息量法、峰谷對應法等多種計量方法,對經濟預測指標組進行選取,從不同的領域選出了10個指標,分別是:進出口總額、居民消費價格指數、貨幣供應量(M1)、社會消費品零售總額、固定資產投資完成額、工業增加值、進口總值、出口總值、發電量月度數據作為實施識別的基礎數據。

本文選取的數據期間為1995年1月至2019年12月,所用數據均來自中經網統計數據庫公布的月度數據。除居民消費價格指數外,其余各指標均使用增長率數據,其中固定資產投資完成額使用累計增速,其余各變量使用當期同比增速。補充數據缺失值后使用X-12-ARIMA模型進行季節調整,提取各指標趨勢循環項并檢驗序列平穩性,最后對數據進行標準化處理。

3 經濟周期狀態劃分的實證分析

3.1 邏輯回歸模型的實證分析

3.1.1 邏輯回歸模型構建 通過前期的指標選取和對數據的預處理,本文利用R語言作為經濟周期轉折點研究的邏輯回歸實現工具。在數據集中選取1995年1月-2012年5月共計210條數據作為訓練集,2012年6月-2019年12月共計90條數據作為測試集。本文綜合模型的復雜程度和預測精度,采用逐步回歸方法,依據BIC標準進行模型篩選,模型回歸結果如表2所示。

表2 BIC 準則下的模型回歸結果

注:***為0.001 顯著 **為0.01 顯著 *為0.05 顯著

為評估模型分類效果,分別對訓練集與測試集繪制混淆矩陣圖和ROC曲線圖,結果如下表3、表4、圖2所示。

表3 邏輯回歸訓練集混淆矩陣

表4 邏輯回歸測試練集混淆矩陣

依照混淆矩陣得該模型訓練集準確率為0.9143,測試集的準確率為 0.8778,計算得出基于測試集的F值為0.8991,AUC的值為0.879,說明建立的邏輯回歸模型效果良好。因此,用邏輯回歸模型解釋經濟周期狀態的劃分與各影響因素之間的關系是合理的。

圖2 邏輯回歸的ROC曲線

3.1.2 基于邏輯回歸模型的影響因素分析 觀察表2中各指標對應的回歸系數,系數絕對值越大可以理解為變量的重要性相對越高。因此,依據邏輯回歸模型的分類結果,在控制其他因素不變時,貨幣供應量(M1)、貨運量、工業增加值越大,該時點處于經濟周期擴張狀態的概率越大。反之,進口總值、社會消費品零售總額、居民消費價格指數越大,該時點處于經濟周期收縮狀態的概率越大,而出口總值、固定資產投資完成額、進出口總額、發電量指標的變動對判斷該時點經濟狀態沒有顯著的影響。

3.2 決策樹模型的實證研究

3.2.1 決策樹模型構建 本文選取1995年1月至2013年12月的宏觀經濟數據建立決策樹模型的訓練集,2014年1月至2019年12月的數據作為測試集。首先利用CART算法建立決策樹模型,其生成的決策樹如圖3所示。

其次,需要對樹進行剪枝來提高其泛化能力,剪枝后的決策樹如圖4所示。

圖3 決策樹模型分類結果 圖4 剪枝后的決策樹模型分類結果

為檢測該模型的分類效果,計算該模型訓練集和測試集的混淆矩陣如表5、表6所示:

表5 決策樹模型訓練集混淆矩陣

表6 決策樹模型測試集混淆矩陣

由混淆矩陣計算可得,該決策樹模型在測試集上的準確率為 0.8556,基于測試集的F值為0.8889,由圖5的ROC曲線知AUC=0.832,因此模型分類效果良好。

圖5 決策樹模型的ROC曲線

3.2.2 基于決策樹模型的影響因素分析 根據圖4剪枝后的決策樹模型的分類結果,模型共進行六輪判斷,生成7個終端節點,方框內第一行為經濟周期狀態分類標記,“0”代表收縮狀態,“1”代表擴張狀態,第二行為決策概率,第三行為該類標記占總樣本比例。從決策樹的第一層,即居民消費價格指數這一指標來看,當CPI_tc大于等于101.2時,y指標進入圖的左側,CPI_tc小于101.2時,y指標進入圖的右側。觀察決策樹的右側,第二層依然是以CPI_tc為依據進行劃分,此次劃分的標準為CPI_tc是否超過99.4,若CPI_tc小于99.4,則進入樹的右側,此時判斷該時點經濟狀態為擴張階段,否則進入樹的左側,開始下一輪判斷。由此可見,經濟周期狀態的判斷與居民消費價格指數波動有較大關系,CPI值越小,該時點處于經濟周期擴張狀態的可能性越大,這與上一節邏輯回歸的結果是一致的。決策樹右側的第三層是以出口總額為父節點進一步劃分,出口_tc小于23.12時,進入樹的左側,判斷該時間經濟狀態為擴張階段的概率為21%,收縮階段的概率為79%,在本文的判斷中,取閾值為0.5,則最后判斷該時點的經濟狀態為收縮狀態。反之,若出口_tc大于等于23.12,則判斷此時經濟狀態為擴張狀態。同樣的,我們可以對其他節點的分裂結果進行判斷,當CPI_tc不小于101.9,發電量_tc不小于14.33時,判斷經濟狀態為擴張階段;否則,若固定資產投資完成額_tc不小于9.98,判斷經濟狀態為收縮狀態,;若固定資產投資完成額_tc小于9.98,則根據M1進一步劃分,若M1_tc小于7.45,判斷經濟狀態為收縮狀態,否則為擴張狀態。

與邏輯回歸的結果相比,決策樹模型除能夠反映出影響因素之外,對經濟周期狀態劃分的條件的解釋能力更強。

3.3 隨機森林模型的實證研究

3.3.1 隨機森林模型構建 基于決策樹模型的分類原理,單棵決策樹的預測受樣本波動的影響較大,預測效果較不穩定,因此,本文考慮用多棵樹投票決定的隨機森林模型進行改進。本文利用R語言工具,將所有變量納入到隨機森林模型進行建模,決策樹數量選擇400。表7、表8分別為訓練集數據和測試集數據的混淆矩陣。

表7 隨機森林訓練集混淆矩陣

表8 隨機森林測試集混淆矩陣

圖6 隨機森林模型的ROC曲線

根據混淆矩陣計算得出該隨機森林模型訓練集準確率為0.9956,測試集的準確率為0.9778,基于測試集的F值為0.9818,由圖6 ROC曲線知AUC值為0.9821429,說明該隨機森林模型分類效果非常好,其相對決策樹模型的準確率有了大幅度提升。

3.3.2 基于隨機森林模型的影響因素分析 隨機森林模型能夠直觀的描述各變量對分類結果影響的重要性,在圖7中,各經濟變量分別以精確度平均減少值以及節點不純度平均減少值進行降序排列,位置越高的變量被認為對于模型的重要程度越大。對精確度平均減少值來說,居民消費價格指數、貨幣供應量(M1)、社會消費品零售總額、固定資產投資完成額、發電量是對其影響相對較大的重要變量。對節點不純度減少平均值來說,居民消費價格指數、貨幣供應量(M1)、社會消費品零售總額、固定資產投資完成額、工業增加值可以看作是對其影響較大的重要變量。

圖7 各變量影響程度

4 結論

4.1 關于模型比較的結論

本文以模型在測試集上的準確率、AUC值、F值為參照來比較三種模型的分類效果,如表9所示,隨機森林模型在測試集上的準確率、AUC值和F值均最高,表示其分類效果最好,可以認定為最優模型。

表9 模型評估

4.2 關于影響因素的結論

三種模型對于經濟周期狀態劃分的影響因素及其重要性的判斷結果并不完全相同,但綜合來看,居民消費價格指數對于經濟周期狀態劃分具有非常重要的影響。結合經濟實際,在經濟“新常態”背景下,我國經濟更多依賴國內消費需求的拉動,而消費者購買力卻在逐年下降。因此,對居民消費價格變動進行準確預測,對于采取合適的宏觀調控政策、穩定我國經濟發展態勢具有非常重大的意義。

猜你喜歡
轉折點經濟周期決策樹
經濟周期調整
在史論結合中認識和理解經濟危機
——《資本主義經濟危機與經濟周期:歷史與理論》評介
美國經濟數據背后:“拉長”的經濟周期
決策樹和隨機森林方法在管理決策中的應用
余有畫說
余有畫說
決策樹學習的剪枝方法
決策樹多元分類模型預測森林植被覆蓋
經濟周期形成原因的新假說——經濟周期受天體運行周期影響
青春的一場告別儀式
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合