?

甘肅勞動者報酬影響因素分析
——基于嶺回歸與Lasso 回歸

2024-04-07 13:29趙向榮
商展經濟 2024年6期
關鍵詞:共線性消費水平報酬

趙向榮

(蘭州財經大學 甘肅蘭州 730020)

1 引言

勞動者報酬是體現勞動者收入的分配格局[1-2],研究勞動者報酬對了解消費狀況[3]、制定政策、資源配置等具有重要意義。大量文獻表明,影響勞動者報酬的因素為居民消費水平、物質資本存量、人口數量、社會保障[4]等因素,而居民收入、人口數量與消費習慣[5-9]是決定勞動者報酬的決定性因素。近年來,雖然國家出臺了一系列政策(鄉村振興戰略、城鎮化等),且2020年是消除全面貧困的收官之年,但甘肅省的城鄉收入差距還較大,城鎮居民收入遠大于農村居民收入[10-12]??紤]到數據的可獲取性及研究的可行性,本文選擇農村居民消費、城鎮居民消費、資本存量、人口數量為解釋變量,勞動者報酬為被解釋變量,研究勞動者報酬的影響因素。對于該問題的研究,一般采用普通最小二乘法(OLS)估計模型參數,但如果模型中存在多重共線性問題,那么最小二乘法的估計就會失效[13-15],此時的估計量不再是無偏估計量。其參數估計公式為β=(XTX )-1XTy ,若XTX 不可逆,則無法求出β。此外,XTX 趨向0時,則可能導致回歸系數無窮大,此時得到的回歸系數是無意義的,解決此類問題可使用兩種方法:一是利用Lasso回歸;二是嶺回歸。

2 嶺回歸的基本原理

2.1 參數推導

考慮一個標準的線性回歸模型

其期望E(ε ) =0, E(ε εT)= Iσ2且X 是n × p的矩陣則:

但是由于XTX 趨向0或XTX 不可逆,則模型不可求解,為解決這一問題,設線性回歸模型的目標函數:

為了估計出β,嶺回歸模型增加 L2范數:

式(5)中:λ 大于0,只有λ 越大,才能讓 J ( )β 變小,參數估計β 變小。

(XTX+ λI)將導致β 為非偏估計。模型復雜度的提升,在訓練集上的效果越好,即模型的偏差越小。根據凸優化問題,將目標函數 J ( )β 最小化等價于:

式(8)中:t為一個常數,β 為n維列向量βT=(β1, β2,..., βn)。而其中的關鍵問題是尋找最小的λ。

2.2 參數λ 的選取

交叉驗證法的思想是將數據集拆分為k個數據組(每組樣本量大體相當),從k組中挑選k-1組用于模型的訓練,剩下的1組用于模型的測試,則有k-1個訓練集和測試集配對,每種訓練集和測試集下都會有對應的一個模型及模型評分(如均方誤差),進而可以得到一個平均評分。對于值λ,則選擇平均評分最優的λ 值。

3 Lasso回歸基本原理

3.1 參數推導

嶺回歸無法剔除變量,對于Lasso回歸模型,將懲罰項由L2范數變為L1范數,由此可將一些不重要的系數縮減為0,達到剔除變量的目的。

2009年以來,煙草行業逐步在全系統推廣福建省煙草公司審計委派制的經驗和做法,在全系統實行內部審計委派制,即由省級公司向地市級公司派駐審計人員,建立“雙重領導,垂直管理、監督駐地、參審異地”的內部審計運行體系。委派制實施以來,內部審計工作成效顯著,審計監督的整體性和宏觀性作用得到有效發揮,為全系統規范健康發展提供了有力保障。但從運行情況來看,也存在著不少的問題,期待通過深化改革,進一步激活活力,發揮內部審計的作用。

式(9)中:E SS ( )β 表示誤差平方和;λ l1(β) 表示懲罰項,由于懲罰項變成了絕對值,則在零點處就不可導,故采用坐標下降法。對于p維參數的可微凸函數 J ( )β ,如果存在使得 J ( )β 在每個坐標軸上均達到最小值,則 J (β) 就是點J (β )上的全局最小值??刂破渌鹥-1個參數不變,對目標函數中的某一個jβ 求偏導,以此類推,對剩下的p-1個參數求偏導。

由于懲罰項不可導,則使用次導數:

令兩個偏導數相加等于0,則:

3.2 參數λ 的選取

參數λ 的選取有兩種方法:一是機器學習領域的交叉驗證(Cross- Validation)法;二是信息準則法,具體計算公式如下:

式(16)(17)中:RSS表示殘差平方和,df表示自由度。一般情況下,選擇局部最小信息標準λ 時的參數值。

4 數據收集與變量選擇

甘肅勞動者報酬用Y 來表示。樣本數據勞動者報酬的計算是以2000年為基期。相關數據均來自2000—2021年國家統計局網。

甘肅省人口數據,年均人口數是由年末人口數計算而得,相關數據均來源于2000—2021年國家統計局網。

城鎮居民消費水平與農村居民消費水平,其數據來源于2000—2021年國家統計局網,根據消費價格指數,平減到以2000年為基期的城鎮居民消費水平、農村居民消費水平。

5 勞動者報酬的回歸分析

設我省資本存量、常住人口數、城鎮居民消費水平、農村居民消費水平、城鎮化率分別為X1、X2、X3、X4、X5,勞動者報酬為Y,則:

令X=( X1, X2, X3, X4, X5),對X 與Y 作最小二乘回歸,即

5.1 最小二乘(OLS)法

以表1中的數據為樣本,運用最小二乘估計回歸系數β利用R語言估計參數,結果如表1所示。

表1 最小二乘回歸

回歸系數分別為:β0=-17370、β1=1.327、β2=5.004、β3=0.2074、β4=-0.7656,雖然模型的可決系數R2=0.9989很高,表明模型的擬合優度較好,但其中X3、X4參數值在5%的顯著性水平下并不顯著,且X4的參數估計值為負值,這顯然不符合實際。導致這樣問題的發生是因為解釋變量間存在多重共線性,最小二乘法估計參數及參數檢驗都是失效的。

多重共線性的診斷。判斷自變量之間是否存在多重共線性有兩種方法:一是通過參數估計的系數是否符合實際經濟意義;二是測算方差膨脹因子,從檢驗的準確性來講,方差膨脹因子判斷是否存在多重共線性更具一般性,如果方差膨脹因子(VIF)大于10,就表明存在多重共線性。由表1中可知五個變量皆存在多重共線性,其方差膨脹因子分別為:54.35869、30.58235、194.93805、973.71840,均大于10。綜上所述,4個自變量皆存在多重共線性。

5.2 嶺回歸

按照嶺回歸的算法估計回歸參數,假設迭代步長為0.01,利用R軟件即可確定最佳回歸參數λ的嶺脊圖,如圖1所示。

圖1 嶺脊圖

由圖1可以看出,λ不斷增大時,解釋變量系數逐步趨于穩定,當λ=0.05以后,解釋變量系數基本穩定,此時λ為0.05,具體如表2所示。

表2 嶺回歸參數估計

由表2可知,4個自變量的標準回歸系數分別為β0=-16520、β1=1.1269、β2=4.749、β3=0.0259、β4=0.0748,系數值較為合理,4β由負值修正為正值,且符合實際意義,即在其他條件不變的情況下,農村居民消費水平每變化1單位,則勞動者報酬變化0.0748個單位。通過分析回歸系數我們可以得出以下結論:當其他變量不變的情況下,資本存量每變化1個單位其勞動者報酬變化1.1269個單位;當其他條件不變的情況下,常住人口每變化1單位,其勞動者報酬變化4.749個單位;當其他條件不變的情況下,城鎮居民消費水平每提升1個單位,其勞動者報酬增加0.025個單位。

根據回歸結果,嶺回歸的模型估計值為:

5.3 Lasso回歸

上文的方法使用了嶺回歸,在此基礎上,消除了多重共線性,避免了回歸系數的不穩健。本文通過Lasso回歸對該模型進行擬合,相比嶺回歸Lasso回歸使用了1L范數,由此可將一些不重要的系數縮減為0,達到剔除變量的目的。

從表3的估計結果來看,R2=0.999模型的擬合效果較好,從變量被選擇回歸的順序可以看出:第一,選擇X1(資本存量);第二,選入的變量是X4(農村居民消費水平);第三,選入的變量是X2(常住人口數);第四,選擇的變量是X3(城鎮居民消費水平);第五,剔除了變量X4(農村居民消費水平),第六,加入變量X4(農村居民消費水平)。同樣可從圖2得到相同的結論。第零次迭代,模型的系數全為零,第一次迭代,X1的系數不為零,其他變量的系數皆為零,第二次迭代,變量X1與變量X4的系數不為零,第三次迭代,變量X1與變量X4以及變量X2的系數不為零,第四次迭代,變量X1與變量X2及變量X3的系數不為零,第五次迭代,仍然是變量X1與變量X2及變量X3的系數不為零,且達到穩定狀態,第六次迭代,變量X1、變量X4、變量X2及變量X3的系數都不為零。

圖2 lasso回歸變量選擇圖

表3 Sequence of Lasso moves

本文利用Lasso回歸方法對模型進行估計,如表4所示,迭代0次的CP值最大為13060.3440;迭代1次的CP值顯著下降,為4743.2695;迭代2次的CP值為1773.2556;迭代3次的CP值為79.3354;迭代四次的CP值為60.0975;迭代5次的CP值為3.2024;迭代6次的CP值為5。一般情況下,本文選擇CP值最小的迭代次數,也就是5次迭代,其CP值最小且此時的自由度為4,即該種情況下是符合本文所需的模型。

表4 lars與lasso的比值

通過使用R軟件可以計算出常數的系數值為-13756.25所以最終模型為:

β0=-13756.25、β1=1.3208442、β2=4.723578、β3=0.03342363,系數值較為合理,通過分析回歸系數本文得出以下結論,當其他變量不變的情況下,資本存量每變化一單位其勞動者報酬變化1.32個單位,當其他條件不變的情況下,常住人口每變化1單位,其勞動者報酬變化4.7235個單位,當其他條件不變的情況下,城鎮居民消費水平每變化1單位,其勞動者報酬變化0.033個單位。

6 結語

綜上所述,勞動者報酬反映了甘肅省經濟發展的基本情況,無論是城鎮居民消費水平還是農村居民消費水平甘肅都有了顯著提升,其生活水平也日益提升,家庭財富不斷積累,勞動者報酬穩固增加。通過分析勞動者報酬的影響因素,可以提升居民消費水平,促進內需拉動經濟增長,以及促使勞動者報酬不斷增加。在運用線性回歸分析勞動者報酬影響因素時,由于它們之間存在多重共線性,采用最小二乘法進行估計得到的,估計的參數是失效的,因此分別采用嶺回歸估計與Lasso回歸估計參數。這兩種方法都克服了線性相關的問題,保障了參數估計結果的穩健。對于嶺回歸而言盡最大可能保留了原有變量而且使得估計有效,而Lasso回歸最終也使得系數穩健估計。本文分別運用嶺回歸與Lasso回歸研究了城鎮居民消費、農村居民消費、人口數量、資本存量對甘肅省勞動者報酬的影響。結果表明:對于嶺回歸而言,對甘肅省勞動者報酬影響因素由大到小的因素依次為:資本存量、人口數量、農村居民消費水平、城鎮居民消費水平;對于Lasso回歸來說,對甘肅省勞動者報酬影響因素由大到小的因素依次為資本存量、人口數量、城鎮居民消費水平。

猜你喜歡
共線性消費水平報酬
預計到2050年中國城鄉消費水平將無明顯差距
銀行不良貸款額影響因素分析
中國人均消費世界排名與增長預測研究
——基于指數增長模型
文氏圖在計量統計類課程教學中的應用
——以多重共線性內容為例
不完全多重共線性定義存在的問題及其修正建議
我國人均消費水平影響因素分析
我國經濟增長與國民消費的演進
醫生的最佳報酬
《使用文字作品支付報酬辦法》發布
誰沒領到報酬
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合