?

基于主成分分析法的兩步子抽樣算法及應用研究

2023-04-08 16:15王玉李莉莉周楷賀
關鍵詞:查準率樣本量參數估計

王玉 李莉莉 周楷賀

摘要:

針對大數據中高維變量多重共線性問題,結合Logistic模型提出兩種基于主成分分析法的兩步子抽樣算法,分別為基于A-最優準則的最小均方誤差(minimum Mean Square Error, mMSE)抽樣和基于L-最優準則的最小方差協方差(minimum Variance covariance, mVc)抽樣。實證結果表明,相較于隨機抽樣,mMSE抽樣和mVc抽樣能大幅降低模型參數估計的均方誤差,提升模型的查準率、召回率、F1分數、特異度等分類評價指標。

關鍵詞:

大數據;主成分分析法;兩步子抽樣算法;信用風險預測

中圖分類號:O212.2???????? 文獻標志碼:A

大數據具有龐大的數據規模和多樣的特征類型,廣泛應用于日常工作、生活中,是機器學習、人工智能的計算基礎。目前基于有限計算資源處理大數據的技術包括分治法[1]、數據流在線更新算法[2]、隨機梯度下降算法[3]、隨機投影算法[4]和子抽樣算法[5]等?;谛畔⒌淖顑炞映闃铀惴ú呗允浅槿-最優準則[6]下具有最大信息矩陣的子數據集并進行參數估計[7]。Logistic回歸模型下的子抽樣方法也不斷涌現,如使用“拒絕—接受”方案在局部空間中調整數據平衡的子抽樣方法[8];用于多分類Logistic回歸模型的局部不確定性抽樣方法[9];基于試驗設計中A-最優準則[10]的最優子抽樣算法(Optimal Subsampling Methods motivated from the A-Optimality Criterion, OSMAC),以及基于L-最優準則[11]改進的最優子抽樣算法[12]。除Logistic回歸模型外,OSMAC還被應用于Softmax邏輯回歸模型[13]、廣義線性模型[14]、分位數回歸模型[15-16],擬極大似然估計[17],嶺回歸模型[18],分布式數據[19]以及基于單元間距離估計的不等概率抽樣[20]。信用貸款的違約風險常用Logistic模型預測,該模型具有穩健性[21]。隨著數據量和特征量的增大,數據實際應用中可能會產生多重共線性問題,導致增大模型參數估計的均方誤差,或出現應用結果與事實背離的情況,因此需要對存在多重共線性問題的大數據進行抽樣研究。綜上,本文提出一種改進的基于主成分分析法的兩步子抽樣算法,結合Logistic模型,應用在信用貸款違約風險預測中,通過模型的均方誤差、分類評價指標評估算法性能。

1.3 兩步子抽樣

最優子抽樣算法所需入樣概率πimMSE與πimVc均受制于未知參數β︿MLE,但通過計算獲得β︿MLE需要花費大量的時間和計算成本。多步子抽樣的最大時間復雜度為線性增加,對未知總體的信息增量呈現邊際效應遞減,為兼顧時間與效率,使用兩步子抽樣算法[12]。第一步獲得總體分布的先驗信息,第二步利用第一步所得先驗信息完成二次抽樣獲得更能代表未知總體的樣本。算法的核心思想是抽取一階樣本獲得先導估計量β~0,再應用A-最優準則和L-最優準則獲得樣本的入樣概率,以此開始第二階段抽樣,進而估計總體參數β⌒。定義總體數目為n,一階抽樣樣本量為r0,二階抽樣樣本量為r,總抽樣數量R=r0+r。兩步子抽樣算法對樣本數量有如下要求:0

(1) 使用主成分分析法處理存在多重共線性的高維數據,采用有放回的Uni抽樣在主成分矩陣中抽取r0個一階樣本,構建一階樣本集S~r0=y*i,F*i,π*i,i=1,2,…,r0,樣本權重π*i=1/n。最大化樣本加權對數似然函數,獲得一階參數β~0,用β~0代替β︿MLE代入到式(4)和式(5),得入樣概率πimMSE(β~0)與πimVc(β~0);

(2) 利用步驟(1)中所得入樣概率進行有放回的不等概率抽樣,抽取r個二階樣本,構建二階樣本集后與一階樣本集合并,記合并后的樣本集分別為SmMSE*R=S~r0∪y**i,F**i,πmMSEi(β~0),i=1,2,…,r和SmVc*R=S~r0∪y**i,F**i,πmVci(β~0),i=1,2,…,r。將樣本集SmMSE*R和入樣概率πimMSE(β~0)代入樣本加權對數似然函數可得第二階段估計參數β⌒mMSE;將樣本集SmVc*R和入樣概率πimVc(β~0)代入樣本加權對數似然函數可得第二階段估計參數β⌒mVc。

2 實證分析

利用信用風險數據,研究基于主成分分析法的兩步子抽樣的算法性能,由所得Logistic回歸模型參數的mse和模型分類效果評價mMSE、mVc、Uni三種抽樣算法,根據CPU耗時比較mMSE抽樣和mVc抽樣。原始數據集共有518 107條數據,剔除無效數據后共有377 474條數據,67個變量,使用KMO檢驗和巴特利特球形檢驗查看初始變量相關性,檢驗結果顯示,KMO值為0.79,巴特利特球形檢驗的顯著性為0.00,

變量間存在相關性,以80%的累計貢獻率提取主成分19個。假定一階抽樣樣本量r0=200,第二階段抽樣樣本量分別為r=600,700,800,900,1 000,1 100,1 200,1 300,1 400,1 500,1 600,1 700,1 800,總抽樣數量R=r0+r。按7:3劃分訓練集和測試集,重復執行K=1 000次。比較模型參數估計的mse,該指標反映參數估計量和真實值之間的差異。由圖1可知,隨總體樣本量增加,三種抽樣得到的模型參數的平均mse分別為0.037 8、0.040 3和0.104 9,mMSE抽樣、mVc抽樣得到的mse遠低于Uni抽樣,分別降低95%和93%,mMSE抽樣所得mse最小,說明mVc和mMSE抽樣與Uni抽樣相比更接近全樣本的參數估計精度,mMSE抽樣的參數估計精度更高。

信用風險分析中,需要識別違約個體。本數據集目標變量為客戶的合同狀態,規定0代表借貸表現正常,1代表借貸表現存在違約行為。查準率表示預測所得正常樣本中預測正確的比例,衡量模型預測正常樣本的準確度;召回率表示預測所得正常樣本占所有真實正常樣本的比例,衡量模型預測正常樣本的能力;F1分數為查準率和召回率的調和平均數;特異度表示預測所得違約樣本占所有真實違約樣本的比例,代表模型預測違約樣本的能力。通過計算查準率、召回率、F1分數、特異度四項分類評價指標,評價使用mMSE抽樣、mVc抽樣和Uni抽樣構建分類器的分類性能。由圖2可知,mMSE抽樣和mVc抽樣較Uni抽樣的查準率分別提升0.18%和0.2%;召回率分別提升1.4%和1.3%;F1分數分別提升0.8%和0.78%;特異度分別提升3.5%和3.9%。使用mMSE抽樣、mVc抽樣構建的分類器,查準率、召回率、F1分數、特異度等評價指標均高于Uni抽樣。

通過抽樣所需CPU耗時,比較mVc抽樣和mMSE抽樣的運行性能。由圖3可知,mMSE抽樣和mVc抽樣的CPU耗時均隨總體樣本量R增加而遞增,mMSE抽樣CPU耗時(0.217~0.287 s)高于mVc抽樣(0.084~0.159 s)。信用貸款違約風險預測實例表明,相較于傳統的Uni抽樣,基于主成分分析法的mMSE抽樣和mVc抽樣的預測非違約類樣本準確度高且能力強,特別是違約類樣本預測能力大幅度提升。這兩種抽樣算法能夠降低模型參數估計mse,提高模型分類預測精度。

3 結論

本文結合Logistic模型,使用基于主成分分析的兩步子抽樣算法處理存在多重共線性的數據,提取主成分代替原始數據后,使用兩步子抽樣算法求解模型未知參數,根據計算結果評價模型表現。實證結果表明,信用貸款違約風險預測問題中,主成分矩陣經過mMSE抽樣和mVc抽樣后,相較于Uni抽樣,模型參數估計的均方誤差大幅降低,模型估計參數更接近真實值,模型預測正負樣本的能力均有提升,特別是模型預測違約類樣本的能力顯著增強。今后研究將結合兩步子抽樣算法和其他克服多重共線性方法,擴展算法應用范疇。

參考文獻

[1]LIN N, XI R B. Aggregated estimating equation estimation[J]. Statistics and Its Interface, 2011, 4(1): 73-83.

[2]SCHIFANO E D, WU J, WANG C, et al. Online updating of statistical inference in the big data setting[J]. Technometrics, 2016, 58(3): 393-403.

[3]TOULI S P, AIROLDI E M. Asymptotic and finite-sample properties of estimators based on stochastic gradients[J]. Annals of Statistics, 2017, 45(4), 1694-1727.

[4]ROKHLIN V, TYGERT M. A fast randomized algorithm for overdetermined linear least-squares regression[J]. Proceedings of the National Academy of Sciences, 2008, 105(36): 13212-13217.

[5]MAHONEY M W, DRINESA P. CUR matrix decompositions for improved data analysis[J]. Proceedings of the National Academy of Sciences, 2009, 106(3): 697-702.

[6]PRONZATO L. Adaptive optimization and D-optimum experimental design[J]. Annals of Statistics, 2000, 28(6): 1743-1761.

[7]WANG H Y, YANG M, STUFKEN J. Information-based optimal subdata selection for big data linear regression[J]. Journal of the American Statistical Association, 2019, 114(525): 393-405.

[8]FITHIAN W, HASTIE T. Local case-control sampling: Efficient subsampling in imbalanced data sets[J]. Annals of Statistics, 2014, 42(5): 1693-1724.

[9]HAN L, TAN K M, YANG T, et al. Local uncertainty sampling for large-scale multi-class logistic regression[J]. Annals of Statistics, 2020, 48(3): 1770-1788.

[10] IMHOF L A. A-optimum exact designs for quadratic regression[J]. Journal of Mathematical Analysis and Applications, 1998, 228(1): 157-165.

[11] WONG W K. A graphical approach for the construction of constrained D and L-optimal designs using efficiency plots [J]. Journal of Statistical Computation and Simulation, 1995, 53(3-4): 143-152.

[12] WANG H Y, ZHU R, MA P. Optimal subsampling for large sample logistic regression[J]. Journal of the American Statistical Association, 2018, 113(522): 829-844.

[13] YAO Y Q, WANG H Y. Optimal subsampling for softmax regression[J]. Statistical Papers, 2019, 60(2): 585-599.

[14] AI M Y, YU J, ZHANG H M, et al. Optimal subsampling algorithms for big data regressions[J]. Statistica Sinica, 2021, 31(2): 749-772.

[15] WANG H Y, MA Y Y. Optimal subsampling for quantile regression in big data[J]. Biometrika, 2021, 108(1): 99-112.

[16] AI M Y, WANG F, YU J, et al. Optimal subsampling for large-scale quantile regression[J]. Journal of Complexity, 2020, 62: 101512.

[17] YU J, WANG H Y, AI M Y, et al. Optimal distributed subsampling for maximum quasi-likelihood estimators with massive data[J]. Journal of the American Statistical Association, 2020, 117(537): 265-276.

[18] 李莉莉, 靳士檑, 周楷賀. 基于嶺回歸模型大數據最優子抽樣算法研究[J]. 系統科學與數學, 2022, 42(1): 50-63.

[19] 李莉莉, 杜梅慧, 張璇. 基于logistic回歸模型的大數據分布式兩步子抽樣算法[J]. 數理統計與管理, 2022, 41(5): 858-866.

[20] 周楷賀, 李莉莉. 基于單元間距離估計的不等概率抽樣算法及應用[J]. 青島大學學報(自然科學版), 2023, 36(2): 5-10.

[21] 鄒鑫, 李莉莉, 房琳. 基于Logit和KMV的我國上市公司信用風險的比較研究[J]. 青島大學學報(自然科學版), 2014, 27(2): 90-95.

Research on Two-step Subsampling Algorithm Based on Principal Component Analysis and Its Application

WANG Yu, LI Li-li, ZHOU Kai-he

(School of Economics, Qingdao University, Qingdao 266061, China)

Abstract:

For the multicollinearity problem of high-dimensional variables in big data, two two-step subsampling algorithms based on principal component analysis were proposed combined with Logistic model. They are minimum Mean Square Error (mMSE) subsampling based on A-optimality criterion and minimum Variance covariance (mVc) subsampling based on L-optimality criterion. The empirical results show that compared with Uniform subsampling, mMSE subsampling and mVc subsampling can significantly reduce the mean square error of model parameter estimation, and improve the classification evaluation indexes such as the accuracy rate, recall rate, F1 score and specificity of the model.

Keywords:

big data; principal component analysis; two-step subsampling algorithm; credit risk prediction

收稿日期:2023-03-28

基金項目:

國家社科基金(批準號:2019BTJ028)資助;山東省金融應用重點研究項目(批準號:2020-JRZZ-03)資助。

通信作者:

李莉莉,女,博士,教授,主要研究方向為金融統計、統計調查與預測。E-mail: lili_lee2003@126.com

猜你喜歡
查準率樣本量參數估計
基于新型DFrFT的LFM信號參數估計算法
醫學研究中樣本量的選擇
航空裝備測試性試驗樣本量確定方法
基于數據挖掘技術的網絡信息過濾系統設計
大數據環境下的文本信息挖掘方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
基于深度特征分析的雙線性圖像相似度匹配算法
Logistic回歸模型的幾乎無偏兩參數估計
基于向前方程的平穩分布參數估計
基于競爭失效數據的Lindley分布參數估計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合