?

關于金融機構個人貸款的需求預測

2020-09-10 10:37陳方圓
商業2.0-市場與監管 2020年2期
關鍵詞:信用貸款線性回歸互聯網金融

摘要:金融機構小額信用貸款產品是個人金融業務的一種,以其方便、快捷的特性深受用戶喜愛。該產品通過預審批機制為用戶提供特定額度的貸款服務,金融機構除了要評估用戶的風險之外,還需要預測用戶的借款需求,以此來準備合適的額度,降低資金占用成本,同時提升用戶使用體驗。本文借助于大數據的專業技術手段,通過引入一些數據挖掘算法,嘗試對用戶的信貸需求進行準確的預測,旨在用互聯網金融的思路為上述問題提供理性地判斷和一種科學解決方案。

關鍵詞:個人貸款;信用貸款;互聯網金融;大數據;線性回歸;GBDT

1.研究背景

近年來,針對個人用戶的小額信用貸款已成為一項成熟的業務,目前發展勢頭良好。此類業務多通過手機客戶端來進行操作,一些金融機構,如銀行、互聯網金融機構利用個人用戶預留的基本信息和一些歷史信息等來對用戶的個人征信及貸款額度進行評估,自動生成貸款方案,多數情況下不需要人為介入。此項業務由于辦理快捷、流程簡單,深受廣大用戶特別是年輕用戶的青睞。其業務規模不斷擴大,同時競爭亦日益加深。

“某借”是某金融機構旗下的一款小額信用貸款產品,該產品使用起來簡單、快捷,申請人只需要經過少量的操作即可進行在線貸款申請。在開展這類信貸業務的時候,除了要評估用戶的信貸風險之外,還需要預測用戶的借款需求。只有盡可能的給有借款需求的用戶分配合適的額度,才能最大限度的增加資金利用率,降低成本并增加收益。精準的對目標客戶進行匹配,預測用戶的信貸需求是此類產品運營的核心問題之一。

本文將通過對“某借”中用戶的基本信息和歷史操作等信息進行整合,運用線性回歸、決策樹、提升算法等數據挖掘方法,建立有效的模型,對未來一個月內該平臺用戶的借款總金額進行預測,并將預測結果同真實值進行比較,確定模型的效果。

2.數據描述及特征建立

本文的目的是基于可獲取的客戶信息,如基本信息、歷史信息等,來對未來短時間內不確定的需求進行預測。本文的數據從某金融平臺獲取,包含用戶的基本信息和部分其他信息。本文的目的是預測下個月每個用戶的借款總額,由于目標是數量型特征,使用均方誤差(MSE)作為模型效果的評估標準。通過對數據的整理,構建了如表1所示的特征。其中用戶ID和次月借款合計不參與模型構建,用戶ID僅用于標識客戶,次月借款合計用于評估模型效果。

3.利用線性回歸構建模型

在本文中,因變量為次月借款合計,由于因變量為數量型特征,可以考慮從較為簡單的回歸模型入手。線性回歸模型是一種基礎的統計模型,模型要求數據必須滿足基本假設,即因變量符合正態性、等方差性及獨立性。另外線性回歸模型受異常值和多重共線性影響較大,建模之前需要先去掉異常值點及多重共線性變量。

經檢查,數據基本符合正態分布鐘形曲線的形狀,可使嘗試使用線性回歸模型進行分析。直接將特征數據帶入逐步線性回歸模型。第一次回歸后,去掉性別特征后AIC下降最多,因此去掉該特征繼續計算回歸系數。同理依次去掉歷史借款中值、年齡段2項特征,待AIC不再下降時,得到最終的回歸方程。

在結果中,回歸系數基本都通過了檢驗,總體p值接近于0,模型效果尚可。其中初始額度、歷史借款合計、歷史消費合計和頁面點擊次數對因變量是正相關的,其余特征都為負相關。對此的理解是直觀的,用戶的額度越高、歷史借款量越大、歷史消費越多、相關頁面瀏覽次數越多,可能發生的借款金額就會越大。

接下來對線性回歸模型的基本假設做一些分析,如圖1所示。數據中的異常點幾乎緊靠數據的主體部分,因此可以認為這些只是數據中的一些極端數值,并未達到異常的水平??梢钥闯瞿P偷臍埐钣幸粋€明顯的旋轉,若無旋轉,殘差是基本滿足正態性、同方差性和獨立性的。這主要是因為數據中借款合計為0的用戶比較多,約占總數據量的2/3,在建模時這部分數據對回歸直線有很明顯的下拉作用,導致回歸直線發生旋轉,進而造成殘差旋轉。并且模型對這部分用戶的預測值基本上都大于0,因此殘差都為負數,這就造成了其余殘差基本都大于0,形成了圖2中左邊兩幅圖細線條和粗線段帶分離的情況。

通過計算,得到線性回歸模型的MSE=3.343997。處理類似本文中帶偏折的數據時,采用分位數回歸一般可改善效果,但經過建模得到分位數回歸模型的MSE=3.694761,效果不如線性回歸模型。這可能是因為借款總額為0的用戶占更大部分,在分位數回歸扭正殘差的同時,擴大了這部分用戶預測的殘差。面對如此復雜的數據,線性回歸模型肯定達不到最好的效果,繼續嘗試改進模型。

4.利用GBDT建立模型

GBDT模型是此類問題的一個優良的解決方案。GBDT模型有迭代次數和優化步長兩個比較重要的參數。迭代次數表示模型繼續計算的最大次數M,優化步長表示模型每次擬合時對殘差擬合的細度。一般情況下先設定一個比較大的迭代次數和比較小的優化步長,通過觀察殘差的變化來選擇最合適的參數數值。

無論優化步長取何值,殘差都是隨著迭代次數的增加先下降后上升的,存在最低點。隨著優化步長的減少,殘差達到最低點需要的迭代次數越來越多,并且殘差能達到的最小值也在逐漸下降。隨著模型的迭代次數繼續增加及優化步長繼續減少,殘差的最小值會不斷下降,但下降的幅度越來越少,并且計算代價呈平方關系上升。實踐中會選取殘差、迭代次數和優化步長都在可接受范圍內的數值建立模型,使得模型可在有限時間內計算出結果,殘差也較為接近理論最小值。

設定迭代次數為3000,優化步長為0.01建立GBDT模型。當迭代次數達到2095次時,模型殘差達到最小。由于優化步長已設置為較小的數,且計算時間可以接受,本文就使用2095的迭代次數和0.01的優化步長建立模型。生成模型后,帶入特征數據計算所有用戶次月借款合計預測值,與實際值進行比較,計算MSE=3.20099,效果較回歸模型有所提高。

5.總結

本文從小額信用貸款這樣一個具體的、實際的業務出發,對產品運營中客戶需求這個核心問題進行研究,目的在于利用已有的基本信息和歷史信息,對用戶將來潛在的需求進行預測。本文根據數據的特征,首先采用了較為簡單的線性回歸模型,并通過GBDT模型進行優化,使得預測效果得到提高,取得了良好的效果。

隨著金融市場化的不斷推進,依托大數據和互聯網金融的發展,傳統的人工作業模式越來越被市場所淘汰,取而代之的是更精準、更高效的客戶營銷機制。本文通過對一系列數據挖掘算法的引入,既考慮到大數據的應用,通過智能算法精準定制產品,提升用戶的使用體驗,同時也展現了理論模型在實際數據中的表現。更重要的是,本文為金融機構關心的增加資金利用率、降低成本并增加收益等問題,提供了一個解決問題的思路。

參考文獻:

[1]L.I.Breiman,J.H.Friedman,R.A.Olshen,and C.J. Stone. Classification and Regression Trees (CART). Encyclopedia of Ecology,40(3):582-588, 1984.

[2]Mayo Foundation Terry M.Therneau, Elizabeth J. Atkinson.An Introduction to Recursive Partitioning Using the RPART Routines. CRAN, 2018.

[3]Jerome H.Friedman. Greedy Function Approximation: A Gra- dient Boosting Machine. Annals of Statistics, 29(5):1189-1232,2001.

[4]Greg Ridgeway.Generalized Boosted Models:A guide to the gbm package.CRAN,2018.

[5]Tianqi Chen and Carlos Guestrin.XGBoost: A Scalable Tree Boosting System. pages 785-794,2016.

[6]Guolin Ke,Qi Meng,Thomas Finely, Taifeng Wang, Wei Chen, Weidong Ma,Qiwei Ye,and Tie-Yan Liu.LightGBM:A Highly Efficient Gradient Boosting Decision Tree.2017.

[7]張瀟,韋增欣,楊天山.GBDT組合模型在股票預測中的應用. 海南師范大學學報,(1),2018.

[8]馬曉君,沙靖嵐,牛雪琪.基于LightGBM 算法的 P2P 項目信用評級模型的設計及應用.數量經濟技術經濟研究,(5), 2018.

作者簡介:陳方圓(1989.6-),女,研究生,研究方向:金融學。

猜你喜歡
信用貸款線性回歸互聯網金融
互聯網消費金融的風險管理研究
中小企業信用貸款困難問題分析
商業銀行中小額信用貸款全流程外包研究
國道公路養護管理與規劃研究
互聯網金融的風險分析與管理
互聯網金融理財產品分析
互聯網金融對傳統金融的影響
企業退休金收支平衡的研究
企業退休金收支平衡的模型分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合