?

基于Logistic的P2P網貸借款人信用風險評估研究

2018-01-13 00:07徐慧婷
關鍵詞:P2P網絡借貸信用風險互聯網金融

Dec.2017Vol.33No.6

DOI:10.13216/j.cnki.upcjess.2017.06.0003

摘要:從P2P平臺信用風險角度出發,以借款人風險控制為研究目標,構建借款人信用評價指標體系,并利用美國P2P網絡借貸平臺Prosper上的數據建立基于 Logistic 回歸的借款人信用風險評價模型。實證分析表明:是否有房產、貸款創立時長、借款利率對借款人信用風險有著比較大的影響,而借款金額、信用評級、借款期限、借款用途對借款人信用風險沒有特別明顯的影響。

關鍵詞:P2P網絡借貸;信用風險;互聯網金融;Logistic模型

中圖分類號:F832.4

文獻標識碼:A

文章編號:16735595(2017)06001605

一、引言

P2P網絡借貸是隨互聯網和民間借貸興起的一種新的金融模式,是最有活力和代表性的金融業務模式之一。 P2P網貸平臺為借貸雙方提供了諸如信息溝通、信用評價、投資咨詢等交易促成服務,成為個人消費、小微企業經營在銀行體系以外的重要融資渠道。近幾年,P2P借貸行業的資產拓展、產品演進、技術更新速度之快,令人應接不暇。在快速成長之中,P2P借貸行業的諸多問題也日益凸顯,層出不窮的倒閉、跑路乃至詐騙事件給行業留下沉重陰影。2014年,中國銀監會向銀行業機構發布了關于某國知名P2P信貸服務中介公司風險提示,稱其存在大量潛在風險,要求銀行業金融機構采取有效措施,做好風險預警監測與防范。在此背景下,對P2P實踐中的借款人風險進行研究,建立P2P網絡信貸風險評估模型具有非常重要的意義。

二、文獻回顧

目前國內外關于P2P 網貸信用風險的研究主要是從“軟信息”和“硬信息”兩個角度來考察。軟信息指的是某些無法訴諸紙面的信息,例如借款人的性格、借款人朋友圈的質量等等。硬信息指的是能夠用準確的指標或數值表示的信息,如債務收入比、有無違約記錄、是否有房產以及借款者每月還款金額等。大多數P2P網貸平臺會為投資人提供借款人詳細的歷史信貸數據以及借款人基本信息等數據,投資人可以根據這些信息來評估借款人的違約風險。在P2P網貸信用評估指標構建上,國內外學者主要從“基本特征、財務信息、歷史貸款信息、社會網絡、產品信息”等來構建借款人的信用指標體系。Gonzalez 等探討了借款人上傳的照片頭像對P2P貸款決策的影響,研究結果表明:借款人的性別、年齡和外貌會影響投資人對借款人信用的評估,中年人對貸款的獲得有積極的影響,而上大學的年齡對貸款的獲得有消極的影響;當借貸雙方性別相同時,具有吸引力的外貌對貸款的獲得有消極的影響,當借貸雙方性別相反時,具有吸引力的外貌對貸款的獲得有積極的影響。[1]Lin等認為網絡社會資本是借款人信用的一個重要信號, 網絡社會資本較豐富的借款人獲得貸款的可能性較大,并且他們所需支付的借款利率較低,違約風險也相對低。[2]Emekter等利用Lending Club平臺的數據進行了研究,認為借款人的信用評級、債務收入比、借款期限等會對借款人的違約風險產生影響。[3]顧慧瑩等利用微貸網的數據進行了研究,認為外地戶籍、已婚和歷史違約記錄與借款違約率正相關,家人知曉借款和借款目的真實性與借款違約率負相關。[4]董梁等利用人人貸上的數據進行了研究,認為年齡、性別、崗位職位、收入、借款用途、工作認證和實地認證指標應作為評價個人信用風險的主要依據。[5]肖曼君等基于EXElVBA數據挖掘技術截取多個P2P網站數據,對平臺信用風險的影響因素進行實證分析,結果表明:個人特征、信用變量、歷史表現、借款信息分別對網絡借貸信用風險存在正向影響,同時發現網站提供的信息對投資者避免信用風險沒有起到實質作用。[6]

在信用評估方法上,隨著經濟學理論、優化理論的不斷發展,人工智能方法在信用評估方面得到了廣泛的應用,國內外學者主要通過構建神經網絡、回歸模型和運用遺傳算法來預測借款人的信用。Angelini 等通過建立兩個神經網絡系統來進行信用風險評估,利用意大利中小企業的數據實證了該系統可以成功地對借款人信用進行評估。[7]Bekhet等構建Logistic 回歸模型和徑向基函數模型對約旦商業銀行信用進行評估,并將這兩種模型進行對比分析,結果表明Logistic 回歸模型的整體準確率高于徑向基函數模型。[8]楊勝剛等以德國某商業銀行的真實客戶信用數據為樣本,將決策樹方法應用于個人信用指標的篩選過程中,與BP神經網絡模型相結合構建成一個兩階段組合模型,研究表明:基于決策樹—神經網絡構建的個人信用評估組合模型對測試樣本的分類預測精度高于單一BP神經網絡模型的分類預測精度。[9]

中國石油大學學報(社會科學版)2017年12月

第33卷第6期徐慧婷:基于Logistic的P2P網貸借款人信用風險評估研究

本研究以美國最大的P2P網絡借貸平臺Prosper為例,將經典的二元Logistic回歸模型用于P2P行業。在建模時,為解決解釋變量值過多問題,用WOE值代替原值進行回歸,建立P2P網貸借款人信用評估模型,以期對中國P2P平臺提供借鑒。

三、實證分析

(一)二元Logistic模型

本研究中因變量為二分類變量,假設用Y表示貸款狀態類型,Y為0-1型變量(Y=1表示違約,Y=0表示非違約);用X*=(X1,X2,…,Xn)表示n個自變量評價指標組成的集合;用P表示違約的概率,即P=Prob(Y=1|X),則1-P為非違約概率。P/(1-P)為概率發生比,構建貸款違約率的二元Logistic模型:

logit(P)=lnP1-P=β0+β1X1+β2X2+…+βnXn=βX*

其中,β=(β1,β2,…,βn),X*=(X1,X2,…,Xn),則貸款違約率為:endprint

P=exp(βX*)1+exp(βX*)

(二)數據來源

本研究的數據來自美國Prosper網貸平臺,該平臺對每一組貸款有詳細的記錄。本研究數據是從原網站Private CSV文件下載得到的,筆者整理了其中30368條貸款數據。本研究隨機抽取了25368條作為訓練數據,包含21226條非違約貸款和4142條違約貸款;另外5000條作為測試樣本,包含4145條非違約貸款和855條違約貸款。

收集到的客戶信息包含貸款創立時長(AgeInMonths)、借款金額(AmountBorrowed)、借款利率 (BorrowerRate)、信用評級(ProsperRating)、債務收入比(Debt ToIncomeRatio)、加入群組(Group)、借款期限(Term)、每月還款金額(MonthlyLoan Payment)、借款用途(Category)、是否有房產(IsBorrowerHomeowner)、貸款狀態(Status)。

(三)數據分類及處理

為了增加模型穩定性以及簡化計算與應用,本研究對備選指標進行分類。信用評級、加入群組、借款用途、借款期限、是否有房產可根據特征值直接分組。貸款創立時長、借款金額、借款利率、債務收入比、每月還款金額是連續變量,數值眾多,會導致一些特征值沒有足夠的樣本對其穩定性進行分析或過多的特征值而導致應用變得復雜,因此應對這些變量進行分組。分組原則如下:第一,分組能夠覆蓋大部分情況且能反映基本的分布信息;第二,將樣本容量較小的特征項進行合并,并將違約客戶與非違約客戶較為接近的特征項進行合并,以保證模型的穩定性和有效性。備選指標分組詳見表1。

為了提高模型的評估能力,本研究對自變量的取值做了適當的處理,用WOE值替代原值計算。Smith等在2002年提出了Weight-of-Evidence (WOE)的概念。[10]用WOE值對分類自變量進行編碼,能夠更直觀地理解自變量對狀態變量的作用效果及方向,同時提升預測效果。本研究將模型狀態變量為1的記為違約用戶,對于狀態變量為0的記為非違約用戶,WOE值反映的是在自變量每個分組下違約用戶對正常用戶占比和總體中違約用戶對正常用戶占比之間的差異,可以認為WOE反映的是自變量取值對狀態變量的影響。在本研究中WOE=Ln(分類中正??蛻粽颊?蛻艨傮w的比值/分類中違約客戶占違約客戶總體的比值)。例如自變量AgeInMonths [0,10)分類中好客戶8599個,總好客戶為21226個,壞客戶266個,總壞客戶4142個,則該分組對應的WOE=Ln[(8599÷21226)/(266÷4142)]=18419。通過計算得出各自變量對應的WOE值,見表2。

(四)回歸模型的建立

用自變量每個分類中的WOE值替代原值,利用SPSS軟件建立二元Logistic模型,得到的分析結果見表3。其中B為偏回歸系數;S.E.為標準誤差;Wals為卡方值,等于(B/S.E.)的平方;df為自由度;Sig.為β值,即顯著性水平;exp(B)為OR值。

得到樣本模型:

Ln[P/(1-P)]=z=-1315-1052×貸款創立時長的WOE值-0155×借款金額的WOE值-1045×借款利率的WOE值-0084×信用評級的WOE值-0573×債務收入比的WOE值-0395×加入群組的WOE值-0186×借款期限的WOE值+0353×每月還款金額的WOE值-0149借款用途的WOE值+2470×是否有房產的WOE值

則違約概率為:

P=exp(z)/[1-exp(z)]

從模型中可以看出,是否有房產、貸款創立時長、借款利率對借款人信用風險有著比較大的影響,而借款金額、信用評級、借款期限、借款用途對借款人信用風險沒有特別明顯的影響。

(五)模型的評估

ROC 曲線(receiver operating characteristic curve)是評估模型預測精度和分類能力常用的一種方法。ROC曲線是以診斷資料的(1-特異度)為橫軸、靈敏度為縱軸所繪制的曲線。曲線下面積(記為AUC)反映診斷實驗價值的大小,取值范圍為05~1。本研究中訓練樣本和測試樣本的ROC 曲線如圖1~2所示。

ROC 曲線分析結果見表4。由表4可知,訓練樣本與測試樣本的AUC 分別為 0. 814 和 0. 754,與 AUC=05 比較有統計學意義(sig.值<005),AUC 均在 07 以上,說明模型擬合效果較好。

(六)分類閾值的確定

本研究用常用的“尤登指數”來確定最佳分類閾值。由ROC分析圖輸出結果“曲線的坐標”,可以求得各坐標點“敏感性+特異性-1”的值,其最大值對應的就是最佳界值,最佳分類閾值為0179。如果預測違約率大于等于0179,則認為分類預測值為 1,即為違約客戶,反之,則認為分類預測值為0,即為非違約客戶。利用擬合的模型分別對訓練樣本和測試樣本進行預測,并將實際結果與預測結果進行比較,結果見表5。

由表5可知,訓練樣本非違約客戶的預測精度為723%,測試樣本違約客戶的預測精度為775%,整體預測精度為731%。測試樣本非違約客戶的預測精度為740%,違約客戶的預測精704%,整體預測精度為734%。預測結果表明模型的預測能力較好,且訓練樣本和測試樣本的預測精度差異不大,說明模型具有較好的穩健性。

四、結論與建議

本研究利用Prosper平臺數據,基于真實的貸款記錄,構建了一套適用于P2P網貸的信用評價指標體系,并利用 Logistic 回歸方法建立借款人風險評價模型,分析結果表明該模型具備較好的預測性和穩健性,能夠在一定程度上識別好壞客戶。Prosper平臺的迅速發展得益于其健全的信用評估體系建設,Prosper對每一組貸款都有詳細的記錄,通過借款人大量數據的積累,建立借款人信用評估體系,并根據數理方法的應用實現貸前審批和貸后風險提示。本研究雖然采用的是國外平臺數據,但模型估計結果是可行且有效的,可以為中國P2P網貸平臺建立信用評估體系提供參考。為了更好地對P2P平臺借款人信用風險進行評估,降低P2P平臺違約風險,結合中國P2P平臺實際情況,本文提出以下建議:endprint

第一,政府應建立專門的監管體系,制定平臺信息安全保障的具體內容,明確網絡借貸中P2P平臺、借款人、投資人三方的權利和義務;同時,應將P2P網貸借款人信用數據與傳統銀行的個人征信系統結合起來,實現統一的信用體系,達到風險監控、促進P2P網貸健康發展的目標。

第二,P2P平臺應詳細記錄借款人的歷史信用數據與交易數據,以及借款人的基本信息,建立全面的借款人數據庫系統,以完善P2P網貸信用指標體系,提高評估模型的預測精度。

第三,隨著經濟學理論、優化理論的不斷發展,在未來的信用評估模型研究中,可選用更合適的評估方法,以進一步提高P2P網貸信用評估模型的預測能力。

參考文獻:

[1] Gonzalez L, Loureiro Y K. When Can a Photo Increase Credit? The Impact of Lender and Borrower Profiles on Online PeertoPeer Loans[J]. Journal of Behavioral & Experimental Finance, 2014,2:4458.

[2] Lin M, Prabhala R, Viswanathan S. Judging Borrowers by the Company They Keep 1: Social Networks and Adverse Selection in Online PeertoPeer Lending[J]. Management Science, 2013,59(1):1735.

[3] Emekter R, Tu Y, Jirasakuldech B. Evaluating Credit Risk and Loan Performance in Online PeertoPeer (P2P) Lending[J]. Applied Economics, 2015,47(1):5470.

[4] 顧慧瑩,姚錚. P2P網絡借貸平臺中借款人違約風險影響因素研究——以WDW為例 [J].上海經濟研究,2015(11):3746.

[5] 董梁,胡明雅.基于Logistic回歸模型的P2P網貸平臺新進借款人信用風險研究[J]. 江蘇科技大學學報(社會科學版),2016(3):102108.

[6] 肖曼君,歐緣媛,李穎. 我國P2P網絡借貸信用風險影響因素研究——基于排序選擇模型的實證分析[J]. 財經理論與實踐,2015(1):26.

[7] Angelini E, Tollo G D, Roli A. A Neural Network Approach for Credit Risk Evaluation[J]. The Quarterly Review of Economics & Finance, 2008,48(4):733755.

[8] Bekhet H A, Eletter S F K. Credit Risk Assessment Model for Jordanian Commercial Banks: Neural Scoring Approach[J]. Review of Development Finance, 2014,4(1):2028.

[9] 楊勝剛,朱琦,成程.個人信用評估組合模型的構建——基于決策樹—神經網絡的研究[J]. 金融論壇,2013(2):5767.

[10] Eric P Smith, llya Lipkovich, Keying Ye. WeightofEvidence (WOE): Quantitative Estimation of Probability of Impairment for Individual and Multiple Lines of Evidence[J]. Human & Ecological Risk Assessment, 2002,8(7):15851596.

責任編輯:張巖林

Research on Credit Risk Assessment of Online Lending Borrower Based on Logistic Regression Model

XU Huiting

(Business Department, Xiamen City University,Xiamen, Fujian 361000, China)

Abstract: From the perspective of the credit risk of the P2P platform and to study the borrowers risk control, this paper proposes a set of borrower credit evaluation index system . Then an evaluation model is built based on logistic regression, using the data of Prosper. The empirical results show that IsBorrowerHomeowner, AgeInMonths and BorrowerRate have greater impacts on the borrowers credit risk, while AmountBorrowed, ProsperRating, Term and Category have no significant effect on the borrowers credit risk.

Key words: online P2P lending; credit risk; internet finance; Logistic Regression modelendprint

猜你喜歡
P2P網絡借貸信用風險互聯網金融
淺析我國商業銀行信用風險管理
基于P2P網絡借貸的信用風險管控研究
我國P2P網絡借貸平臺的風險防范
P2P網貸的風險探析及防控措施
互聯網金融的風險分析與管理
互聯網金融理財產品分析
互聯網金融對傳統金融的影響
京東商城電子商務信用風險防范策略
個人信用風險評分的指標選擇研究
信用風險的誘發成因及對策思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合