?

基于集成極限學習機的電子商務風險預警研究

2022-07-27 10:29蔣偉杰
關鍵詞:信用風險分類器類別

陳 艷,葉 翀,蔣偉杰

(1.福州大學至誠學院 經濟管理系,福建 福州 350002;2.福州大學經濟與管理學院,福建 福州 350108;3.福州大學計算機與大數據學院,福建 福州 350108)

根據2021年9月商務部電子商務和信息化司發布的《中國電子商務報告2020》顯示,2020年中國電子商務交易總額37.21萬億元(人民幣),同比增長4.5%,電子商務的從業人員達6015.33萬人,同比增長17%[1],在疫情常態化背景下國內電子商務呈快速發展態勢,在拉動經濟、增加就業方面發揮著重要的作用。同時報告也指出,雖然電子商務信用體系建設取得明顯成效,但是新型網絡營銷方式也帶來信用治理難題,涉及商品質量、刷單、信用造假、虛假宣傳、價格欺詐等問題;報告要求電子商務行業及信用服務行業需要立足行業自身,利用專業優勢進一步加強誠信建設,推動信用評價、信用監測以及信用管理等多項信用服務,促進電子商務經濟的規范健康發展。

電子商務中交易主體的信用風險評估是電子商務信用體系中的基本環節之一,有效的信用風險評估可以規避電子商務平臺中的“檸檬問題”,降低可能發生的交易風險和交易主體的損失。信用風險等級與交易主體的各項指標之間往往存在著復雜的非線性關系,依據人工經驗判斷難以發現其中的規律,傳統基于統計決策的方法僅適用于低維數據的情況,在高維數據下的表現不盡如人意。因此依托現有的機器學習、數據挖掘技術從交易主體的各項指標數據中快速有效的評估信用風險等級對降低信用分析成本,加快電子商務信用體系的建設具有重要的現實意義。

一、文獻回顧

國內外已有不少研究利用機器學習技術根據企業數據實現信用評估,按照評估結果為企業信用得分和信用風險等級兩種形式分別構建回歸模型[2-5]和分類模型[6-13];按照模型的學習過程可以分為“端到端”的一站式學習[2,9,11-13]和兩階段式[3-8,10]的學習。一站式的學習方式中模型從原始數據所有維度的特征中直接進行學習;而兩階段式的學習方式中,首先對原始數據進行特征選擇降低數據的維度,其次在降維后的數據中進行學習。在回歸模型的構建過程中,余樂安提出了最小二乘近似支持向量回歸(LS-PSVR)模型,其構建的企業信用風險預警模型按照企業指標給出風險評估分數,根據分數可以進一步劃分風險等級進行預警[2],在此基礎上,有些研究結合粗糙集或大數據分析技術進一步提升了模型的風險預警性能;另外有研究使用了基于主成分分析(PCA)的方法,首先使用PCA提取出主要指標后通過核支持向量機回歸(KSVR)得到風險評估分數,KSVR中的超參數懲罰因子C和徑向基核寬度σ由粒子群優化算法來選擇[4];其后,一些研究在此基礎上進一步使用核主成分分析(KPCA)來提取主要指標,接下來風險評估分數由改進的粒子群算法(PSO)結合神經網絡計算而得[5]。在信用風險預警等級分類模型的學習中,王新輝先是利用PCA等技術從多個調研的企業數據中提取出主要指標,再利用反向傳播神經網絡(BPNN)從這些指標中學習得到能夠對企業信用進行分類的風險預警分類模型[6];其后李兵同樣使用了KPCA進行特征選擇,然后在高斯先驗假設的基礎上應用樸素貝葉斯設計了分類模型,模型能夠根據主要指標輸出風險預警等級[7];還有些研究是以支持向量機(SVM)為基分類器,通過bagging集成方式增強了模型的泛化能力,其中周可瀅在自行調研的企業數據集上獲得了良好的效果[8],陳云等在UCI機器學習數據庫的兩組公共信用數據集上得到了驗證[9];Xu YZ研究了決策樹(DT)分別與邏輯回歸(LR)、動態貝葉斯網絡(DBN)及神經網絡相結合的模型性能,在淘寶賣家信用案例上驗證的結果表明,決策樹-神經網絡的組合達到了最高的準確率[10]。Chang YC提出了一種基于決策樹的信用風險評估模型,通過在訓練模型的過程中將自助聚合和少數抽樣技術相結合,提高了決策樹的穩定性和非平衡數據的性能[11];Zhang X基于粒子群優化遺傳算法(PSO-GA)的神經網絡,研究了跨境電子商務信用風險評估模型,提出了信用風險評估模型構建過程,并驗證上述模型能夠有效滿足跨境電子商務信用風險評估的要求[12];Huang XB則系統地研究了BPNN,徑向基函數(RBF),廣義回歸神經網絡(GRNN)及概率神經網絡(PNN)等不同類型的神經網絡在信用風險預警等級分類上的表現[13],在公開的信用數據集上測試表明,PNN在二分類問題的準確率,ROC曲線下面積(AUROC)等度量上具有最佳的性能和魯棒性。

現有的信用風險評估模型加快和推動了信用風險評估體系的發展,但在實際使用過程中還存在著不足,主要體現在以下兩點。第一點是基于SVM、DT、LR等模型的方法難以直接擬合高維數據,往往需要使用特征選擇手段先對數據進行降維操作。在樣本數量有限的情況下,數據降維的過程無法判斷和選擇出真正有效的特征屬性,因此會造成有效信息量的丟失,影響模型的性能和效果;第二點是近期越來越多的研究使用神經網絡進行模型的回歸和分類,神經網絡在低維和高維數據上都體現出了優越的性能,但是神經網絡的參數量大大超過其它模型,容易出現過擬合的問題。針對以上的問題,本文提出了基于類別平衡校正的集成極限學習機(EELM)企業信用風險預警等級預測模型。該模型通過樣本過采樣進行類別平衡校正,以解決少樣本數據集中的類別不平衡問題;其次模型中的極限學習機(ELM)能夠將高維數據進行隨機投影后再優化求解,可以增加模型的泛化能力,避免過擬合,然后以ELM為基學習器進行投票集成,進一步降低ELM隨機投影過程中造成的預測偏差,為信用風險評估體系提供穩定有效的結果。

根據以上的分析,本文主要的貢獻和創新點如下:

一是研究了ELM模型在信用風險等級預警分類中的應用,并通過集成進一步提升了模型的效果。

二是提出了通過樣本過采樣來解決企業指標數據集上的樣本類別不平衡問題。

三是在實際數據集上進行了驗證,與基于BPNN、SVM的集成學習算法相比較,本文所提出的模型展示出更好的性能和效果。

二、研究方法與模型構建

(一)極限學習機模型

假設要學習的任務為分類任務,訓練數據集(X,Y)={(xi,yi)|i={1,…,N}},其 中xi∈Rd,yi∈ {0,1}k,,即yi為k分類任務的one-hot編碼。ELM為黃廣斌[14]提出的屬于單隱層的前饋神經網絡,結構如圖1所示。

圖1 極限學習機網絡結構

輸入層為d個結點,對應輸入數據x的d維數據;隱藏層共h個結點,h為極限學習的超參,根據具體的應用進行設置,g(·)為激活函數,為極限學習機提供非線性映射的能力;輸出層共k個結點,對應于k分類。模型中的共有三組參數,W[d,h]和B[h]是輸入層到隱藏層的線性映射權重及其偏置;β[h,k]是隱藏層的輸出到最終輸出的線性映射權重。模型中輸入數據X和輸出預測值之間關系如公式1所示。

在極限學習機中,學習的目標函數為min||Y-||,這里的參數W[d,h]和B[h]在隨機初始化便不再改變,要學習的參數僅有β[h,k],即要求解的問題如公式2所示:

這里根據公式2可以得到β的解析表達式:

其中,g(WTX+B)-1可以使用矩陣廣義逆來近似求解。

(二)基于相對多數投票的集成學習模型

ELM將樣本X以非線性的方式隨機投影到不同的特征空間,然后在新的特征空間中進行學習。由于投影的參數W,B在初始化的過程中隨機生成并不再改變,投影的過程在樣本數量有限的情況下不可避免地造成原始信息偏歧,最終得到的模型效果容易受到初始投影參數的影響。集成學習要求基分類器具備“好而不同”的特點,使用ELM作為基分類器,其隨機投影保證了基分類器之間的差異性,而其后的近似解析表達可以為效果提供保障。使用集成學習結合多個ELM基分類器,相當于以不同的方式對原始數據進行投影后再學習,可以通過不同的“角度”充分地利用原始數據信息,有效的降低偏差,獲得更準確和穩定的預測結果。對多個基分類器的結果使用相對多數投票法的結合策略,即預測為得票最多的類別,若同時有類別票數相同,則隨機選取一個。

(三)基于過采樣的類別平衡校正

在現實的電子商務過程中,需要預警的企業遠少于正常的企業數量,這將在數據集中造成類別不平衡問題,會降低模型的性能和預測效果。為了使數據集中的類別達到平衡狀態,一般可以通過少數類樣本的過采樣技術和多數類樣本的欠采樣來緩解類別不平衡的問題。在企業信用風險預警數據樣本量有限的情況,使用對多數類的欠采樣會進一步減少樣本的數量,往往比基于少數類的過采樣造成更嚴重的分類器過擬合問題。因此在本文中采用對少數類的樣本隨機過采樣的方法來使數據集的類別達到平衡狀態。

(四)基于類別平衡校正的EELM模型算法框架

根據上述的步驟,基于類別平衡校正的EELM模型的訓練過程如算法1所示:

算法1基于類別平衡校正的集成極限學習機模型訓練算法輸入:訓練數據集D={X,Y),模型集成的數量M,ELM的激活函數g(·),隱藏結點數h過程:1:i=0 2:repeat 3:對D中的少數類樣本進行隨機過采樣以達到類別平衡4:隨機初始化ELM的分類器Fi權重W和B 5:根據公式3計算出分類器Fi的權重β 6:i=i+1 7:util i==M輸出:M個ELM分類器{F1,F2,…,FM}

基于類別平衡校正的EELM模型算法的推斷過程如算法2所示:

算法2基于類別平衡校正的集成極限學習機模型推斷算法輸入:測試數據X,M個ELM分類器{F1,F2,…,FM}過程:1:i=0 2:foreach Fi 3:根據公式1計算 Y?i=Fi(X)4:根據{ ⌒Y1,⌒Y2,… ,⌒YM}的結果使用相對多數投票法計算得到最終預測結果 Y?輸出:最終預測結果Y?

三、實證分析與檢驗

(一)電子商務企業信用風險預警指標體系及數據來源

電子商務信用風險數據樣本的采集首先要建立其對應的指標體系,本文采用王新輝的指標體系及其調研的18家企業數據[6]。由于電子商務信用風險的復雜性,因此使用指標體系中全部的19個指標,指標及其計算方法如表1所示。

表1 電子商務企業信用風險預警指標體系

王新輝在論文中對18家企業的信用風險等級評定由不同崗位的專家組對企業進行綜合評定打分后,再由不同的分數確定其風險等級[6]。本文根據其論文中提供的分值范圍、綜合得分分布以及信用風險的經驗等級劃分,按照得分情況將風險等級劃分為三類,對應的預警等級和分值范圍為:無風險預警A(70-100)、低風險預警B(40-69)、高風險預警C(0-39)。原始數據中的18家企業信用風險分值和風險預警等級如表2所示。

表2 18家企業信用風險分值及其風險預警等級

根據表2,本文實驗取前13家企業為訓練樣本,后5家為測試樣本。在訓練樣本中,共有5個A類樣本,5個B類樣本,3個C類樣本。在實驗中,本文將對C類樣本進行過采樣以達到和其它類別一致的5個樣本。為了對比其實驗效果,過采樣后的訓練數據集記為校正數據集,未校正的數據集記為原始數據集。

(二)EELM超參選擇

在ELM中最重要的和需要設置的參數為隱層結點的數量,隱層結點的數量決定隨機投影的維度,合適的維度可以有效的緩解ELM在學習過程中過擬合和欠擬合的情況。在實驗中使用ELM最常用的Sigmoid激活函數,在基分類器數量為100個的情況下,隱層結點數量從3個到10個模型的各運行10次的平均準確率如圖4所示。

準確率包括在原始數據集上的訓練準確率和測試準確率,校正后的數據集上的訓練準確率和測試準確率??梢园l現,隨著隱層結點數量的增加,原始訓練準確率和校正訓練準確率都在上升,但是在原始測試準確率和校正測試準確率先上升再下降,這個現象說明當隱層結點數量超過一定數量時造成了模型的過擬合現象。根據圖4所顯示的結果,ELM的隱層結點數量選擇為7個結點。

在EELM中的參數還涉及到基分類器數量選擇。如圖5所示,可以觀測到兩個現象:一是隨著基分類器數量的增加,無論是訓練準確率還是測試準確率校正后的數據集都明顯高于原始數據集,說明校正后的類別平衡有助于提高模型的性能;二是隨著基分類器數量增加,校正測試準確率先呈上升趨勢,隨后在一定水平線上波動,說明在當前基分類器參數下模型性能具有較小的偏差。根據圖5所顯示的結果,將EELM的基分類器數量設置為1000。

(三)對比算法結果及分析

首先驗證集成學習對應單個基分類器的效果,在7個隱層結點,1000個基分類器的情況下,運行模型10次取準確率均值,與所有基分類器的準確率均值比較如圖6所示。

圖6 集成模型與基分類器準確率對比

根據圖6展示的結果,可以發現集成模型的準確率明顯高于基分類器的準確率,在測試數據集上體現得更加顯著。

為了驗證ELM相對于其它分類器的有效性,本文選取在信用風險評估中常用的BPNN、SVM模型作為比較算法,對BPNN和SVM同樣使用相對多數的投票法進行集成。這三個算法基分類器的數量都設置為1000,其它兩個算法具體的參數如下:為方便比較,BPNN使用和ELM相同的單隱層結構,使用10個隱層結點,激活函數采用同ELM一樣的Sigmoid函數,使用基于L-BFGS的梯度下降優化算法,迭代至200次或誤差小于0.001時停止;SVM選擇核支持向量機,核函數選擇為RBF函數,為了進一步增大SVM基分類器之間的差異性,懲罰因子C以及RBF函數的核寬度參數從(0,1)的高斯分布中采樣,迭代至誤差小于0.001時停止。另外為了比較模型的計算效率,還將給出模型在相同環境下的運行時間,運行環境為:windows10操作系統,Intel Xeon E5型號的CPU,32G內存。在不同的基分類器下的準確率和運行時間如表3所示。

表3 不同基分類器性能對比

根據表3所展示的結果,基于ELM的集成模型在測試準確率上明顯優于基于BPNN和SVM的集成模型,同時可以看出基于解析求解的SVM和ELM在計算速度上遠遠超過基于迭代優化的BPNN模型。在校正的數據集上所有模型的訓練準確率都高于原始數據集,說明類別平衡校正有助于模型更容易地尋找分類邊界;在校正的數據集上ELM和BPNN的測試準確率高于原始數據集,說明類別平衡校正能夠進一步提高模型的泛化能力,值得注意的是BPNN的訓練準確率達到了100%,遠超測試準確率,說明基于梯度下降的BPNN容易在少樣本數據集上造成過擬合現象;但是SVM在校正的測試數據集上取出現了性能下滑,造成這個現象的原因過采樣的樣本干擾了SVM支持向量的選擇,導致SVM模型產生了過擬合現象。

四、結論與建議

在電子商務活動中,有效準確的企業信用風險預警等級評估是健全電子商務信用體系的重要環節,能夠積極推動電子商務的進一步發展,本文根據當前電子商務企業數據樣本數量少且類別不平衡的特點,提出了基于過采樣的類別平衡校正集成極限學習(EELM)模型,與現有的研究相比較具有泛化能力強、求解速度快,適用于高維的少樣本數據集。EELM模型在18家電子商務企業數據的全部19個指標上進行了實證分析,EELM能夠有效的預測企業信用風險預警等級,且在性能和效果上優于基于BPNN和SVM的集成模型,較好解決了電子商務企業信用評價數據樣本少且類別不平衡的問題。由于企業信用數據采集存在一定的困難性,本文所提出來的模型有效性還有待在更多的企業信用數據上進行驗證。

針對三類風險等級界定,建議如下:

第一,處于A級無風險預警的企業,信用風險較小,有較好的抗風險能力,可繼續深度合作,加強信用評級信息收集,優化風險調控結構,提升企業信用。

第二,處于B級低風險預警的企業,有一定的信用風險發生的可能性,要加強對企業產生信用風險的潛在因素進行分析,加強溝通和管理,改進工作,督促提高信用,防止信用風險的發生。

第三,處于C級高風險預警的企業,處于預警狀態,有較大信用風險發生的可能性,建議進入風險預案程序,暫停合作,督促加強各項工作,提升信用風險防范意識,避免出現慘重損失。

猜你喜歡
信用風險分類器類別
壯字喃字同形字的三種類別及簡要分析
淺析我國商業銀行信用風險管理
基于實例的強分類器快速集成方法
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
京東商城電子商務信用風險防范策略
服務類別
個人信用風險評分的指標選擇研究
多類別復合資源的空間匹配
信用風險的誘發成因及對策思考
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合