?

基于VAE-GWO-LightGBM的信用卡欺詐檢測方法

2023-12-21 06:14李妞妞
關鍵詞:欺詐信用卡分類

趙 峰,李妞妞

(安徽工業大學管理科學與工程學院,安徽 馬鞍山 243032)

0 引言

“互聯網+金融”的發展使人們交易方式變得更為便捷,其中,信用卡交易成為線上和線下最為流行的支付方式之一,信用卡交易數量的增加,使得信用卡欺詐行為也時常發生.根據《中國銀行卡產業發展藍皮書(2022)》,截至2021年底,中國共發行信用卡92.5億張,全年新增發行信用卡2.7億張,同比增長3.0%;全國銀行卡交易金額1 060.6萬億元,同比增長33.8%;銀行卡未償信用余額8.62萬億元,比上年增長8.9%;信用卡逾期半年未償信用總額860.4億元,同比增長2.6%;銀行卡欺詐率為0.32個基點,較上年下降0.43個基點.

信用卡欺詐是一種以獲取經濟利益為目的的犯罪欺騙行為,它會擾亂正常的金融發展秩序,制約金融行業的普惠目標和創新發展.因此,對信用卡欺詐的檢測已經成為金融機構核心能力之一.中國銀行行業協會在《藍皮書(2019)》中提到,要加強欺詐風險防控體系建設,提高銀行卡欺詐防范水平,構建“銀行+持卡人”風險管控體系,提高欺詐監控準確性.可見,對信用卡欺詐的檢測識別已經成為銀行風險控制的關鍵因素.

信用卡欺詐檢測是一個不平衡分類問題,目前,不平衡數據處理方法主要以算法層和數據層為主進行改進.在算法層,有集成學習和成本敏感學習,根據不平衡數據特點對算法進行優化,旨在提高算法處理不平衡分類問題的能力[1].數據級包括上采樣、下采樣和混合采樣.上采樣通過對少數類增加樣本、下采樣是對多數類減少樣本,或通過將兩者結合來平衡樣本[2].

由于數據層面方法對分類算法的通用性以及處理方法的簡單性和直觀性,在解決不平衡問題上得到廣泛應用.但是,在實際應用中,傳統過采樣僅依據少數樣本的信息,容易制造出冗余的數據樣本增加模型的訓練難度;采樣不足會導致大量樣本數據信息丟失,處理不平衡問題的能力有限[3].

變分自編碼器(VAE)作為一種新的生成式模型,自提出以來一直被認為是深度學習中最有價值的方法之一,并在許多方面得到了應用.如文本分類中,文獻[4]提出融合變分自編碼器模型和深度置信網絡模型(VAE-DBN)進行智能文本分類.語音處理領域中,Tan等[5]使用變分自編碼器提取語言特征.文獻[6]將VAE應用于語音語料庫數據增強和語音特征向量提取中進行聲學建模.目前,變分自編碼器關于不平衡數據處理的研究較少.

輕量級梯度提升機(LightGBM)[7-8]是以決策樹為弱分類器的boosting集成學習框架,是梯度提升決策樹(Gradient boosting decision tree,GBDT)的一種高效實現.LightGBM不僅能夠有效提升準確率,并且診斷效率高.文獻[9-10]研究結果表明,LightGBM與XGBoost(極端梯度提升)、CNN(卷積神經網絡)等算法相比,不僅能獲得更高的準確率且診斷效率更好.由于集成學習模型涉及的參數較多,許多研究表明,參數的選擇將直接影響到模型的性能,因此需要將參數優化.灰狼算法(GWO)是一種全局迭代優化算法.由于其收斂性能強、參數少、易于實現,被廣泛應用到作業車間調度、參數尋優和圖像分類等領域.然而,關于其在信用卡欺詐檢測中的應用研究還較少.

綜上所述,為了進一步提高信用卡欺詐識別率,本文提出了基于VAE-GWO-LightGBM的信用卡欺詐診斷模型.基于變分自編碼器(VAE)進行過采樣平衡樣本分布,采用GWO對模型參數進行優化,將獲得的超參數組合輸入輕量級梯級梯度提升機(LightGBM)進行了分類預測.

1 相關工作

1.1 變分自編碼器

深度生成模型VAE是由Kingma[11]等提出的運用變分下界和貝葉斯理論的生成式網絡結構.VAE過采樣過程如圖1所示.VAE包含2個部分:一是編碼過程,對原始真實樣本X進行輸入編碼,生成隱變量Z的變分概率分布;另一個是解碼器將隱向量Z還原成盡可能接近原始數據的生成數據X′,此過程稱為解碼過程[12-13].

圖1 VAE過采樣原理

VAE的損失函數為

cost=KL[N(μ(X),σ2(X)||N(0,1)]-log[Pp(X′/Z)(X)].

(1)

其中:KL為q=(Z/X)與標準正態分布N(0,1)的距離,P=(X′/Z)為生成樣本X′與輸入樣本X的距離下P(X)的對數似然表示.

1.2 LightGBM算法

LightGBM是一種分布式的梯度Boosting框架[14],其原理與GBDT相似.它使用損失函數的負梯度作為當前決策樹的殘差近似來擬合新的決策樹,即每次迭代都保持原始模型不變,然后向模型添加新函數,使預測值不斷接近真實值.

LightGBM的實現如下:

(1) 每一次迭代是為獲得一個弱學習器,使迭代損失函數L(y,Ft(x))最小.

L(y,Ft(x))=L(y,Ft-1(x)+ht(x)).

(2)

式中Ft-1(x)和L(y,Ft-1(x))是上一次迭代獲得的強學習器和損失函數.

(2) 利用(2)式負梯度擬合本次迭代損失近似值,公式為

(3)

(3) 使用平方差近似擬合為

(4)

(4) 本次迭代獲得的強學習器為

Ft(x)=Ft-1(x)+ht(x).

(5)

與標準梯度提升樹算法相比,LightGBM使用直方圖優化分割連續特征值,通過逐葉生長策略生長樹,并限制樹的深度以防止過度擬合,這可以有效提高模型預測的準確性和魯棒性.此外,LightGBM在特征的處理上和并行計算上都做了很多的優化,是當前流行的機器學習模型,相對于神經網絡模型和傳統機器學習模型,具有運行速度快和精度高的優勢,所以本文選擇LightGBM模型作為分類器.

1.3 GWO算法

GWO通過對狼的社會等級和捕獵活動建立數學模型,進而提出一種具有群體智能優化的搜索算法,簡單、快速且易于實現[15].灰狼優化算法中的狼群有α,β,δ,ω4類.其中頭狼α狼是最高領導者;β是α的下屬狼,服從并輔助α做決策;δ聽從α和β的決策命令;最底層是ω,服從α,β,δ狼,并通過α,β,δ狼的位置尋找獵物.

灰狼捕食獵物的行為定義為

D=|C′·Xp(t)-X(t)|,X(t+1)=Xp(t)-A·D.

(6)

其中:D表示狼群個體與獵物間相對距離,t表示當前迭代次數,X(t)是狼當前位置,獵物當前位置為XP(t).

系數向量A和E可表示為

A=2ar1-a,E=2r2.

(7)

群體中其他灰狼個體根據α,β,δ的位置分別更新各自的位置,即有

(8)

其中:X1,X2,X3表示ω向α,β,δ方向的位移量;X(t+1)是灰狼個體ω位置;X′是灰狼當前位置;Xα,Xβ,Xδ分別為灰狼α,β,δ位置.

1.4 不平衡數據分類評價指標

針對不平衡數據分類性能的評價,整體的分類精度并不能較好地評價一個分類模型的優劣,因此本文采用F1、xAUC和yAUPRC這3個指標對不平衡數據的分類性能進行評估.

(1)F1值為綜合評價準確率(P)和召回率(R)的指標,整體衡量不平衡數據檢測模型的性能為

(9)

其中P和R分別表示準確率和召回率.

(2)xAUC值用于衡量分類性能的綜合指標.

(10)

其中:TFP和TFN分別代表欺詐類樣本被誤判為正類數量、正類樣本被誤判為欺詐類樣本數量,N代表正類樣本數量,M表示欺詐類樣本的數目.

(3)yAUPRC:P-R精確回憶曲線下面積,數值范圍是0至1,值越大越好,能夠反映全局的指標,直觀看出分類器性能好壞,yAUPRC值越大,或者PR曲線越接近右上角(p=1,r=1),則模型就越理想.

2 基于VAE-GWO-LightGBM的欺詐檢測

VAE作為當前流行的深度生成模型,該模型過采樣時考慮到少數類樣本不同層次的特征,學習到少數類采樣數據的分布,進而通過生成器模型生成相似但具有更多信息的數據樣本,使數據集達到均衡.在文本分類、自然語言處理、語音識別等領域得到多方面應用,說明其作為數據采樣方法具有很大的優勢.因此本文將VAE應用到信用卡欺詐數據集中,通過VAE過采樣平衡少數類欺詐樣本,降低因數據集不平衡導致樣本檢測準確率低帶來的影響[16-18].

機器學習中的LightGBM算法具有訓練速度快、泛化性好、分類精度高等優點.然而,由于訓練前模型參數數量較多,參數的隨機設置會導致一些參數未達到最佳狀態,這容易導致輸出結果不穩定[17].GWO算法作為智能搜索算法,具備較強的收斂性能,且參數少易于實現,迄今為止,該優化算法被廣泛地應用在各科學研究領域.因此選用GWO對LightGBM參數進行優化,尋找LightGBM最優的參數組合.

針對欺詐檢測數據樣本量大、樣本類別不平衡等特點,結合VAE、LightGBM和GWO的優異性能,充分利用各自的優勢克服各自的不足[19-20],構建了基于VAE-GWO-LightGBM的信用卡欺詐檢測分類方法.總體框架如圖2所示.

圖2 基于VAE-GWO-LightGBM的欺詐檢測框架

檢測流程如下:

(1) 對輸入的原始數據進行異常特征處理,然后對數據進行歸一化預處理.

(2) 訓練正常數據和欺詐數據,欺詐樣本數據量遠小于正常數據樣本,樣本類別嚴重不平衡.因而通過VAE對訓練集中少數欺詐數據進行過采樣平衡樣本.

(3) 樣本平衡后,訓練LightGBM模型,并使用GWO優化LightGBM的超參數.優化過程如圖3所示.

圖3 GWO算法優化LightGBM參數流程

(4) 將優化得到的GWO-LightGBM模型在信用卡欺詐數據集上進行驗證,檢測模型分類結果.

3 實驗過程

3.1 實驗數據與設計

本文使用數據來源于Kaggle平臺2018年最新公開發布的信用卡欺詐檢測專題,數據集有31個特征,類別是0和1,1表示少數類欺詐樣本.為了證明模型的適用性,同時選取UCI和Kaggle平臺的4個其他類型的不平衡數據集進行實驗,數據集特征如表1所示.

表1 數據集信息

實驗前先對不同數據集進行標準化處理,將每組數據集取80%樣本數量作為訓練集,20%作為測試集.根據當前不平衡數據集,首先分別以采樣效果展示和數據對比的形式將VAE方法同其他經典過采樣方法進行比較,驗證將其作為過采樣方法的有效性;再將本文算法VAE-GWO-LightGBM同其他分類方法進行比較,證明該集成分類方法對不平衡數據進行分類表現效果更好.

3.2 VAE方法驗證與分析

圖4給出原始數據集以及采用不同過采樣方法的生成樣本可視化對比圖.其中Original dataset是原始數據集的分布圖,可以看出原始數據集中少數類樣本規模較小且生成的部分樣本會落在多數類區域;從SMOTE采樣方法分布圖可以看出,SMOTE方法從局部鄰域出發并通過線性插值的方法合成新樣本,合成的新樣本與原始樣本差異較小,存在較多的重疊樣本不利于分類器的訓練;從Borderline-SMOTE和SVMSMOTE采樣圖可以看出,兩者采樣效果分布類似,兩者少數類樣本與正常樣本存在部分交叉,邊界附近生成部分噪聲樣本;ADASYN和VAE過采樣可視化圖分布也是類似,兩者所生成的新樣本與真實樣本分布基本一致但又不完全相同,VAE能夠有效減緩經典過采樣方法出現的樣本重疊等問題.總體比較這些采樣效果圖,可以看出本文方法所生成的樣本能較好地模擬原始數據的分布特征,基本都在原始樣本的分布區域中,雖然有小部分噪聲樣本的產生,說明本文采用VAE過采樣方法對少數類樣本進行擴充,可以有效學習到少數類樣本分布特征,生成更符合原始數據特征的少數類新樣本.

圖4 不同過采樣方法生成樣本對比圖

然而,僅憑直觀的可視化展示還不足以證明本文過采樣方法在不平衡數據分類處理方面的有效性和泛化性,本文將進一步對VAE改進前后的合成樣本質量進行評估,并基于上述評價指標在信用卡欺詐數據集和其他數據集進行欺詐分類性能比較.

3.3 在信用卡數據集的實驗結果

實驗設置選用兩組對比實驗進行分析,第一組將本文所采用的過采樣方法與其他經典過采樣方法在信用卡欺詐公開數據集以準確率(A)、F1、xAUC和yAUPRC為評價指標進行比較,實驗中均采用LightGBM輕量級梯度提升機作為分類器,驗證VAE過采樣方法在處理不平衡數據上的有效性;第二組實驗,將本文采用的VAE-GWO-LightGBM集成學習分類方法與其他機器學習方法在信用卡欺詐數據集上做比較,進一步驗證本文所提出的將VAE過采樣方法與改進的LightGBM方法相結合的方式,可進一步提升不平衡數據的分類性能.實驗中設置VAE迭代次數為2 000,將數據樣本編碼映射到高斯分布N(0,1)中.其中,編碼器和解碼器是3個隱層,每層為100個神經元的神經網絡.使用Relu函數作為激活函數、Adam optimizer優化器進行最小損失求解.GWO算法種群規模為2 000,最大迭代次數為500.

表2為信用卡數據集使用VAE、SMOTE、Borderline SMOTE、SVMSMOTE和Adasyn與LightGBM所得出的A、F1、xAUC和yAUPRC等評價指標.表3為信用卡數據集使用RF、MLP、Catboost、KNN所得出的評價指標A、F1、xAUC和yAUPRC.

表2 各種采樣方法的評估指標值

表3 各模型的欺詐檢測指標比較

從表2可以看出各種采樣方法在A這一項都相差不大且表現良好,都達到了99%以上.對比各種采樣方法中可以看出采用原始數據進行檢測效果最差,F1、xAUC、yAUPRC值都低于其他過采樣方法;VAE作為過采樣方法表現最好,對比SMOTEF1提高了6.7%,xAUC提高了7.6%,yAUPRC提高了6.8%;對比BorderlineSMOTEF1值提高了4.7%,xAUC提高了7.1%,yAUPRC提高了4.7%;對比SVMSMOTEF1值提高了6.9%,xAUC提高了9.7%,yAUPRC提高了6.3%;對比ADASYNF1值提高了9.3%,xAUC提高了7.6%,yAUPRC提高了9.6%.

從表3可以看出各種分類算法的A都表現較好,尤其本文方法的準確率最好,達到了0.999 7.對比F1值和yAUPRC值,表現最差的是KNN,本文VAE-GWO-LightGBM方法比KNN模型的F1值提高17.7%,yAUPRC提高17.3%.對比其他分類模型,本文的xAUC值同樣表現最好.

綜上分析,從少數類欺詐檢測評估指標檢測A、F1、xAUC和yAUPRC、整體方面考慮,在處理非平衡的信用卡欺詐檢測數據時,VAE-GWO-LightGBM方法具有較好的整體檢測效果.

3.4 在其他數據集上的實驗結果

為了證明本文方法的適用性,在UCI和Kaggle的4個數據集上進行同樣的實驗.表4和5分別為各算法在這些數據集上所得出的A、F1、xAUC和yAUPRC值.從表4和5可以看出,以F1、A、xAUC和yAUPRC值為評價指標,在Pima、Wine_red、UCI_breast、BankNote_Authentication這4個數據集中,本文提出的算法整體表現性能最好,與其他分類算法對比,A最高提高了14.9%,F1值最高提高了19.0%,xAUC值最高提高了16.0%,yAUPRC最高提高了12.8%.

表4 不同算法在數據集上的A值

表5 不同算法在數據集上的F1值

表6 不同算法在數據集上的xAUC值

表7 不同算法在數據集上的yAUPRC值

4 結論

VAE作為過采樣方法處理不平衡數據時易受到少數類樣本規模的限制,在數據規模偏小的情況下難以有效學習其分布特征,導致生成的樣本質量欠佳.針對上述問題,本文以VAE和集成學習為基礎,同時在數據層面和算法層面對不平衡數據處理方法進行改進,提出了一種基于GWO-VAE-LightGBM的不平衡數據集成分類算法,第一階段首先采用VAE方法快速生成少數類樣本,使少數類樣本達到一定規模,保證VAE能充分學習到少數類樣本的分布特征提高合成樣本的質量;第二階段對原始LightGBM模型進行改進,采用GWO算法優化LightGBM參數,使優化后的LightGBM方法更好地適用于不平衡數據的分類;最后用優化后的LightGBM方法訓練平衡數據集得到集成分類模型,以A、F1、xAUC和yAUPRC作為評價指標,在5組公開數據集上的對比,結果表明,所提方法可以顯著提高不平衡數據的分類精度.后續工作考慮將此模型與其他學習算法融合,構建更為強大的欺詐檢測分類器,進一步提升分類器性能.

猜你喜歡
欺詐信用卡分類
關于假冒網站及欺詐行為的識別
關于假冒網站及欺詐行為的識別
分類算一算
警惕國際貿易欺詐
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
信用卡資深用戶
信用卡詐騙
網購遭欺詐 維權有種法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合