?

基于機器學習的直播電商客戶流失風險預測

2023-06-06 16:19李翠萍
互聯網周刊 2023年10期
關鍵詞:預測模型機器學習

摘要:客戶流失是互聯網電商企業面臨的重要問題之一,及時預測和挽留流失客戶對企業提高經濟效益具有重要作用。本文基于決策樹、支持向量機和XGBoost三種機器學習算法,從客戶畫像特征、行為特征、情感特征和價值特征四個方面選取指標構建模型并評價,以對比不同模型在同一個數據集上的預測結果。結果表明,集成算法XGBoost模型表現最佳,客戶情感價值特征對流失客戶預測的貢獻度最大,并由此提出相應的客戶挽留對策。

關鍵詞:機器學習;直播電商;客戶流失;預測模型

引言

隨著互聯網技術的發展,直播電商平臺如雨后春筍般涌現,如淘寶、抖音、快手、小紅書等??蛻艨蛇x擇的直播平臺和直播內容越來越多。流量大小對客戶訂單數量有直接影響,客戶流失在直播電商中屢見不鮮。提高客戶流失預測精度,建立客戶流失預警機制,及時維系和挽留客戶,有助于直播電商企業降低客戶維系成本,提高企業經濟效益。

1. 國內外研究現狀

機器學習方法作為人工智能的核心算法,在客戶流失問題的研究中被廣泛應用。國外學者對于客戶流失(Customer Churn)的研究大多集中在電信領域,研究方法大多采用機器學習方法。Sudharsan等(2022)[1]提出了一種新的框架,發現S-RNN可以用來對客戶按流失和正??蛻暨M行分類,并對流失客戶通過分析網絡利用率實施保留措施。Abdelrahim等(2019)[2]融合采用決策樹、隨機森林、梯度增強機器樹“GBM”和極端梯度增強“XGBOOST”四種算法構建電信客戶流失預測模型,發現應用XGBOOST算法獲得了最佳結果。Adnan等(2019)[3]重點關注跨公司客戶流失預測問題,采用機器學習算法構建CCCP(Cross-Company Churn Prediction)模型,在電信行業公開數據集上驗證,結果表明大多數數據轉換方法顯著提高了CCCP的性能,而Z-Score數據轉換方法不能獲得更好的結果。

國內學者對客戶流失的研究方法大多數采用數據挖掘技術。劉松(2022)[4]分析了銀行客戶流失預測模型的可解釋性,發現深度神經網絡預測準確性更高。薛冰(2022)[5]運用多模型融合的方法預測電信運營商客戶流失,發現融合模型算法有利于提高模型的準確性和可用性。鄭桂钖、徐寬(2022)[6]基于數據的高維時序特征構建直播行業客戶流失預測模型,結果表明在補充了時序特征后的融合特征模型預測效果有顯著提升。黃栩(2019)[7]研究軟件APP的客戶流失問題,實驗結果表明模型的結果預測準確率都在90%以上,具有很好的預測效果。鐘文鑫(2018)[8]研究陌生人社交APP客戶流失預測問題,四種機器學習算法構建對比模型,發現XGBoost模型的表現結果更佳。

綜上所述,客戶流失問題受到了國內外學者的廣泛關注,數據挖掘的機器學習算法是研究此類問題最常用的方法。

2. 數據處理與特征工程

2.1 數據說明

本研究數據集來源于某電子商務平臺電子產品銷售直播的客戶特征數據,共包含5630條數據記錄。因變量為流失標志(Churn),1表示流失客戶,0表示未流失客戶,自變量為平臺使用期限、客戶首選登錄設備、城市級別等17個特征。

2.2 數據預處理

由于原始數據存在缺失、樣本不均衡等問題,為了模型分析的準確性,本研究運用Python3.7工具在anaconda環境下填充缺失值、轉換數據類型、獨熱編碼和smote過采樣。

2.2.1 缺失值處理

經檢測發現,變量Tenure、Warehouse ToHome等6個變量存在200條以上的缺失數據,考慮到樣本體量較小,本文所選部分模型對缺失數據依賴度較高,故采用中位數和眾數來填充缺失值。

2.2.2 數據轉換

通過觀察原始數據可以發現,PreferredLoginDevice、MaritalStatus、Gender、PreferedOrderCat四個變量的值為字符串類型,為了建模和分析方便,本文將字符型變量轉換為數值型變量,轉換規則如表1所示。

轉換后的數據不具有有序性特征,例如性別變量中的0和1,僅表示男性和女性的客戶群劃分,本文選取獨熱編碼(One-Hot Encoding)技術、運用scikit-learn庫中的OneHotEncoder模塊對這類數據進行重新編碼,防止數據間的大小關系參與運算,合理地計算特征之間的距離。獨熱編碼后,數據集由原來的17個變量擴展到28個。

2.2.3 樣本不均衡處理

本研究選取的流失客戶樣本數量為948,非流失客戶樣本數量為4682,比例為1:4.9。一般來說,當流失客戶與非流失客戶數據比例為1:2或1:3時,模型效果較好[9]。侯俞安(2022)在研究個人信用風險評估時采用SMOTE算法訓練不平衡樣本數據集,模型取得了更好的效果[10]。本文采用SMOTE方法,將流失客戶樣本擴展到與非流失客戶大致相當的比例。SMOTE算法根據少數類樣本人工合成新樣本,對少數類樣本每個樣本x,從它的K近鄰中隨機選一個樣本y,然后在x,y連線上隨機選取一點作為新合成的樣本。這種合成新樣本的過采樣方法可以降低過擬合的風險。構建新樣本的公式如下:

2.3 客戶特征模型

客戶畫像是了解客戶的關鍵步驟,平臺可以根據畫像特征實施精準營銷策略,提升客戶滿意度,降低流失的可能性??蛻粜袨樘卣鞣从沉丝蛻舻氖褂昧晳T,通過客戶行為數據可以挖掘內容偏好、發掘客戶興趣點、預警客戶流失??蛻魧ι唐贩盏臐M意度評分和投訴情況直接反映了客戶的情感狀態。張梅英(2022)認為滿意度對忠誠度和購買意愿有正向影響,滿意度較高的客戶流失的可能性較小[11]。RFM模型是客戶價值衡量的理論基礎,該模型由最近一次消費R(Recency)、消費頻率F(Frequency)和消費金額M(Monetary)構成,一般來說,消費時間較遠、消費頻次較低、但消費金額較高的客戶,很可能是已經流失或者即將流失的客戶,應當實施挽留措施。本文篩選的客戶特征及含義如表2所示。

3. 模型選擇與實驗結果

3.1 算法選擇與模型構建

預測客戶流失屬于二分類問題,分類準確性的關鍵在于算法的選取。本文采用Python3.7軟件進行機器學習建模,在anaconda環境下運行。首先使用留出法將數據集劃分為測試集(20%)和訓練集(80%),然后使用sklearn工具包分別建立決策樹、支持向量機和XGBoost算法模型。

3.1.1 決策樹模型構建

決策樹是一種、應用廣泛的機器學習算法,可以用來解決分類和回歸問題。目前主流的決策樹算法有基于信息熵的ID3算法、C4.5算法和基于基尼系數的CART算法。信息熵表示隨機變量不確定性的度量,不確定性越大得到的熵值越大,假定當前樣本集合D中第k個樣本所占的比例為(k=1,2,…,|y|),則D的信息熵定義為

本文運用sklearn工具包中的Decision TreeClassifier分類器,在默認參數下創建模型,模型最佳預測準確率達88%,AUC得分為0.84。但是模型的可解釋性和分類精度之間是一種權衡[12],最佳預測效果下模型的可解釋性不高。為了提高樹模型的可解釋性,可以通過限制最大深度和最大葉子結點的數量簡化模型。

3.1.2 支持向量機模型構建

支持向量機(Support Vector Machine,SVM)是通過尋找超平面對樣本進行分割從而實現分類或預測的算法,分割樣本的原則是使間隔最大化,尋找最大間隔的支持向量。支持向量機的核決定了如何投影到更高維的空間,核函數的參數決定了邊界的形狀,正則化參數C表示單個數據點對模型的影響程度,C越小表示模型越簡單。本文運用sklearn工具包中的SVC模塊創建支持向量機模型,所選擇的核函數為RBF徑向基核,懲罰系數為20,運行多次以后模型的準確率為86.9%,AUC得分為0.88。

3.1.3 XGBoost模型構建

XGBoost(eXtreme Gradient Boosting)又叫極度梯度提升樹,是boosting算法的一種實現方式。其主要目標是降低模型的誤差,因此采用多個基學習器,下一個學習器是學習前面基學習器的結果的差值,通過多個學習器的學習,不斷降低模型值和實際值的差。本文采用XGBoost庫中的XGBClassifier分類器構建模型,為了提升模型的效果,將子決策樹的最大深度限制為10,目標函數參數設為binary:logistic,用于訓練的子樣本占總樣本的比例設為0.8,特征隨機采樣的比例設為0.8,模型預測準確率為90.5%,AUC得分為0.93。

3.2 模型評估指標選擇

本文采用二分類問題的混淆矩陣對模型進行綜合評價。對于二分類問題,可以將樣本根據真實情況和學習器的預測結果分為真正例(TP)、真反例(TN)、假正例(FP)、假反例(FN),分類結果的混淆矩陣如表3所示。

查準率P(precision)與查全率R(recall)的定義分別為

F1評分法可以更便捷地綜合評價查準率和查全率,F1的計算公式為

ROC曲線體現了綜合考慮學習器在不同任務下“期望泛化性能”的好壞,ROC曲線與橫坐標軸圍成的面積(AUC)也可以衡量學習器的性能。從查準率、查全率和F1得分情況來看,三種模型對非流失客戶預測的效果比較好,均達90%以上,對流失客戶的預測效果略差,但也接近70%,平均得分在80%,具體數據如表4所示。

如圖1所示,從三個模型的ROC曲線可以直觀看出,XGBoost模型的擬合效果優于支持向量機和決策樹;決策樹和支持向量機模型的ROC曲線有交叉,通過計算AUC值(決策樹AUC得分:0.84,支持向量機AUC得分:0.88)可知,支持向量機模型的擬合效果優于決策樹;從預測準確性來看,XGBoost模型預測準確性最高,其次是決策樹模型,最后是支持向量機。

從上述分析可知,XGBoost模型的擬合效果和準確性得分最高,利用此模型自帶的feature_importances_可以計算出各個變量對模型的貢獻度。根據特征重要性計算結果,客戶滿意度評分特征對流失的影響最大,其次為客戶年齡分組、城市等級和投訴情況,可見客戶情感特征對流失預測貢獻度最大,其次客戶畫像特征。各特征的具體貢獻度如圖2所示。

3.3 減少客戶流失策略

根據上述分析,可以從影響客戶流失的重要因素出發,針對具體原因采取相應的運營措施:

(1)提升客服響應速度與產品質量水平,減少客戶投訴。一般來說,滿意度評分低和有投訴的客戶體驗越差,越容易流失,所以直播電商企業在運營過程中應當保證客戶質量,提升客服水平。

(2)細化客戶畫像,實行精準營銷。不同畫像特征的客戶有不同的偏好,直播電商企業在營銷時可以根據客戶特征推薦客戶感興趣的內容。

結論

通過以上研究可得出兩個重要結論:(1)集成算法模型的預測精度比單一算法更高,XGBoost模型在直播電商客戶流失預測模型中表現最佳,預測準確率達到90.5%;(2)客戶情感特征對流失預測模型影響最大,其次是客戶畫像特征。在今后的研究中,可在大規模數據集上對模型進行優化和完善,保留小規模數據集良好的訓練效果的同時,通過算法融合、邏輯模糊等其他的人工智能算法,構建大規模數據集的預測模型。

參考文獻:

[1]Sudharsan R,Ganesh EN.A Swish RNN based customer churn prediction for the telecom industry with a novel feature selection strategy[J].Connection Science,2022,34(1):1855-1876.

[2]Ahmad AK,Jafar A,Aljoumaa K.Customer churn prediction in telecom using machine learning in big data platform[J].Journal of Big Data, 2019,6(1).

[3]Amin A,Shah B,Khattak AM,et al.Cross-company customer churn prediction in telecommunication: A comparison of data transformation methods[J].International Journal of Information Management,2019,(46):304-319.

[4]劉松.基于深度學習的銀行客戶流失預測問題研究[D].貴陽:貴州大學,2022.

[5]薛冰.基于多模型融合的電信運營商客戶流失預測研究[D].大連:東北財經大學,2022.

[6]鄭桂钖,徐寬.基于高維時序特征補充的直播行業用戶流失預測模型[J].科技與創新,2022,(23):56-61.

[7]黃栩.基于機器學習算法建立用戶流失預警模型[J].電子制作,2019,(16):49-51.

[8]鐘文鑫.基于數據挖掘的陌生人社交APP用戶流失預測模型研究[D].北京:首都經濟貿易大學, 2018.

[9]邢紹艷,朱學芳.付費知識直播用戶流失預測實證研究[J].信息資源管理學報,2022,12(4):121-130,140.

[10]侯俞安.基于SMOTE—貝葉斯網絡的商業銀行風險評估模型研究[D].上海:東華大學,2022.

[11]張梅英.遷移理論視角下零售電商平臺消費者重復購買意愿的影響機制研究[J].商業經濟研究,2022,(4):85-88.

[12]Baryannis G,Dani S,Antoniou G.Predicting supply chain risks using machine learning:The trade-off between performance and interpretability[J].Future Generation Computer Systems,2019,101(C):993-1004.

作者簡介:李翠萍,碩士研究生,研究方向:數字經濟。

猜你喜歡
預測模型機器學習
基于矩陣理論下的高校教師人員流動趨勢預測
基于支持向量回歸的臺灣旅游短期客流量預測模型研究
基于詞典與機器學習的中文微博情感分析
基于神經網絡的北京市房價預測研究
中國石化J分公司油氣開發投資分析與預測模型研究
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
基于IOWHA法的物流需求組合改善與預測模型構建
機器學習理論在高中自主學習中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合