基于數據挖掘技術的電子商務客戶關系管理

2018-09-28 02:30李雪菁

計算機與數字工程 2018年9期

李雪菁

（1.上海杉達學院信息科學與技術學院上海 201209）（2.上海大學機電工程與自動化學院上海 200072）

1 引言

過對大數據的深入挖掘會給金融領域的業務模式帶來巨大的改變，進而對為企業提供了從其他視角解決問題的可能性。與此同時，也可能使企業新的商業機會和重構新的商業模式。電子商務作為當代主要的商業模式更希望借助先進的信息技術發現潛在的新客戶以及保持并改善與老客戶的關系，從而整體上提高企業的市場競爭力。

所謂數據挖掘在客戶關系管理（Customer Relationship Management CRM）中的應用，實質就是通過提取企業數據倉庫中的業務數據作為建模樣本［2］。利用各種數據挖掘技術對數據進一步建模并分析優化，從而為企業經營決策和市場策劃進行指導［1］?；跀祿诰蚣夹g，本文將針對三方面問題即客戶細分、客戶保持及客戶滿意度，對客戶關系管理問題進行分析研究。

本文對基于聚類和決策樹的客戶細分模型，采用聚類方法對具有相似購買行為的用戶進行聚類，再利用決策樹分析根據各類客戶的屬性的差別將客戶細分為不同的類別，并利用K-means算法對該模型進一步研究，取得了很好的效果。

2 客戶數據特點分析

電子商務經營流程包括企業的T（交貨期），Q（質量），C（成本），S（服務），E（環保）等方面。電子商務是一個有機的整體，其集成了人員、技術、經營管理及企業的物流、資金流、信息流等方面的信息［3］?？蛻絷P系管理（CRM）同生產管理、庫存管理、成本控制等相同，也是電子商務的一個應用系統。從整體看，CRM提供了基于客戶的企業管理的綜合信息?；谄髽I管理，本文總結CRM有如下特點：

1）數據量大面廣

其包括財務管理、員工管理、能源管理、材料儲備管理、訂單管理、生產進度管理和成本管理等。信息的來源是多方位的。具體來說，有自企業內部數據庫的；也有源于原始單據、手工報表等；更有部分信息來源于因特網或合作伙伴的業務數據庫?？梢娖鋽祿渴欠浅４蟮?。

2）數據形式多樣

其數據形式是非常多樣化的。既有傳統的文件及數據庫數據；同時也有因特網/企業內部網數據；甚至有聲音、圖像等多媒體數據。而同一類型的數據也有可能存在完全不同的存儲格式。

3）面向不同的業務

對于不同的業務，其可能提供不同的信息。通常不同的業務對信息需求的側重點不同，因此數據需要與其它管理直接相關的信息，同時也需要其他大量的輔助信息。

4）信息集成

各種系統的信息有機地集成在一起構成整個企業的CRM系統。

CRM在整個生命周期中都以客戶為中心，客戶信息是CRM存在的基石。為了進行有效的客戶分析，這些信息必須在整個企業范圍都是一致的、可靠的，并且具有便于使用的格式。然而，針對上述企業客戶數據的以上特點，如果簡單地將它們復制過來，而不進行清洗、集成和綜合，則對客戶分析和市場營銷是無效的。因此，建立一個企業范圍內全局一致的客戶數據倉庫就非常必要，這是CRM成功的基礎。通過建立客戶數據倉庫，把原來分散在企業內外的關于客戶的數據集成起來面向主題進行組織，向企業及其員工提供了關于客戶的總體的、統一的看法建立基于數據倉庫的客戶關系管理，具有數據挖掘和在線分析等分析功能，高質量地實現了客戶關系管理的目標，充分發揮了客戶關系管理的作用。

3 基于數據挖掘的CRM應用流程

數據挖掘在CRM中的應用，實質上就是通過提取企業數據倉庫中的業務數據、營銷數據以及客戶數據作為建模樣本，再利用數據挖掘技術對數據進行挖掘。進而，對挖掘的結果進行分析和建模并不斷對模型進行優化，從而為企業經營決策和市場策劃進行指導［4］。數據挖掘在客戶關系管理中應用的流程如圖1所示。

數據采集過程收集到數據為源數據。源數據中與CRM有關的數據，包括了服務器日志數據、客戶注冊信息及交易數據信息等。這其中的客戶信息與服務器日志數據相結合分析，就能更好地理解客戶行為。

所謂的數據處理過程，是指對采集到的各種不同類型的數據進行預處理。數據清洗過程目的是消除噪聲的數據，以便對數據進行再組織，進而建立數據倉庫。

數據存儲過程是指，將處理后的數據按照要求以一定的形式保存起來，方便日常對數據的管理。常見的數據存儲方式有包括，關系數據庫和事務數據庫及數據倉庫。

CRM中常用的數據挖掘算法有關聯規則挖掘、序列模式挖掘，聚類和分類分析等。

模式分析的含義是：在模式發現中，獲得的模式進行分析。通過濾掉用戶不感興趣的規則和模式，獲得更多有用的信息。進而可以結合客戶的注冊信息，將這些信息用于對客戶進行忠誠度、滿意度等分析。

圖1 客戶關系數據挖掘過程

4 基于數據挖掘技術的CRM

數據挖掘能夠幫助企業確定客戶的特點，從而為客戶提供針對性的服務。具體來說，通過數據挖掘發現使用某一業務的客戶特征，這樣就可以向其他同樣具有類似特征，但沒有使用該業務的客戶進行有目的推送。甚至可以找到流失客戶的特征，這樣便于采取針對性的措施，以便保持客戶群。本節將從客戶細分、客戶忠誠度保持，客戶滿意度這三個方面研究數據挖掘技術在CRM中的應用。

4.1 客戶細分

所謂的“客戶細分”是指把大量客戶分。保證每一類里的客戶具有類似的屬性，而與其他類里的客戶具有不同屬性［5］?？蛻艏毞謱ζ髽I的經營策略有很大益處。根據聚類和決策樹的客戶細分模型，本文基于K-means算法采用了聚類方法對具有相似購買行為的用戶進行聚類，進而利用決策樹法，根據各類客戶的屬性的差別將客戶細分為不同的類別，提高了算法效率，使分析更準確。

以某國際食品連鎖超市為例，將客戶分為普通客戶和會員兩種?？蛻糍Y料有10281條客戶信息，銷售記錄表中存儲了一年當中所有的銷售記錄。對兩張表進行了查詢、隨機取樣處理后，得到一個數據集（540條記錄），將其用于數據挖掘如表1（部分數據）。

挖掘步驟為

通貨膨脹對錢多的人有害，還是對錢少的人有害？我的答案是對錢少的人有害。因為錢多的人，一般都把錢變成了資產，資產保值，抵御了通脹。而錢少的人，一般是存款或持有現金。

1）將Average-Expend和Time作聚類變量，反映客戶的貢獻度和忠誠度。K-means算法實現過程中采用隨機選擇法選擇聚點。再利用最近歸類法進行初始劃分，采用逐個修改法來更新聚點；

2）根據客戶屬性構建決策樹。屬性選取標準用增益比例代替增益。如式（1）。

表1 挖掘數據集示例樣本

其中，SplitInfo（X，a）為屬性a的熵值。Gain（X，a）為增益。計算表明，不同屬性提供相同的增益時，SplitInfo（X，a）的取值越小越好。這是因為值越小說明為獲取關于屬性a的取值所需付出的代價就越小。若有一個屬性a，根據其不同取值a1，a2，…，an將實例集 X 分成集合 X1，X2…Xn，且有 X1+X2+…+Xn=X，則有：

數據挖掘結果將客戶按照Average-Expend、Time分為4類，如表2。

表2 聚類挖掘結果

將 C1、C2、C3和 C4屬性寫入到挖掘庫中，將年收入、孩子個數等作為輸入列，創建如圖2所示的決策樹。以客戶貢獻度和客戶忠誠度為標準，對客戶進行聚類，根據輔助屬性進行決策樹分類。對客戶群進行如圖2的分析。

圖2 客戶細分決策樹

C1這類客戶對企業價值很小，雖然這類客戶中不乏有高收入人群，但各類促銷活動都未能提高他們的消費額，可能是受收入或其他主客觀因素影響。其貢獻度與忠誠度都較低，屬于劣質客戶群。這類客戶很難向更高級客戶轉變。因此在今后營銷中，不應花太多成本。

C2是值得珍惜，具有潛力的資源，是企業最應該實施影響的客戶群體。應該為這類客戶提供更加個性化服務，提升該類客戶的忠誠度，使該類客戶轉變為黃金客戶。這是因為這類客戶群貢獻度高，忠誠度較低，屬于潛力客戶群。

C3這類客戶多為己婚且孩子較多的高收入家庭。消費次數較多，消費額較固定，且在總消費額中所占比例很大，屬于黃金客戶。企業要穩定該類客戶的消費。比如進一步了解這類客戶的消費需求和消費傾向，重視他們的消費反饋信息。

C4客戶多為收入較高，貢獻度低，但忠誠度較高，屬于理性客戶群。理性客戶一般比較注重商品的質量、承諾和價格?？梢酝ㄟ^促銷手段，提高其對商品各方面的認可，使其轉變為黃金客戶。

對客戶進行細分能夠幫助企業理解客戶行為，更好地進行客戶識別。

4.2 客戶保持

客戶保持包括對客戶流失和客戶忠誠度的分析。當前行業競爭日益激烈，獲得新的客戶的成本是保留老客戶成本的5倍［6］?？梢?，保持客戶，尤其是對優質客戶的保持，對于企業來說非常重要。本節著重研究客戶流失問題，以對客戶保持提供對策，提出挽留方案，避免流失持續發生。結合表1中的交易數據庫，本小節探討神經網絡中的BP算法在客戶流失中的應用。

通過對交易數據庫中歷史交易數據的分析，將判斷客戶流失的條件設置為：半年內沒有記錄的會員客戶；一年內交易額僅為原來的1/3，且最近三個月沒有交易的客戶。神經網絡輸入因子屬性為會員卡類別、年收入、月交易額、月交易率，教育背景和年齡等6個量化因子。提取以上兩類客戶數據作為分析對比樣本。部分原始數據如表3所示。

表3 部分原始數據示例

進行多因子分析常遇到的問題是各類指標類型、量綱等的不同。若要消除這些差異對計算結果的影響，就要對數據做規范化處理［7］。

BP算法是目前應用最廣泛的神經網絡學習算法，其輸入與輸出層的單元數根據所求解問題的任務而定。輸入層有6個輸入因子。輸出層有一個輸出單元。采用布爾型變量表示，1代表流失，0代表未流失。本小節在權值調整算式中加入動量變步長η項對算法進行改進，以提高收斂效率。

變步長算法基本思想為先設一個初步步長η，若一次迭代后誤差增大，則η取較大值；若一次迭代后誤差減小，則η取較小值，即

其中

N為學習樣本容量，E稱為全局平均誤差。權值調整改進算法：在權值調整算式中加入動量項，即

式中，a為動量因子，一般取0.1～0.8。權值修正量加上了有關上一時刻權值修改方向的記憶，使每次誤差的迭代誤差有所下降。這樣做的目的是加速收斂。隱藏層層數越多，誤差反向傳播的計算過程就越復雜，這樣會增加訓練時間。單隱層神經網絡可以逼近任何連續函數。采用一個隱藏層。確定好神經網絡結構之后，在Matlab下，設置最大學習次數為100000，目標誤差為0.001，隨機選取的30000個訓練樣本。經過135001步運算之后，網絡精度達到要求，SEE=0.00999939。

以上初步完成了一個客戶流失預測分析的BP網絡模型的建立，然后利用訓練好的網絡對10000個檢驗樣本進行預測，將模型輸出值與期望輸出值進行對比見表4。1為流失，小于0.5視為非流失。

表4 模型輸出值與期望輸出值

表5表明數據模型輸出值與期望輸出值吻合度較高，該訓練模型已具有良好的學習能力，使用該BP神經網絡訓練模型對客戶數據進行分析，能夠對客戶流失進行比較準確的預測。

表5 模型輸出值與期望輸出值對比

4.3 客戶滿意度分析

對企業十分滿意的客戶再次購買產品為滿意客戶的6倍［8～10］。把有價值客戶長期保持在高滿意度內，可以保證企業持續盈利。而客戶的滿意度是一種主觀感受。其受到產品甚至客戶自身影響，很難具體數據化。當前只能大致的分為十分滿意、比較滿意、滿意、不滿意、非常不滿意［11］。利用數據挖掘技術，將客戶根據以上滿意度標準分類。根據分類結果結合客戶的價值度分析，進而保證高價值客戶的滿意度。

5 結語

本文從客戶細分、客戶保持，客戶滿意度三個方面闡述了數據挖掘技術在客戶關系管理中的應用?；诰垲惡蜎Q策樹的客戶細分模型，利用K-means算法對模型進行分析，進而提高了算法效率，使分析更準確。另外，本文對客戶的忠誠度進行了研究，提出了一種基于探討神經網絡的BP算法在客戶流失中的應用，取得了很好的效果。