?

數據挖掘在鐵路會員價值 分析中的應用研究

2021-07-22 13:39巍,劉
鐵道運輸與經濟 2021年7期
關鍵詞:乘車聚類會員

黃 巍,劉 峰

(1.中國鐵路北京局集團有限公司 北京鐵路客戶服務中心,北京 100860;2.中國國家鐵路集團有限 公司 客運部,北京 100844)

0 引言

2017年12月20日鐵路部門正式推出“中國鐵路暢行常旅客計劃”,強麗霞[1]認為鐵路部門出臺“中國鐵路暢行常旅客計劃”意味著鐵路正式邁入以忠誠計劃為平臺的客戶關系管理新領域。丁楊軍等[2]認為客戶關系管理是保持企業健康可持續發展的關鍵,通過搭建數據分析模型對客戶消費行為進行分類,制定精準營銷策略,進而實現企業利潤最大化。丁曉銀等[3]認為在大數據技術蓬勃發展的今天,機器學習、人工智能、數據挖掘、語義分析等技術已經廣泛應用于客戶價值分析領域中。張浩然[4]認為企業利用大數據技術對已有客戶信息數據進行分析,應用多種數據分析算法挖掘客戶對企業的價值,運用數據分析結果改善企業營銷方式、降本增效、提高利潤是企業發展的重中之重。

國內外大量技術和理論文獻廣泛論述了使用數據挖掘技術分析客戶消費行為數據,幫助企業依據客戶分類價值制定相應的營銷策略。劉朝華[5]認為數據挖掘技術可以應用到以客戶為中心的企業決策、分類分析和客戶管理的各個不同領域和階段,如客戶群體分類分析、交叉銷售、客戶盈利能力預測分析和客戶滿意度分析等方面。徐曉敏等[6]綜合應用RFM模型和K-means聚類算法對客戶交易數據進行挖掘,結合客戶全生命周期各階段特點,給出不同客戶在不同階段價值提升的相應策略。羅亮生等[7]通過改進RFM模型分析航空運輸企業會員價值。劉婷婷等[8]使用LRFMC指標模型和K-means聚類算法挖掘航空公司會員出行數據,為航空公司針對不同客戶采取個性化的營銷方案提供科學依據。

在參考上述文獻的基礎上,從數據挖掘的角度出發,結合“中國鐵路暢行常旅客計劃”會員出行數據特點,通過改進傳統RFM模型,構建RFMICT會員價值評價模型,運用K-means聚類算法,聚類出具有類似特征的客戶類型,針對各類型客戶的典型特征進行會員價值判斷,對生成的會員價值分析結果進行可視化應用分析,為鐵路運輸企業提出分類會員個性化營銷建議。

1 相關理論和分析方法

1.1 RFM模型理論及RFMICT模型構建

RFM模型首先于1994 年由 Hughes 提出[9]。RFM模型由最近消費時間間隔(Recency,R)、消費頻率(Frequency,F)及消費金額(Monetary,M) 3個指標組成。最近消費時間間隔(R)表示客戶距觀測日最近一次消費時間間隔,消費頻率(F)表示在觀測期間內客戶消費總次數,消費金額(M)表示在觀測期內客戶消費總金額。在3個指標變量基礎上再細分2類,便在R,F,M維度上產生了8類客戶,客戶價值模型如圖1所示。

圖1 客戶價值模型Fig.1 Customer value model

單純的RFM模型并不適用于鐵路會員價值分析。例如,2個會員在觀測期間內消費同樣的金額,其中一個只購買二等座、出行距離遠;另一個只購買商務座,出行距離近。二者的購買力水平和服務需求存在明顯差異,對于鐵路運輸企業來說,二者會員價值和提供服務的成本也相差較大。因此,需要在RFM模型基礎上增加平均乘車間隔(I)、客戶關系長度(C)和客單價(T) 3個指標來彌補RFM模型缺陷,構建RFMICT模型評價指標,綜合評價會員價值。

RFMICT模型指標包括以下參數:消費間隔(R)表示會員最后一次乘車的日期距離觀測截止日期的天數,d;消費頻率(F)表示會員初次乘車日期至觀測日期間的總乘車次數,次;消費金額(M)表示會員初次乘車日期至觀測日期間的總票價,元;平均乘車間隔(I)表示會員在觀測期間內每次乘車間隔的平均值,d;客戶關系長度(C)表示會員入會時間長短,d;客單價(T)表示會員在觀測期內每次購票均價,元。通過上述6個指標便可以綜合性地評價鐵路會員消費行為價值。例如,會員總消費金額多、消費頻率低、平均乘車間隔長、客單價高,說明會員出行基本選擇高等級席別,會員更在意鐵路運輸企業提供的服務品質;會員總消費金額多、消費頻率多、平均乘車間隔短、客單價低,說明會員基本選擇鐵路出行,對鐵路運輸企業忠誠度高,會員更在意積分累積和兌換等活動政策。由此可見,上述6個指標可以綜合評價鐵路會員價值,精細劃分客戶價值。

1.2 K-Means聚類算法理論

在確定了屬性指標以后,就需要根據屬性劃分類別,研究采取大數據聚類分析中應用最為廣泛的一種聚類算法——K-means聚類算法。K-means聚類計算過程是:在所有數據中隨機選取K(K≥2)個點作為初始聚類中心,計算所有數據與K個聚類中心的歐式距離,將距離聚類中心較近的點聚為一類,得到K個簇[10];再次計算K個簇的聚類中心,比較新舊聚類中心是否相同,不斷重復這一過程,直到前后2次聚類中心相同時停止。

1.3 手肘法和輪廓系數法

確定K值的大小是K-means聚類算法是否準確的關鍵,研究采用手肘法確定最佳K值。手肘法是通過觀察誤差平方和大小來選擇K-means聚類K值的一種算法,其算法計算原理為:隨著聚類數K值的增大,聚類劃分會更加精細,隨著每個簇的聚合程度逐漸提高,其誤差平方和(SSE)會逐漸減??;當K值小于真實聚類數時,SSE對應的曲線斜率下降幅度會很大,而當K值與真實聚類數相等時,SSE對應的曲線斜率下降幅度會驟緩,K與SSE會形成一個類似于手肘形狀的折線圖,而“肘部”對應的K值則為當前聚類數據集的真實聚類數。但該方法也存在一個問題,即在應用于某個具體的數據集時,會出現不明顯的“肘點”,此時K值的確定就會出現較大的偏差,進而影響最終的聚類結果[11]。

為了解決手肘法存在的問題,研究采用輪廓系數法進行輔助判斷。輪廓系數法是通過計算分離度與內聚度來評價聚類效果好壞的一種算法,其計算方法原理為:分別計算聚類簇中每個向量的輪廓系數,系數的取值范圍為[-1,1],取值越接近于1說明聚類效果越好;將簇內所有輪廓系數求平均得到每個聚類的輪廓系數,最終通過選擇輪廓系數最大值來確定最佳K值。鑒于上述2種算法的特點,研究采取手肘法和輪廓系數相結合的方法確定最佳K值。

1.4 數據抽樣和數據標準化

1.4.1 數據抽樣理論

在數據分析模型和聚類算法確定以后,采用統計學概率抽樣的簡單隨機抽樣方法,樣本數量依據社會科學領域普遍采用的樣本容量范圍[12]。即當調查范圍為地區性調查時,選取樣本量為500 ~ 1 000個;調查范圍為全國性調查時,選取樣本量為1 500 ~ 3 000個;被調查總體規模1萬至10萬人時,抽樣比例為1.5% ~ 3%;被調查總體規模10萬人以上時,抽樣比例為1%以下。根據上述樣本量抽取標準,確定抽取樣本數量為5 000個。隨機抽取5 000名鐵路會員自2018年1月1日—2019年11月31日的所有乘車記錄,共102 013條數據,包括會員ID、會員等級、會員激活日期、性別、出生年份、乘車日期、票價共7個特征屬性,上述抽樣數據中不存在空值和異常值等情況。

1.4.2 數據標準化理論

從上述抽取數據的7個特征屬性上看,各屬性在量綱和取值范圍上存在較大差異,如果直接運用數據進行建模運算的話,會造成類似于票價這種數值較大的特征屬性占據較大的權重,為了消除權重因素影響數據分析的最終結果,需對樣本數據進行數據標準化。數據標準化常見的方法有最小最大標準化、零均值標準化和小數定標標準化等。研究按照RFMICT模型,提取對應特征屬性并進行數據探索后,決定采用零均值標準化,也稱標準差標準化,對6個評價指標數據采取標準差標準化處理,以提高K-means聚類算法結果的準確性。

2 聚類判斷及可視化分析

2.1 聚類判斷

按照K-means聚類算法、手肘法和輪廓系數法編寫程序對鐵路會員數據進行聚類分析,數據分析程序自動生成K值分析圖如圖2所示。由圖2可見,當K值為4時出現明顯拐點(肘部),當K值為6時輪廓系數值最大,綜合判斷當K值為6時分類效果為最佳,得到各類別聚類中心和數目結果如表1所示。

圖2 K值分析圖Fig.2 K value analysis

2.2 可視化分析

根據表1繪制客戶出行特征分析雷達圖如圖3所示。

表1 各類別聚類中心和數目結果Tab.1 Clustering centers and numbers by category

圖3 客戶出行特征分析雷達圖Fig.3 Radar chart of customer travel characteristics

由圖3可知:①類別0,即雷達圖中第2簇人群(黃色曲線),該類會員入會時間較長,觀測期內總消費金額和總消費頻率略高,消費間隔和平均乘車間隔居中,但客單價較低,對鐵路運輸企業忠誠度一般,屬于游離客戶群體,會員價值分類屬于挽留型客戶;②類別1,即雷達圖中第6簇人群(褐色曲線),該類會員入會時間最長,消費間隔最短,總消費頻率最高,總消費金額最多,雖然客單價不是最高,但是對鐵路運輸企業貢獻最大,屬于最忠誠的客戶群體,會員價值分類屬于高價值客戶;③類別2,即雷達圖中第4簇人群(紅色曲線),該類會員入會時間較長,消費間隔最長,總消費頻率和總消費金額都很低,屬于很久沒有選擇鐵路出行,接近流失狀態的客戶群體,會員價值分類屬于接近流失型客戶;④類別3,即雷達圖中第1簇人群(藍色曲線),該類會員因入會時間最短,因此所有屬性均為最低,屬于以新會員為主的新客戶群體,會員價值屬于培養型客戶;⑤類別4,即雷達圖中第3簇人群(綠色曲線),該類會員平均乘車間隔最長,其他屬性均處于較低位置,屬于偶爾選擇鐵路出行的客戶群體,會員價值屬于一般價值客戶;⑥類別5,即雷達圖中第5簇人群(紫色曲線),該類會員入會時間不長,總消費頻率和總消費金額略低,但客單價最高,屬于存在潛在價值的客戶群體,會員價值屬于發展型客戶。

3 模型應用及策略建議

通過K-means聚類算法將會員分為6類,根據各類別會員人數占比繪制客戶價值分布表如表2所示。將各類別會員劃分為高價值客戶、發展型客戶、培養型客戶、挽留型客戶、一般價值客戶與接近流失型客戶,并根據各客戶類型特點提出針對性建議。

表2 客戶價值分布表Tab.2 Customer value distribution

(1)高價值客戶。最忠誠的客戶群體,占比最少,僅為0.4%,建議鐵路運輸企業在現有服務基礎上推出個性化服務,如專屬客戶經理、行程規劃設計、優先消費和乘車體驗,滿足客戶的差異化、個性化需求,為企業創造更多經濟價值。

(2)發展型客戶。潛在價值最大的客戶群體,占比6.3%,建議鐵路運輸企業推出僅限此類客戶群體的營銷活動,如積分可兌換部分熱門車次、積分兌換優惠折扣、指定期間內乘車多倍積分累積等,通過精準營銷,鼓勵該類客戶群體多消費多積分,促使其向高價值客戶轉變。

(3)培養型客戶。以新會員為主的客戶群體,占比36.4%,建議鐵路運輸企業推出培養此類客戶群體忠誠度的營銷活動,如有償發放站車計次服務卡,按照站車服務的內容、次數和有效期不同設定服務卡金額,會員消費金額按照一定比例轉化為活動積分存入會員賬戶,積分可用于兌換車票或參與其他會員活動,增加其對“鐵路暢行”品牌的忠誠度。

(4)挽留型客戶。游離狀態的客戶群體,占比22.3%,建議鐵路運輸企業加強與此類會員的溝通與維系,如通過手機APP對此類會員推送其主要出行線路的購票優惠活動、指定期間內乘車多倍積分累積活動、邀請參加預約接送站、優先進出站等一次性體驗服務,建立企業與會員雙向互動交流的機制,促使此類會員群體向發展型會員轉變。

(5)一般價值客戶。偶爾選擇鐵路出行的客戶群體,占比20.5%,建議鐵路運輸企業增加“鐵路暢行”品牌在此類客戶群體中的曝光頻率,如通過手機APP或短信在節假日、會員生日發祝福語,邀請參加客戶服務滿意度調查等,增強此類客戶群體對“鐵路暢行”品牌的認知。

(6)接近流失型客戶。入會時間和消費間隔都長的客戶群體,占比14.1%,建議鐵路運輸企業建立會員流失預測模型,對此類客戶流失進行預測和分析,發現流失會員的行為規律,制定相應解決措施,改善流失趨勢。

4 結束語

研究探索了一種如何在海量會員出行數據中,利用數據挖掘技術搭建模型,聚類會員消費行為規律,分析會員價值類型的方法。提出適用于鐵路行業的RFMICT會員價值評價模型,該模型應用于實際脫敏數據后,能夠有效對具有相同消費行為的會員進行聚類,通過對模型的聚類結果綜合分析,得到了較為理想的會員價值分析結論,證明該模型能夠為鐵路運輸企業的客戶關系管理和客運營銷分析提供參考。研究提出的RFMICT會員價值評價模型仍有需要改進的空間,如研究所抽取的樣本數據并未出現空值、異常值等數據不規范的情況,因此未考慮當數據存在上述問題時的處理技術;在評價指標的選擇方面,僅僅依照工作經驗選取了自認為最為相關的評價指標開展了聚類分析和研究,對引入其他可能存在相關性的指標并搭建多種評價模型,綜合對比各種模型分類結果的優劣性方面仍需進一步深入研究;研究中發現存在一定比例的接近流失型客戶,如何選擇數據屬性搭建流失預測模型,挽回接近流失的會員,降低鐵路運輸企業客戶流失率將是接下來研究的主要方向。

猜你喜歡
乘車聚類會員
一種傅里葉域海量數據高速譜聚類方法
一種改進K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應用于網絡輿情熱點發現的文本聚類方法
這一次優步乘車,讓我感動了
乘車的問題
會員專區
基于Spark平臺的K-means聚類算法改進及并行化實現
會員天地
會員天地
會員名片
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合