?

基于校園一卡通數據的人群畫像分析?

2018-09-28 02:30劉合富談利芳
計算機與數字工程 2018年9期
關鍵詞:刷卡天數食堂

黃 剛 劉 蓉 劉合富 談利芳

(華中師范大學物理科學與技術學院 武漢 430079)

1 引言

校園一卡通[1]是集數據共享、身份認證、金融消費等多項功能于一體的信息集成系統,為師生提供優質高效信息化智慧校園服務[2]的同時也存儲了海量的信息,對這些數據進行挖掘分析可以為教學、科研、后勤和管理等多個領域做出十分有益的貢獻。

目前,國內已有很多科研團隊利用一卡通數據開展相關研究。如:薛黎明等[3]從時間維度、消費場所維度、用戶性別維度等對消費數量、消費金額進行分析,得到了消費時間、消費地點、消費人員及消費金額等之間的關系與規則模式;徐劍等[4]通過K-means算法分析學生對熱水使用情況,了解學生對熱水的需求量,有助于學校的建設和管理;姜楠等[5]對學生的消費數據進行分析,通過K-means聚類算法將學生分為幾類,分析行為特征,便于對學生進行分門別類的管理。2015年,EMC杯競賽中上海交大張宏倫等[6]對全校學生在食堂、洗浴中心及超市的消費次數和平均消費金額進行分析,描述了五類學生人群的特性,為學校的管理工作提供了參考和依據。

為順應高校信息化的發展,本文運用數據挖掘技術對學生一卡通數據進行行為分析。通過對一卡通數據進行去噪、數據清洗、數據轉換等預處理后,提取特征信息,采用K-means聚類算法建立數據分析模型,對不同行為特征用戶畫像,為分析現代大學生的行為特點,優化校園服務、輔助學校管理人員決策提供參考。

2 一卡通數據分析模型

2.1 系統框架

一卡通系統是利用智能卡技術、數據存儲技術、加密技術和軟件工程等技術,在校園內為用戶提供身份認證和金融服務的管理信息系統。系統每天都會產生大量的數據存儲到數據庫中,經過多年應用,系統積累了千萬級乃至上億級數據。這些數據中隱藏了用戶的行為特征,如何利用海量的數據為學校的日常管理工作提供決策支持是目前亟待解決的問題,本文在此背景下展開研究,通過一卡通刷卡信息,分析學生的消費習慣和行為特征,為不同類別學生畫像,系統分析框架圖如圖1所示。

圖1 系統分析框架圖

用戶的食堂就餐消費和超市購物消費所產生的數據都存于消費數據庫中,圖書館刷卡的數據都存于圖書館數據庫中。經過數據預處理從中抽取出相關特征屬性存放到數據倉庫中,通過數據挖掘取樣[7]建模,采用K-means聚類算法對數據倉庫中的數據集進行聚類,對聚類結果進行分析并以決策樹加以展示。

2.2 K-means聚類算法

聚類是按照某個特定標準把一個數據集分割成不同的類簇,使得同一個簇內數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能地大。本文采用K-means算法對用戶刷卡數據進行聚類分析。

K-means算法[8]的核心思想是把n個數據對象劃分為k類,使每個聚類中的數據點到該聚類中心的平方和最小,基于K-means算法的用戶特征聚類過程如下:

l)數據預處理。原始數據經去噪、特征提取、特征值標準化后構成用戶特征數據集n。

2)用組內方差圖選取合適K值,確定聚類個數。

3)在用戶一卡通特征數據集n中任意選取K個數據作為初始聚類中心。

4)分別計算每個對象到各聚類中心的最短距離,將對象分配到距離最近的聚類中。

5)所有對象分配完成后,重新計算K個聚類的中心。

6)與前一次計算得到的K個聚類中心比較,若聚類中心發生變化,轉4),直到聚類中心不發生變化或達到最大迭代次數為止。

7)輸出聚類結果。

算法流程圖如圖2所示。

圖2 K-means算法流程圖

首先從n個數據對象中任意選擇K個對象作為初始聚類中心,計算其他數據對象與這些聚類中心的相似度(距離),分別將他們分配給與其最相似的類簇。所有數據對象都分配結束后再重新計算每個類簇的聚類中心,不斷重復這一過程直到標準測度函數開始收斂為止。本文采用均方差作為標準測度函數,如公式(1)所示:

其中SSE為誤差的平方和,dist表示兩個對象之間的標準歐氏距離,ci為簇i的質心,x為屬于簇i的數據點的集合。經過聚類后,相似行為特征的用戶要聚成一簇,同一類簇盡可能地緊湊,不同類簇間盡可能地分開。

3 用戶分類及數據分析

3.1 數據預處理及特征提取

一卡通數據儲存于oracle數據庫中,有消費信息表、圖書館刷卡記錄表等,建表方式為按月建表,存放當月全校所有的學生刷卡消費信息。為方便得到聚類數據集,需要對數據進行預處理[9],數據預處理主要剔除部分月份缺失和屬性值缺失的數據。數據預處理后就可以根據建模的需要提取相關的特征值,本文選取有效早餐次數、有效正餐次數、食堂刷卡次數、超市刷卡次數、圖書館刷卡次數、有效食堂消費天數、年總額七維特征。

有效早餐次數定義為學生早上8點前的有效刷卡次數,如式(2)所示。其中distinct表示在這個時間段內,一天無論刷卡多少次記一次有效刷卡次數。

有效正餐次數定義為學生的有效午餐次數與有效晚餐次數之和,如式(3)所示。有效午餐次數為11點到14點的有效刷卡次數,有效晚餐次數為17點到20點的有效刷卡次數。其中distinct表示在這個時間段內,一天無論刷卡多少次記一次有效刷卡次數。

有效食堂消費天數定義為學生的有效刷卡天數,即一天內無論刷卡多少次記一次有效刷卡天數。食堂刷卡次數定義為學生在食堂的總刷卡次數,超市刷卡次數定義為學生在超市的總刷卡次數,圖書館刷卡次數定義為學生在圖書館的總刷卡次數,年總額定義為學生在食堂超市消費的總金額。

所有用戶的七維特征系數提取后,為了讓數據分析得到更加泛化的結果,保證程序運行時收斂加快,但并不改變問題的本質,對所有的特征值進行Z-score標準化處理。標準化處理方法如式(4)所示。

其中x為具體數值,μ表示平均值,σ表示標準差。這種方法對原始數據進行標準化處理后符合標準正態分布,即均值為0,標準差為1。

3.2 最佳K值選取

聚類算法中K值的選取非常關鍵,通常憑經驗分辨聚類結果好壞選K值或者通過輪廓系數圖等理論知識來指導K值選?。?0]。本文通過對處理后的樣本集進行聚類實驗,得到不同K值和中心值下聚類的組內方差值,繪制組內方差圖以選取合適K值。最佳K值選取步驟如下:

1)令 K=2,選取30組不同的seed(初始類中心值)進行30次聚類實驗。

2)記錄下K=2及所選seed值聚類得到的SSE值。

3)求得30組聚類實驗得到的SSE平均值作為K=2時的組內方差。

4)令K從2增加到10,得到10組聚類的組內方差值。

利用特征數據值繪制的方差圖如圖3所示。

圖3 組內方差圖

圖3中x軸代表聚類個數,y軸代表平均組內方差。當聚類數目越大時,每組的組內方差越小??梢钥闯霎斁垲悅€數K>5后組內方差下降趨勢變緩,同時K足夠小,故此選取K=5為聚類個數。

3.3 聚類分析

選取2015年6月至2016年7月一學年的數據,數據集共包含17956人,其中男生4914人,女生13042人,由上文可知聚類的最佳K值為5,對標準化后的數據選擇30組不同的類中心值進行聚類處理,避免局部最優解,最終對應SSE誤差平方和最小的即為最優聚類結果,結果如表1所示。

表1 聚類結果比較

從表1得出,初始聚類中心為14400時所有樣本數據的總方差和SSE最小,聚類結果最佳,因此采用這一組的結果作為最終聚類結果。

得到聚類中心后,根據可視化結果觀察食堂刷卡次數和早餐次數的散點圖,如圖4所示,其中x軸代表食堂刷卡次數,y軸代表早餐次數,各類別輪廓邊界分明,可以看出形成了比較明顯的聚類,驗證了上述K值和中心值選取的合理性。

圖4 食堂刷卡次數和早餐次數散點圖

3.4 用戶消費習慣分析

由上述的聚類分類結果,分別統計各類別消費原始數據的平均值,根據直方圖比較各類別的消費差異,分析各特征人群[11]的消費習慣,所得結果如圖5所示。

圖5 各類別人群消費習慣圖

圖5中橫坐標代表人群類別,縱坐標分別代表用餐次數或刷卡次數。第Ⅰ類人群早餐次數、正餐次數和食堂次數都是最高值,且早餐次數明顯高于其他類,這類人群樂于早起,正常在食堂就餐,屬于生活極其自律的人群。第Ⅱ類人群和第Ⅰ類人群相比,僅早餐次數差距較大,說明第Ⅱ類人群的在校生活也比較規律。第Ⅲ類人群各項消費在各類中都占第三,這類人群的消費習慣比較均衡。第Ⅳ類人群早餐次數、正餐次數、食堂次數和超市次數都較少,推測這類人群更傾向于校外消費,生活自由度較大。第Ⅴ類人群早餐次數、正餐次數、食堂次數和超市次數都是最少的,和其他類相比差距很大,這類人群很少在校消費。

3.5 消費人群畫像

用戶五個類別聚類中心如表2所示,聚類中心點特征代表該類別人群特征的均值水平。

表2 聚類中心

由表2可知,第Ⅰ類人群。早餐次數和圖書館次數都明顯高于其他類,正餐次數、食堂刷卡次數、食堂刷卡天數和年消費額都明顯高于均值,超市刷卡次數略高于均值。這類人群習慣早起吃早餐,按時在食堂就餐,生活極其規律,生活習慣非常好。還喜歡去圖書館學習,學習習慣也非常好,是傳統的好學生的生活習慣。推測這類人群是按時作息,學習成績比較好的學霸型。

第Ⅱ類人群。早餐次數略大均值,正餐次數、食堂刷卡次數、食堂刷卡天數、年消費額都明顯大于均值,超市刷卡次數也明顯大于均值,圖書館次數略小于均值。這類人群在食堂超市消費的記錄都很規律,按時就餐偶爾也能早起吃早餐,在校生活習慣較好。圖書館次數較少,說明學習積極性還有待提高,屬于學習潛力型,若能再提高早餐習慣和去圖書館學習的習慣,這類人群的成績將有很大的提升空間。

第Ⅲ類人群。除食堂刷卡天數略大于均值,其他特征值都與均值比較均衡。這類人群去食堂、超市、圖書館的情況比較正常,是大多數人的生活習慣,屬于群眾型。

第Ⅳ類人群。早餐次數、午餐次數、食堂刷卡次數、食堂刷卡天數、年消費額都小于均值,超市刷卡次數和圖書館刷卡次數略小于均值。這類人群較少早起吃早餐,也較少在食堂就餐,推測經常晚睡晚起,偏愛叫外賣。去超市的次數也略少,推測喜歡網購。圖書館去得不多,說明學習不夠勤奮。推測這類人群是偏愛網絡生活的宅男宅女型。

第Ⅴ類人群。各特征值為所有類別中最低值,早餐、正餐次數很低,食堂刷卡次數、食堂刷卡天數和年消費額都很低,很少在食堂就餐。超市刷卡次數和圖書館刷卡次數極低,說明也很少在學校超市消費,很少去圖書館學習,推測這類人群的個性化較強,自我掌控空間較大。

上海交大的EMC杯智慧校園開放數據大賽,選取了學生在食堂、洗浴中心及超市的消費次數、平均消費金額作為特征值,對消費人群進行聚類畫像分析后得到了女神or男神、潛力股or學術帝、宅男、奇行種和人民群眾這五類人群畫像,從生活化方向對交大學生進行了人群畫像,重點突出了不同人群在學校的生活習慣。本文采用了不同的聚類特征值,以生活和學習兩方面相結合為出發點對華中師范大學學生進行了人群畫像[12],得到了符合我校本科生在校生活學習的不同人群特征,為校園管理者提供了管理決策參考的價值。

4 實驗結果評估

4.1 用戶行為模式聚類的有效性分析

選取數據集中某理科院系2013~2015級本科生的數據作為聚類數據集來驗證聚類的有效性。同上文的聚類方式對此院本科生的數據進行特征采集、標準化處理后分成五類,然后計算各類人群的課程成績優秀率,結果如表3所示。

表3 各類人群優秀率

學霸型人群中80.46%的學生學習成績達優秀,優秀率明顯高于其他類人群,符合生活學習習慣極其規律學生的成績特征。奇行類人群中29.09%的學生學習成績達優秀,優秀率明顯低于其他類人群,但也有成績優秀的學生,說明這類人群中有自主安排學習能力極強的個性化學生。學習潛力型的優秀率達到54.85%,說明這類人群的可塑性很高,調整下學習習慣亦能成為學霸型人群。宅男宅女型的優秀率不足40%,體現了生活學習習慣不佳的確影響學習成績。群眾型的優秀率在五類人群中的中等位置,說明大部分人的學習生活習慣處于規律與不規律之間,隨著年級的增長很可能會向其他類型人群轉變。

4.2 決策樹模型

本文利用WEKA[13]J48中的C4.5算法對聚類后的數據集進行決策樹建模[14],通過 REP(Reduced Error Pruning錯誤率降低剪枝)剪枝處理[15]后生成的決策樹圖如圖6所示。

圖6 剪枝后生成決策樹圖

其中stday代表食堂刷卡天數,stcs代表食堂刷卡次數,8zao代表8點前早餐次數,dinner代表正餐次數,library代表圖書館打卡次數,nze代表年消費總額。由圖6可知,食堂刷卡天數是關鍵屬性,先對食堂刷卡天數進行判斷,當食堂刷卡天數小于-1.28時,用戶分為第Ⅴ類人群。當食堂刷卡天數大于-1.28小于-0.35時分為第Ⅳ類人群宅男宅女型。當食堂刷卡天數大于-0.35小于-0.1,且食堂刷卡次數小于-0.4時,分為第Ⅳ類人群,但食堂刷卡次數大于-0.4時分為第Ⅲ類人群群眾型。當食堂刷卡天數大于-0.1且早餐次數大于1.2時分為第Ⅰ類人群學霸型。然后再依次分裂,達到分裂結束條件時分為具體類別。每個所分的類別中都有給出2個數值,前面的代表分類正確的數目,后面代表分錯的數目。通過決策樹樹狀圖能夠很清晰地判斷出聚類的好壞,進一步驗證了上述實驗的合理性及可靠性。利用圖6的決策樹模型可對學生進行有效分類,以對學生管理工作提供依據。

5 結語

通過分析學生一卡通的消費記錄和圖書館刷卡記錄,提取出與學生在?;顒用芮邢嚓P的特征屬性,8點前早餐次數、正餐次數、食堂刷卡次數、超市刷卡次數、圖書館刷卡次數、食堂刷卡天數和年總額,標準化處理后通過K-means聚類分出了5類,根據聚類的簇特征給5類人群畫像為奇行類、宅男宅女型、群眾型、學習潛力型和學霸型,并驗證了分類的正確性。對高校的學生管理工作具有一定的參考價值。

猜你喜歡
刷卡天數食堂
學珍食堂
“互助孝老食堂”值得推廣
質量管理工具在減少CT停機天數中的應用
最多幾天?最少幾天?
食堂
我國霧霾天數影響因素分析
我國霧霾天數影響因素分析
生日謎題
刷卡
結賬
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合