?

基于學生行為大數據的社交網絡分析及應用

2022-03-15 10:18葉茂朱清溢汪雯雯
電子制作 2022年4期
關鍵詞:校門畫像標簽

葉茂,朱清溢,汪雯雯

(四川信息職業技術學院,四川廣元,628040)

1 研究背景

學生行為大數據分析,以及基于學生行為分析的學生畫像、群體畫像方法及實踐,是近年來的熱點領域。國內很多高校都探索了如何應用大數據、人工智能技術來對分析學生行為,包括學業行為、消費行為、學生畫像等[1-3]。而這些研究的目的,都是將大數據、人工智能技術應用與學校的教學管理、學生工作、疫情防控工作、學生心理健康關懷。學生社交網絡分析[4],可以研究學生在大學這個小社會中的群體行為,從而在統計學上,得到不同群體學生的差異,以及在不同群體中發現行為異?;蛘呱缃划惓5膶W生,提供幫助和心理關懷。國外學者也研究了學生社交網絡分析,以及對高校教學工作的影響[5-6]。

周濤[7]認為,在教育領域應用大數據技術,有三大趨勢:一是通過量化工具挖掘學生行為習慣和規律,用真實數字來支持教學工作;二是將學生工作中的后置性應急補救措施,轉變為前置性預警管理;三是建立在線的動態學生大數據系統,不再單純依靠靜態分析,而是實現自適應的動態分析。

2 學生社交網絡分析

本文研究主要基于我校9989名同學刷身份證進出校門的記錄數據,以及學校信息中心提供的學生基礎信息,分析學生社交網絡情況,構造學情知識圖譜,并已實際應用于學校部分班級的管理。

大學生在校期間主要是學習,而離開學校的主要目的是社交、娛樂、購物等;所以,學生進出校門的數據,具有社交屬性。相對于使用食堂消費刷卡的先后記錄[4],本文所使用的進出校門記錄,除了可以挖掘學生的社交情況,還可以挖掘出學生校外娛樂的時間。

■2.1 構建社交網絡

進出校門數據采集的時間段從2020年9月22日到2021年7月7日,共計289天。共統計了9989名學生的出行數據1418157條,平均每天有4000多名學生進出校門。為保護學生隱私,本文在進行數據挖掘前,已去除了所有身份證、學號、姓名、手機號等個人隱私信息,完成數據脫敏。

表1 離校、返校時間記錄

學生進出校門時間主要在每天6點到23點,其他時間會關閉校門。每天進出校門時間計17個小時,1020分鐘。每分鐘進出校門有:4115.2 / 1020 = 4.034人次。說明一個同學A進出校門時,一分鐘內有4.034 - 1 = 3.034名同行者

可得到不認識的同學A和同學B,隨機同行一次的概率為:3.034/9989 = 0.0003038。

同學A和同學B,隨機同行兩次概率為:0.00030382×10?8=9.23;隨機同行三次概率約為2.38×10-11,比中彩票概率還低。所以同學A和同學B同行大于等于3次,完全可以說明A和B是有意識同行。為了搜索和同學A交往較密切的朋友,我們只選取和同學A同行至少5次的同行人進行統計,置信度非常高。

通過這種方法,我們可以構建全校學生社交網絡圖G =(V, E)。該圖為一個有向圖,V是頂點集合,每個頂點是一名學生。E是有向邊集合,每條邊表示兩個同學同行進出校門至少5次,邊的權重(weight)是同行次數。

基于學生進出校門數據,成功生成了9989個頂點(學生),56040條有向邊的社交網絡,并導入到neo4j圖數據庫中。為了使社交網絡更直觀,根據學生性別,特別添加了girl和boy兩個標簽,紅色標簽代表女生,藍色標簽代表男生(圖1)。為分析大學生和異性交往的情況,我們也提取了朋友數、好朋友數(同行超過20次的朋友)、異性好友數等量化指標,用于分析每個同學的社交情況。

圖1 學生社交網絡圖(學生姓名已脫敏)

社交網絡是動態變化的,出入校門頻率會變化,朋友關系會變化,每學年也有新同學入學,所以需要每月增量更新社交網絡。

另外,基于這個算法,也很容易計算一段時間范圍的社交網絡。算法第3步統計同行人時,只需要根據時間范圍來篩選進出校門記錄,就能夠得到一定時間范圍內的社交網絡情況。

將社交網絡信息,結合學生靜態、動態信息,構建學生實體和關系,輸入到學情知識圖譜中,用于院系和班級的日常學生管理工作。

■2.2 社交網絡分析

完成構建社交網絡圖后,可以針對不同群體(班級、專業、年級、籍貫)等,篩選獲得子圖,再對子圖進行社交網絡的集中度,關聯度進行統計分析。常用社交網絡分析算法包括Page Rank算法、Centrality中心性算法等。

中心性是圖論以及網絡分析中的一個常用概念,用以表達圖(網絡)中一個頂點在整個網絡中所在中心的程度,也稱之為中心度。根據測定中心性方法的不同,可分為度中心性(Degree centrality)、接近中心性(或緊密中心性,Closeness centrality),中介中心性(Betweenness centrality)等。我們分析了度中心性、中介中心性、緊密中心性三項指標,用于度量一個頂點(學生)與其他頂點(學生)的社交距離和緊密程度。

另外一個重要度量是People Rank。Google發 明 的Page Rank算法改變了互聯網,在社交網絡領域,People Rank指標同樣可以用于分析一個個體在其社交圈子里的重要程度。PageRank算法原理是通過在圖中隨機游走,獲取每個頂點的重要性指標。

本 文 通 過iGraph來 完 成PageRank,以及圖中心性指標的計算。iGraph是C語言實現的圖論算法,性能非常優秀。完成1萬個頂點,5.6萬條邊的中心度及People Rank指數的計算,只需要不到3秒。完全可以支持實時社交網絡分析。

3 學生畫像

■3.1 構建學生畫像

我們完成學生畫像的目的,是分析每名學生的特點,給學生打上不同的標簽,從而幫助學校、班主任、家長對學生實行因材施教,或者實現更有針對性的幫助和心理關懷。

學生畫像的數據來源主要包括靜態數據和動態數據兩類。其中學生基本信息屬于靜態數據。而學生社交數據、學生學業數據,屬于動態數據。學生信息還包括是否班干部,參加社團情況等,這些信息對于完整的學生畫像也非常有價值?;趯W生畫像數據,我們可以建立學生的個人大數據檔案。這部分檔案集成到學校教務系統中,只有教務處、二級學院教務人員、班級導師和輔導員能訪問,另外學校也會不定期推送學生個人大數據給學生家長或學生本人。

本文設計了學生成績指數、社交指數、孤獨指數等三個指數,用于完成學生在校行為的畫像,生成算法步驟如下。

3.for A in學生集合S(class):

(2)成績標簽:根據“成績指數”在班級排名,“成績很棒”:前10%;“成績較差”:后10%;“成績一般”:其他;

(3)社交標簽:根據“社交指數”在班級排名,“社交達人”:前10%;“社交困難”:后5%;“社交一般”:其他;

(4)孤獨標簽:根據根據“孤獨指數”在班級排名,“較為孤獨”:前5%;“正?!?;

算法中孤獨指數和社交指數的相關性較強。但是孤獨指數為了更好分析出同學是否孤獨,加大了離校次數和離校時間兩個指標的權重。

學生畫像示例如圖2,左邊的標簽是學生基本靜態信息。而右邊三個標簽分別是學生的學業成績、社交能力、孤獨指數情況。

圖2 學生畫像示例

三個動態標簽是具有時間屬性的,每學期期末考試成績公布后,更新學生的成績標簽;每月更新一次社交和孤獨標簽。通過動態檢測學生的社交和成績信息,可以盡早分析出學生的行為異常變化,從而給老師、家長給出預警和建議[8-9]。

■3.2 應用學生畫像

完成學生畫像后,更重要的是如何應用學生畫像數據。我們構建學生畫像的目的是分析學生的特點,快速篩選出需要幫助和關心的同學,并給出關懷建議。

關懷建議根據“成績”、“社交”、“孤獨”三個標簽給出。這三個標簽是動態的,所以需要從時間維度來觀察標簽的變化。系統將正面、負面變化的學生情況推送給導師、輔導員后,老師可以根據學生情況,給予學生關懷和幫助,并盡可能找到學生社交、成績變化的原因,添加到學生個人大數據檔案中[10]。

從2021年1月到2021年7月,我們將算法應用于學校軟件學院大數據19-1(48名同學)和AI20-1(37名同學)兩個班級的教學管理。

圖3中,左圖是兩個班級中打上“孤獨”、“社交困難”、“成績較差”負面標簽的學生人數,老師可以重點關注。右圖是從2021年2月到2021年7月,按月生成的關懷集合C+和C-的人數??梢钥闯?,每個月都能給老師一些有價值的建議。

圖3 兩個班級的社交標簽情況,以及觸發學生關懷建議的次數

4 群體畫像

學生的行為具有群體性,且不同專業、班級的學生,也有其普遍特點。例如會計、旅游管理等文科專業學生女生比例更高,而且學生平均成績較好。而軟件技術、數控技術等專業,男生比例高,且學生平時專業作業較多,社交時間或社交能力稍弱。

以班級畫像為例,我們首先根據全班同學的學業成績數據以及社交數據,建立班級標簽。而班級的橫向對比維度可以在全校所有班級范圍內評比,也可在同專業內對比。和學生畫像的算法類似,首先需要計算班級的成績指數、社交指數,也就是計算全班所有同學成績指數、社交指數的算數平均值。再和全校所有班級指數進行橫向對比,打上班級“成績標簽”和“社交標簽”。對于識別到“成績較差”、“社交一般”的班級,可以給二級學院、教務處發出預警。另外從動態角度,如果在短期內,出現班級成績或社交的負面變化,也需要及時預警,并給出整改措施。

應用群體畫像可以算法給專業、班級打上標簽;不過由于數量較少,所以對于專業、二級學院的群體畫像,建議使用絕對值進行分析,由校領導、教務處、學校質量處、二級學院共同討論得出結論。

5 結論及展望

本文從學生社交網絡分析入手,結合學生基礎信息,應用圖數據庫、大數據技術,提出了完整的動態學生畫像、群體畫像生成算法。并提出如何應用畫像與異常行為分析,給出有針對性的學生心理關懷建議;以及針對班級甚至專業的教學、學工管理改進建議。

另外,通過分析學生出行情況,得到動態的學生行為數據,還可以有效支持疫情防控工作[11]。

學生行為大數據是智慧校園整體解決方案的重要一環,其中還有非常多工作可以做。例如,基于學生食堂消費數據、學生上網時長、宿舍用水用電量等信息,可以完成更立體化的學生行為分析,得到學生經濟狀況、身體健康狀況,給予學生更多的關心。還可以根據課堂學生表情分析,得到學生上課的專心程度,并根據全班同學的課堂專心程度,可以反推出課程(老師)的授課水平、課堂技巧等。

猜你喜歡
校門畫像標簽
畫像
風雨中陪考
國內“奇葩”大學校門盤點
國內“奇葩”大學校門盤點
不害怕撕掉標簽的人,都活出了真正的漂亮
畫像
一兜橘子
讓衣柜擺脫“雜亂無章”的標簽
科學家的標簽
科學家的標簽
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合