?

基于多種提及關系的社交媒體用戶位置推斷

2021-01-19 04:58喬亞瓊羅向陽馬江濤李晨亮張萌李瑞祥
通信學報 2020年12期
關鍵詞:異質詞語社交

喬亞瓊,羅向陽,馬江濤,李晨亮,張萌,李瑞祥

(1.信息工程大學網絡空間安全學院,河南 鄭州 450001;2.數學工程與先進計算國家重點實驗室,河南 鄭州 450001;3.鄭州輕工業大學計算機與通信工程學院,河南 鄭州 450001;4.武漢大學國家網絡安全學院,湖北 武漢 430075)

1 引言

社交媒體用戶位置推斷是從社交媒體數據中挖掘用戶位置信息。社交媒體用戶位置推斷技術主要用于對社交媒體用戶所在的地理位置進行分析和定位,可為基于位置的服務[1]、基于位置的事件分析[2]和基于位置的敏感人物分析[3]提供幫助。然而,出于對個人隱私保護的考慮[4-5],社交媒體中的位置數據十分稀疏[6]。因此,有必要開展社交媒體用戶位置推斷問題研究,以應對位置數據的稀疏性問題。

常見的社交媒體用戶位置推斷方法通過提取社交媒體文本中與位置相關的話題、位置指示詞或地理名詞等特征推斷用戶位置。社交媒體上討論的話題通常因地理區域而異,因此,Eisenstein 等[7]和Ahmed 等[8]使用主題模型建模話題與位置的關系來推斷用戶位置。社交媒體文本使用的詞語具有地理位置偏向性,Wing 等[9]通過基于詞語的信息增益率提取位置指示詞來推斷用戶位置。統計分析結果表明,如果用戶經常提到某個地理名詞,他很可能生活在該地理區域,因此可以使用文本中提及的地理名詞來推斷用戶位置[10]。常用的地名詞典有GeoNames 和DB-pedia。Rahimi 等[11-12]使用詞袋模型提取文本特征,然后結合邏輯回歸分類器或多層感知機分類器推斷用戶位置。

除了基于文本的用戶位置推斷,基于用戶社交關系的位置推斷也比較常見?;谟脩羯缃魂P系的方法假設有關注關系或者有提及關系的用戶地理位置接近[13]。此類方法通過使用用戶的關注關系或者用戶在文本中的提及關系構建圖1 所示的同質網絡來推斷用戶位置。如 Rahimi 等[14]提出的MADCEL-W 方法利用用戶的提及頻次構建加權的用戶社交網絡,并去除名人節點,基于改進的吸附傳播算法推斷用戶位置。Rahimi 等[15]提出的GCN-LP 方法將用戶鄰居節點的獨熱編碼作為用戶節點特征,使用用戶的提及關系構建用戶的社交網絡,通過圖卷積網絡推斷用戶位置。

基于文本的方法忽略了用戶朋友對位置的影響,可達到的精度有限;基于社交關系的方法無法對無朋友的孤立用戶進行位置推斷。為此,學者們嘗試使用文本和社交關系2 種視圖聯合推斷用戶位置[16]。如Rahimi 等[12]提出的MADCEL-W-MLP方法,首先基于用戶之間的提及關系構建用戶的社交網絡,然后將基于文本的推斷結果作為附加節點與對應用戶節點相連,使用標簽傳播算法推斷用戶位置。Rahimi 等[15]提出的GCN 方法將用戶文本的詞袋特征作為用戶特征,使用用戶的提及關系構建用戶的社交網絡,通過圖卷積網絡聯合文本視圖和網絡視圖推斷用戶位置。Rahimi 等[15]提出的MLP-TXT+NET 方法將基于詞袋模型提取的文本特征和用獨熱編碼表示的社交關系特征串聯,利用多層感知機分類器推斷用戶位置。Zhong 等[17]提出基于注意力機制的圖神經網絡模型,聯合文本內容和社交網絡推斷用戶位置。

圖1 同質網絡

盡管聯合推斷的方法在一定程度上降低了位置推斷誤差,卻沒有有效利用文本中的位置特征,且僅使用用戶之間的提及關系構建網絡,忽略了文本中位置指示詞和地理名詞對用戶位置的指示性,導致位置推斷誤差仍然較大。為此,本文提出一種基于多種提及關系的社交媒體用戶位置推斷方法。該方法首先從用戶文本中提取用戶提及的朋友、位置指示詞和地理名詞;其次,根據用戶之間的提及關系、用戶對位置指示詞的提及關系和用戶對地理名詞的提及關系,構建包含用戶、詞語(位置指示詞和地理名詞)和位置3 種節點的異質網絡;再次,基于用戶對位置指示詞和地理名詞的共同提及關系提出一種異質網絡簡化方法,將地理位置鄰近的用戶更緊密地聯系起來;為了充分探索網絡結構,緩解已知位置的稀疏性問題,提出使用有偏的隨機游走算法對網絡中的節點采樣以生成節點序列,用于用戶特征向量的學習;最后,基于學習得到的用戶特征向量,提出利用多層感知機分類器對用戶進行位置推斷。

本文的主要貢獻如下。

1) 提出一種基于多種提及關系的社交媒體用戶位置推斷方法。與已有方法相比,該方法有效地集成了文本中提取的位置特征,能夠基于用戶與位置指示詞的提及關系、用戶對地理名詞的提及關系,以及用戶之間的提及關系,將文本視圖和用戶關系視圖更好地結合起來,聯合推斷用戶位置,并將孤立用戶連接到網絡中,有效降低用戶定位誤差并提高可定位用戶比例。

2) 提出一種新穎的用戶表示學習方法。與現有的僅基于用戶之間的提及關系構建社交網絡并進行特征向量學習的方法不同,本文提出基于多種提及關系構建異質圖,并根據用戶對位置指示詞和地理名詞的共同提及關系對異質圖進行簡化,將位置鄰近的用戶更緊密地連接起來,并基于有偏的隨機游走算法生成節點序列以學習用戶特征向量,使地理位置鄰近用戶的特征向量距離更近。

3) 提出基于用戶表示學習和神經網絡分類器推斷用戶位置。與現有基于標簽傳播的位置推斷算法相比,本文方法可以有效緩解已知位置數據的稀疏性問題,更好地利用網絡結構推斷用戶位置,有效提高用戶定位準確率。

2 問題描述

為了便于理解,本節給出本文要解決問題的定義和文中用到的主要符號及其含義。

給定社交媒體數據集D=(U,Tu),該數據集包含位置已知的用戶集合UL、位置未知的用戶集合UN和用戶發布的文本集合T,Tu表示用戶u∈U的推文集合。則用戶集合U=UL∪UN。UL對應的位置集合為YL。由于數據集中的雙向提及十分稀疏,本文基于用戶在文本中的單向提及構建用戶社交網絡,用戶之間的社交關系集合用F表示。此外,用戶的位置集合L已知。本文將用戶位置推斷問題視為分類問題,用戶所在區域使用k-d 樹的劃分方法進行區域劃分[18],每個網格代表一個位置類別,表示用戶u所在的位置區域為li。假設待推斷的用戶位置包含在已知的位置集合中,社交網絡用戶位置推斷問題可以用式(1)描述,即通過對用戶、用戶文本和用戶已知位置的分析,推斷出UN中用戶的位置集合YN。

下面給出本文用到的一些重要術語的定義。

定義1信息增益率。本文使用Han 等[19]提出的方法基于信息增益率提取位置指示詞。首先,對數據集進行數據預處理,去除停用詞,得到詞語集合M;然后,計算數據預處理后的每個詞語的信息增益率IGR(m),m表示集合M中的詞語,如式(2)所示。

其中,IG(m)表示詞語m的信息增益,IV(m)表示詞語m的信息熵。

定義2位置特征詞。位置特征詞包括位置指示詞和地理名詞。位置指示詞有強烈的位置指示性[20],具有緊湊的地理使用范圍[21],根據詞語在不同位置被提及的統計特征篩選得到。例如,howdy 在美國德克薩斯州是一個典型的問候語,它提示用戶在德克薩斯州或附近,而august、peace 和email 等詞不具有位置指示性[21]。地理名詞是表示地理位置的名詞,如Arizona。地理名詞可以借助地名詞典識別[22],不需要借助詞語的統計特征。

定義3用戶?地理名詞矩陣。P是一個|U|×|Mp|維矩陣,P[i]是用戶ui的地理名詞向量,P[i][j]表示用戶ui提及第j個地理名詞mp的次數。

定義4用戶?位置指示詞矩陣。R是一個|U|×|Ml|維矩陣,R[i]是用戶ui位置指示詞向量,R[i][j]表示用戶ui提及第j個位置指示詞ml的次數。

定義5用戶?詞語?位置異質網絡。G=(V,E,W),其中V=VU∪VM∪VL表示頂點集合,VU=U,VM=M,VL=L;M=Ml∪Mp表示位置特征詞集合,Ml表示位置指示詞集合,Mp表示地理名詞集合。E表示邊的集合,包含根據用戶之間的提及關系建立的用戶?用戶邊(u,u)、根據用戶對位置指示詞的提及關系建立的用戶?位置指示詞邊(u,ml)、根據用戶對地理名詞的提及關系建立的用戶?地理名詞邊(u,mp),以及根據位置指示詞與其歸屬關系建立的位置指示詞?位置邊(ml,l)、根據地理名詞與其位置的歸屬關系建立的地理名詞?位置邊(mp,l)。邊的權重依次為用戶之間的提及次數、用戶對位置指示詞的提及次數和用戶對地理名詞的提及次數、位置指示詞?位置邊和地理名詞?位置邊的權重為1。此外,由于名人用戶的社交關系復雜,其關注者或者提及的用戶的位置分散,為了避免名人用戶帶來的偏差,本文將用戶朋友數量大于閾值γ的用戶視為全局名人[14],從異質網絡中剔除。

定義6用戶?位置異質網絡。G′基于G簡化得到。G′=(V′,E′,W′),其中,為頂點集合,E′表示邊的集合,包含用戶?用戶邊(u,u)、用戶?位置邊(u,l);W′為邊的權重集合,用戶?用戶邊及其權重根據用戶之間的提及頻次和用戶對位置特征詞的共同提及頻次構建和計算;用戶?位置邊的權重根據用戶對位置特征詞的提及關系和位置特征詞的位置歸屬關系構建,其權重根據用戶對位置特征詞的提及頻次計算。G′的詳細構建方法見4.1 節。

3 數據分析

本節基于真實的Twitter 數據集GEOTEXT[7]進行數據分析,展示位置特征詞的位置指示性。圖2給出了Arizona 和email 在GEOTEXT 數據集中被提及頻次的空間分布。

圖2 GEOTEXT 中Arizona 和email 被提及頻次的空間分布

圖2 中柱體表示該詞在該位置被提及,柱體的高度為該詞語被提及的頻次??梢钥闯?,email 分布范圍廣,在各個地區被提及的頻次相差不大,不具有位置指示性。Arizona 則被生活在亞利桑那州及其附近的用戶多次提及,具有明顯的位置指示性。

表1 給出了GEOTEXT 數據集基于信息增益率和字典匹配提取的部分位置指示詞和地理名詞。其中,l7、l20、l23、l29和l55為按照文獻[15,23]方法,基于k-d 樹對連續空間的進行劃分后得到的位置標簽;地理名詞的位置根據其表示的地理位置的坐標確定,位置指示詞的位置基于以下的方法來確定。

對于位置指示詞ml,設該詞在所有位置出現的總次數為n,在位置k出現的次數為nk。則位置k出現該詞的概率為當ε最大值唯一且滿足時,位置指示詞nl的位置是k,其中N為該詞出現次數不為0 的位置數。

從表1 可以看出,詞語在社交媒體中的使用具有明顯的地域特征。Austin 和Dallas 被生活在位置l20的用戶較多地提及,l20的中心地理坐標為(?97.30,32.63),Austin 的地理坐標為(?97.10953,33.08234),Dallas 的地理坐標為(?97.10953,33.08234)??梢钥闯?,這2 個地理名詞表示的地點奧斯汀和達拉斯在l20表示的地理區域內。Chicago的縮寫Chi 也較多地被該城市所屬的位置區域內的用戶所提及。

但是,本文也觀察到,由于訓練集中的數據偏差(例如l92僅包含一個用戶且只有少量推文),基于信息增益率獲取位置指示詞的方法無法提取某些位置的位置指示詞。因此,可以得出結論,由于位置指示詞基于詞語在不同區域中使用的統計特征提取,受訓練集的數據影響非常大,其對用戶的位置指示性有限,這也是基于文本的位置推斷方法準確率不高的原因之一。相比之下,地理名詞只需要查詢地理詞典,不需要任何訓練數據,且其本身具有明顯的地域特征,因此,地理名詞對用戶的位置影響更為顯著。

4 本文算法描述

如圖3 所示,本文提出的方法包括基于文本的位置特征提取、用戶?詞語?位置異質網絡構建、用戶?位置異質網絡構建、基于有偏隨機游走的用戶表示學習和基于神經網絡的用戶位置推斷5 個部分。

表1 詞語在不同位置的分布(GEOTEXT 數據集)

圖3 基于多種提及關系的社交媒體用戶位置推斷原理示意

基于文本的位置特征提取包括基于信息增益率的位置指示詞提取和基于地名詞典的地理名詞發現。由于用戶文本中使用的詞語中包含大量停用詞和與用戶位置無關的詞語,使用全部的詞語構建用戶?詞語?位置異質網絡會導致網絡結構復雜,增加計算開銷。因此,本文基于詞語信息增益率對詞語進行初步篩選,過濾信息增益率較小的詞語,以識別位置指示詞,減少計算開銷。此外,本文基于GeoNames 來識別文本中的地理名詞。

在提取文本中的位置特征詞之后,根據定義5給出的方法構建圖3 所示的用戶?詞語?位置異質網絡。為了將相同位置區域的用戶更緊密地聯系起來,使地理位置鄰近的用戶的特征向量距離更近,本文提出基于提及關系簡化用戶?詞語?位置異質網絡,以構建用戶?位置異質網絡,并提出基于有偏隨機游走的用戶表示學習算法學習用戶特征向量。下面詳細闡述這2 個算法。

4.1 用戶?位置異質網絡構建

得到用戶?詞語?位置異質網絡后,本文基于共同提及關系對其進行簡化,通過去除詞語節點將位置相近的用戶更緊密地聯系起來以構建用戶?位置異質網絡G′=(V′,E′,W′),如算法1 所示。

算法1用戶?位置異質網絡構建算法(GELP)

輸入用戶?詞語?位置異質網絡G=(V,E,W),用戶發布的推文集合T

輸出用戶?位置異質網絡G′=(V′,E′,W′)

根據第3 節的分析結果,在去除詞語節點時,對于地理名詞,如果2 個用戶之間沒有邊,且他們共同提及同一地理名詞的次數大于閾值τ1,則在這2 個用戶之間添加邊,用戶?用戶邊的權重為用戶對所有地理名詞的最大共同提及次數sp,對應的地理名詞記為mp,是第k個地理名詞。如果用戶之間已有邊,則將用戶對所有地理名詞的最大共同提及次數與已有邊的權重相加作為用戶?用戶邊的權重。同時,將與共同提及次數最多的地理名詞相連的用戶節點和位置節點lp直接相連,用戶?位置邊的權重為用戶對地理名詞的提及次數。對于位置指示詞,如果用戶對同一位置指示詞的共同提及次數大于閾值τ2,且用戶之間有邊,則用戶?用戶邊的權重為原有邊的權重和用戶對所有位置指示詞的共同提及次數的累加sl。為了避免位置指示詞帶來的噪音,本文不根據位置指示詞添加用戶?用戶邊和用戶?位置邊。下面給出用戶?位置異質網絡構建算法。

4.2 有偏隨機游走采樣

用戶?位置異質網絡構建的目的是將位置鄰近的用戶更緊密地聯系起來,且將用戶節點與其鄰近的位置節點緊密關聯。為了更好地保留節點的鄰域特征,本文提出有偏隨機游走策略對用戶?位置異質網絡中的節點進行采樣生成節點序列。

算法2有偏隨機游走算法

輸入用戶?位置異質網絡G′=(V′,E′),單次游走長度μ1,采樣長度μ2

輸出節點序列S受Grover等[24]工作啟發,在節點采樣時本文使用回歸參數r控制在隨機游走中選擇上一個節點作為下一個節點的可能性,使用進出參數q控制游走方向是“向內”或“向外”。r>1 時減少對已訪問的節點進行采樣的可能性,r<1 時隨機游走徘徊在初始節點周圍。q>1,則隨機游走傾向于選擇接近上一個節點的節點,這種游走類似于廣度優先采樣,采樣得到的節點序列捕獲初始節點附近的局部視圖;q<1,則傾向于選擇遠離上一個節點的節點,這種游走向外采樣,類似于深度優先采樣。給定初始節點vi,則節點序列Si根據式(5)定義的轉移概率生成,其中φ(vi,vi?1)表示隨機游走從節點vi?1游走到節點vi的概率,轉移概率矩陣為ψ。假設節點vi?2,vi?1,vi∈E′。vi?2是vi?1的前一個節點,d=0 表示隨機游走從vi?1回到vi?2;d=1表示隨機游走從vi?1到與vi?2直接相連的節點;d=2 表示隨機游走從vi?1到與vi?2不直接相連的節點,Z為歸一化常數。下面給出有偏隨機游走的算法步驟。

由于本文的目標是學習圖中所有節點的特征向量,因此最終節點序列通過對圖中每個節點進行μ2次采樣生成。最終的節點序列長度為|V′|μ2μ1。

得到節點序列后,將有偏隨機游走得到的節點序列作為輸入學習用戶特征向量,本文用skip-gram模型[25]來解決用戶特征向量學習的問題。

4.3 基于神經網絡的用戶位置推斷

在得到用戶的特征向量后,本文將其作為多層感知機的輸入訓練用戶位置推斷模型,模型的輸出為基于k-d 樹的區域劃分后的位置類別。

是用戶的特征向量,σ()為激活函數,本文取ReLU 函數[26]為激活函數,k為隱含層的數量,本文設置為偏差向量,分別為第一、第k個隱含層和最后一層神經網絡的輸出。多層感知機的參數使用Lasagne/Theano[27]基于Adam 方法[28]進行優化。

5 性能測試與分析

為了驗證本文提出的方法,本文使用3 個真實Twitter 數據集 GEOTEXT[7]、TW-US[18]和TW-WORLD[29]來驗證算法的有效性。

5.1 實驗設置

1) 實驗數據

GEOTEXT 和TW-US 數據集包含由來自美國的用戶發布的推文。GEOTEXT 使用每個用戶的第一條推文位置作為用戶的基準位置[7],TW-US 使用每個用戶發布的帶有位置標簽的推文的中位數位置作為該用戶的基準位置。TW-WORLD 包含來自全球的用戶發布的推文,提取每個用戶大部分推文位置附近的城市中心作為用戶的基準位置。3 個數據集的統計數據如表2 所示。

2) 評價標準

本文使用平均誤差mean、中位數誤差median、Acc@161 和覆蓋率coverage 來評估所提的位置推斷方法的性能,其中,Acc@161 為推斷位置與實際位置距離小于161 km 的用戶位置推斷準確率。用戶覆蓋率為可定位的用戶占所有用戶的百分比。

3) 參數設置

對于本文用到的 3 個數據集,本文按照Rahimi 等[12]的方法,基于k-d 樹對連續空間進行劃分,以確保每個區域內有相似數量的用戶。根據 Rahimi 等[12]的經驗,本文將 GEOTEXT,TW-US 和TW-WORLD 這3 個數據集基于k-d 樹劃分的參數依次設置為50、2 400 和2 400,分別生成了129、256 和930 個位置標簽。與Rahimi等[12]的工作保持一致,本文每個區域內所有用戶位置經度、緯度的中位數作為該區域位置標簽的地理坐標。

低速轉向時需要電動機輸出大轉矩,高速轉向時需要電動機輸出小轉矩,即隨著v增大,F(v)減小,所以F(v)為v的指數遞減函數.G(Td)為輸入不同大小扭矩時的特性曲線函數表達式,隨著輸入扭矩的增大和減小,其結果也隨之增大和減小,所以G(Td)為Td的遞增函數.通過以上分析,可以得到F(v)的表達式為

此外,在構建用戶?詞語?位置異質網絡時,本文將名人節點去除的閾值γ在GEOTEXT、TW-US和TW-WORLD 上依次設置為5、15 和5?;谛畔⒃鲆媛蔬x取候選位置指示詞集的閾值設為0.25[19]。在學習用戶特征向量時,本文將有偏隨機游走的參數設置為r=4,q=0.25,μ2=10,μ1=80。

5.2 實驗結果

本節將提出的用戶位置推斷方法與經典的方法進行比較,并對實驗結果進行分析。

表3 給出了所提方法與經典方法的性能對比??梢钥闯?,在3 個數據集上,所提方法在Acc@161、mean、median 上的表現均優于所有經典方法。在GEOTEXT 數據集上,Acc@161 比性能最好的MAGNN 高出2%,平均誤差降低25 km。表明本文提出的異質網絡的社交媒體用戶位置推斷方法可以通過用戶和位置的關系加強用戶之間的聯系,提高用戶位置推斷性能。

5.3 不同提及關系的影響分析

為了探索不同提及關系對用戶位置推斷的性能的影響,本文提出以下4 種用戶?位置異質網絡構建方法,并進行了對比測試。

表2 數據集的統計信息

表3 在3 個Twitter 數據集上的位置推斷性能

1) GELP-MEW。通過將提及同一詞語的節點直接相連去除用戶?詞語?位置異質網絡中的詞語節點。去除詞語節點之后,用戶?用戶邊的權重為共同提及位置指示詞的最小次數加上用戶之間的提及次數,用戶?位置邊的權重為用戶對詞語的提及次數。

2) GELP-MW。在去除詞語節點時,僅將連接同一詞語的用戶節點和位置節點相連。去除詞語節點之后,用戶?用戶邊的權重為共同提及位置指示詞的最小次數加上用戶之間的提及次數,用戶?位置邊的權重為用戶對詞語的提及次數。

3) GELP-I。在去除詞語節點時,僅將與該詞相鄰的孤立用戶以及訓練集中的用戶和位置節點相連。去除詞語節點之后,用戶?用戶邊的權重為1,用戶?位置邊的權重為1。

4) GELP-UW。在去除詞語節點時,僅將訓練集中的用戶節點和位置節點相連。去除詞語節點之后,用戶?用戶邊的權重為用戶之間的提及次數之和,用戶?位置邊的權重為1。

表4 不同異質網絡構建方法的位置推斷結果(GEOTEXT 數據集)

從表4 中可以看出,GELP 取得了最好的位置推斷結果,并且具有較高的用戶覆蓋率。雖然其用戶覆蓋率不是最高,但仍然高出典型的用戶位置推斷算法(CGN)2.76%。GELP-UW 的位置推斷結果比GELP 稍差,與GELP 的用戶覆蓋率相同。GELP-I、GELP-MW 和GELP-MEW 具有最大的用戶覆蓋率,GELP-MEW 表現最差。

結合以上實驗結果,本文得到以下結論。

1) 使用用戶對詞語的共同提及關系連接用戶節點,會降低用戶位置推斷性能。原因是,盡管用戶對位置指示詞的提及反映了用戶的位置,但是由于用戶共同提及的位置指示詞有多個,且這些位置指示詞可能指示不同的位置,簡單地根據用戶對位置指示詞的共同提及添加用戶?用戶邊,引入了大量的噪聲,從而降低了用戶位置推斷的性能。

2) 使用用戶對位置指示詞的提及添加開發集和測試集的用戶?位置節點,并基于用戶對位置指示詞提及的次數對用戶?用戶邊加權,可以提高可定位用戶比例,但是不能提高用戶位置推斷準確率。原因是訓練集上的數據偏差使基于信息增益率獲取的位置指示詞包含噪聲詞匯,基于位置指示詞添加用戶?位置邊引入了噪聲,降低了用戶位置推斷準確率。

3) 使用用戶提及的位置特征詞僅將孤立用戶連接到網絡中,可以增加可定位用戶比例,并保持較高的用戶位置推斷準確率。

4) 使用用戶之間的提及關系對用戶?用戶邊加權,不能提高用戶位置推斷準確率,說明用戶的提及次數并不代表用戶位置的緊密度。

5.4 用戶特征向量的可視化

圖4 給出了在GEOTEXT 數據集中隨機選擇的5 個區域內對用戶特征向量進行主成分分析(PCA,principal component analysis)降維后的可視化結果??梢钥闯?,與GELP-MEW 相比,GCN和GELP 的用戶特征向量在不同的位置的可分辨能力較強。與GCN 和GELP-MEW 相比,GELP可以將相同區域的用戶更好地聚集在一起。

6 結束語

本文提出了一種多種提及關系的社交媒體用戶位置推斷方法。通過綜合考慮用戶之間的提及關系、對位置指示詞和地理名詞的提及關系構建異質網絡,探索了異質社交網絡中用戶的位置推斷方法。將異質網絡用于用戶位置推斷是一個新的嘗試,基于異質網絡中豐富的異質信息,可以更全面地捕獲用戶的位置特征,在真實Twitter 數據集上的大量實驗表明,本文提出的方法有效提高了位置推斷的準確率和覆蓋率,降低了平均誤差和中位數誤差。

盡管本文方法獲得了較好的效果,但如何使用更大規模的異質數據源構建異質網絡仍然有待進一步研究。將來的工作中將對此進一步開展相關研究。

圖4 來自GEOTEXT 數據集的5 個隨機選擇區域中的用戶嵌入的PCA 可視化效果比較

猜你喜歡
異質詞語社交
容易混淆的詞語
社交牛人癥該怎么治
基于異質分組的信息技術差異化教學
聰明人 往往很少社交
《拉奧孔》中“詩畫異質”論折射的西方寫實主義傳統
“對賭”語境下異質股東間及其與債權人間的利益平衡
找詞語
社交距離
你回避社交,真不是因為內向
一枚詞語一門靜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合