?

CMDC:一種差異互補的迭代式多維度文本聚類算法

2020-09-08 11:57黃瑞章白瑞娜陳艷平秦永彬程欣宇田有亮
通信學報 2020年8期
關鍵詞:多維度度量約束

黃瑞章,白瑞娜,陳艷平,秦永彬,程欣宇,3,田有亮

(1.貴州大學計算機科學與技術學院,貴州 貴陽 550025;2.貴州省公共大數據重點實驗室,貴州 貴陽 550025;3.貴州省智能人機交互工程技術研究中心,貴州 貴陽 550025)

1 引言

文本聚類,旨在按照文本的相似性自動挖掘文本的結構,是文本挖掘的重要任務,被眾多應用所關注[1]。傳統的文本聚類多從單一的文本內容維度出發,根據文本內容中的語義特征來挖掘文本數據集的結構關系。隨著互聯網和數據分析技術的發展,文本數據的表示逐漸從傳統單一的內容維度向立體的多維度發展[2]。例如,互聯網環境中的新聞文本數據,除表示為以詞向量為代表的傳統內容維度以外,還可表示為新聞文本的主題維度(如新聞用詞所涵蓋的主題),以及新聞文本在互聯網傳播過程中獲得的傳播行為維度(如新聞的轉發用戶、閱讀用戶、點贊用戶等);研究類論文的文本數據除表示為傳統的內容維度以外,還可被描述為論文的研究行為維度,包含論文自身、引用論文和被引論文的作者等。這些多維度文本數據較傳統的表示方式更為全面立體,如何有效利用文本的多維度數據來分析挖掘文本數據集的結構,為傳統文本聚類問題帶來了新的機遇和挑戰。

多維度文本聚類可聯合利用多個維度的信息改善單維度信息在文本聚類上的局限,為文本聚類帶來了機遇。在實際的多維度文本聚類過程中,數據的多個維度特征對文本結構的發現有互補作用,傳統文本內容維度中表現不佳的數據在其他維度可能獲得更好的聚類結果。例如,在面向研究類論文的文本聚類問題中,同領域的研究論文涉及的具體研究細節不同,使論文中的內容和用詞不盡相同,這導致相同領域的論文在傳統文本內容表達維度中具有較大的差異,難以被劃分到同一個聚類分組中。然而在論文的研究行為維度,這些論文普遍被同一批學者所關注,更傾向于被劃分到同一類簇中。相似地,在新聞領域的文本聚類中,被相似人群關注的新聞一般具有相似的主題,但這些新聞文本聚類的內容表示往往因作者寫作風格或新聞事件演變等原因存在差異,增加了新聞文本聚類的難度。

除了機遇,文本的多維度表示亦為文本聚類帶來挑戰。其中,多維度文本聚類的一個核心問題是如何從文本在多個維度的表示中獲得一致的聚類結果。由于文本在不同維度上的表示具有差異性,使文本在維度上的距離測量不一致,導致各維度的聚類劃分不一致。文本表示的差異性主要表現在以下2 個方面:1)不同維度的文本表示中特征的含義不同,例如,新聞內容維度特征主要反映新聞的主題,新聞評論維度特征反映用戶對新聞的態度,新聞行為維度特征反映新聞內容的傳播受眾群體;2)文本表示中的關鍵特征與噪聲特征的分布不同,例如新聞的主題維度中的噪聲信息相對較少,但新聞的內容維度中普遍包含大量的噪聲信息,關鍵特征在距離測量中的貢獻容易被噪聲特征淹沒,且各關鍵特征對距離度量的貢獻各異。因此,如何有效利用多維度文本聚類的互補特性,設計合理的多維度文本聚類算法以彌補多維度聚類結果差異的問題,非常值得研究。

對于不同維度聚類結果不一致的問題,目前多維度文本聚類算法大多采用首先對各維度進行融合表示學習,在此基礎上利用傳統的單維度聚類實現文本聚類的整體劃分,維度表示過程與聚類過程被分割成2 個獨立的步驟,無法利用多維度聚類的互補特點指導各維度特征的貢獻。針對以上問題,本文構建一種差異互補的迭代式多維度文本聚類算法——CMDC(complementary multi-view document clustering)算法,使多維度文本聚類過程與文本維度特征的調整互相促進,利用多維度文本的互補特性彌補多維度文本聚類的劃分的差異,實現聚類與特征調整過程的統一優化。本文需要解決3 個問題,具體如下。

1) 如何從聚類劃分中獲取互補文本,即在維度類簇中聚類意見不一致的文本數據。由于各維度聚類類簇含義不同,不能簡單地認為在各維度聚類結果中未被劃分到同標簽類簇的文本為互補文本。因此,如何挑選維度間的互補文本是本文需要解決的問題。

2) 如何利用互補文本促進聚類的特征調優。各維度聚類類簇關注的關鍵特征不同,需要有效利用互補文本改善各維度的特征在聚類過程中的貢獻,使互補文本在文本的多個維度中呈現一致的聚類結果。

3) 如何使維度特征調優與聚類劃分共同優化。區別于傳統多維度文本聚類算法,本算法將設計聚類劃分與維度特征調優的共同優化,利用維度間的互補文本幫助聚類劃分與維度特征的調優互相迭代促進。

對互補文本的獲取問題,CMDC 算法通過文本對的聚類結果一致性(即是否同屬一個類簇)來判斷文本對在不同維度中的聚類意見,并設計了一個可信因子綜合考慮當前及其他維度中文本對的聚類結果,評估文本對在當前聚類結果的可信程度?;诨パa文本,CMDC 算法以維度的度量一致性來解決多維度文本聚類的劃分一致性問題,通過度量學習調整維度特征對聚類的貢獻,在此基礎上本文提出了基于度量學習的約束文本聚類算法,為各維度的每個類簇設計了獨立的度量矩陣,利用互補文本調節各類簇的度量計算方法,解決因文本差異性造成的維度和類簇間的度量差異。在基于度量學習的約束文本聚類中,設計了聚類與度量學習的共同優化目標函數,面向互補文本實現聚類結果與度量學習的共同調優。最終,令互補文本挑選及基于度量學習的約束文本聚類算法迭代進行,互相促進,提升各維度間聚類結果的一致性。本文采用2 個真實的數據集進行驗證,并與多個先進多維度文本聚類算法進行對比。從實驗結果來看,CMDC 算法可有效地利用多維度數據的互補性改善多維度文本的差異性問題,聚類結果有明顯提升,驗證了算法的有效性。

2 相關工作

多維度聚類旨在通過對可用的多維度特征信息進行組合,以在不同維度之間搜索一致的聚類分配,將相似的主題分到同一類簇中[3]。多維度聚類問題提出[4]以來,相關算法受到了廣泛關注,并運用于文本挖掘和信息檢索等領域。目前,大多算法都是直接關注聚類目標,通過優化算法尋求最佳的聚類解決方案。與聚類算法類似,多維度聚類也分為不同維度的特征表示學習和聚類2 個階段。以是否將2 個階段融合為標準,現有算法被分為2 類。最具有代表性的是利用典型相關分析(CCA,canonical correlation analysis)將多維度數據投影到低維空間融合[5]進行聚類。文獻[6]針對2 個維度的數據,基于協同訓練思想提出了使用某一維度的拉普拉斯算子的特征向量對樣本進行聚類,然后利用聚類結果來修正另一維度中的拉普拉斯算子,直到得到具有足夠結構信息的特征向量,并將其作為下游聚類算法(k-means 或譜聚類等)的輸入。該團隊又從最小化數據不同維度的預測函數出發,將拉普拉斯圖的特征向量矩陣作預測函數,提出了2 種基于協同正則化的多維度譜聚類算法[7]。將數據的多維度信息作為子空間特征,為了使多個子空間獲得一致的聚類結果,文獻[8]通過強制最小化每對子空間系數矩陣來獲得共享公共系數矩陣。近年來隨著神經網絡深入各個領域,基于深度學習框架的多維度聚類算法也不容忽視。文獻[9]和文獻[10]都采用基于深度學習的框架來學習不同維度間的特征表示,進行融合后再運用圖聚類或子空間聚類等方法得到聚類結果。為了改善多維度聚類算法兩階段的斷層,逐步出現了統一特征表示和聚類兩階段的多維度聚類算法。文獻[11]將圖片的每種類型的特征視為一個維度,提出了通過統一不同維度(即圖像特征)來學習共享的圖拉普拉斯矩陣的多模態光譜聚類(MMSC,multi-modal spectral clustering)算法,并直接求解聚類指標矩陣。文獻[12]提出改進的低秩表示模型,可對維度特征空間中的局部數據流形結構進行建模,基于譜聚類實現多維度協議的共同優化。在多維度深度聚類的最新研究中,文獻[13]改進單維度深度嵌入聚類(DEC,deep embedding for clustering analysis)模型[14],利用文本聚類的結果來調整多維度融合參數。文獻[15]運用多維度聚類解決對話意圖來學習任務,提出了同時學習多維度特征表示和優化聚類的算法。目前,統一特征表示和聚類兩階段的多維度聚類算法中尚處于摸索階段,聚類過程與特征表示過程雖然被同步優化,卻忽視了多維度文本數據的差異性表示,未考慮利用具有爭議的聚類文本改進聚類結果的不一致問題。

聚類算法(如k-means 算法)依賴于底層距離函數,針對由多個維度表示組成的高維稀疏的文本數據,通常采用的距離函數或手動調整的度量方式顯然是不適用的。文獻[16]提出距離度量學習算法尋求在半監督或完全監督的設置中自動優化距離函數,其學習目標是優化反映當前問題領域特定概念的距離函數。文獻[17]在文獻[16]的基礎上提出了基于無監督自適應度量學習算法,同時執行聚類和度量矩陣學習。文獻[18]針對度量方式提出了一種非線性度量學習算法,通過學習非參數核矩陣來學習完全靈活的距離度量并用到聚類中。文獻[19]也給出了運用到圖像、分類等任務上的度量學習算法的實證評估,并指出使用依賴成對約束的度量算法可以產生與有監督算法相當的實驗效果。然而,上述基于度量學習的算法都是面向單維度數據的,其約束對或者標簽數據都來自于數據自身。在多維度文本數據的聚類上,文獻[20]將文本數據中其他維度信息與文本維度聚類相結合,文獻[21]則使用了基于輔助數據約束的度量學習算法用于聚類,但這些算法在融入其他維度信息時也帶入了文本噪聲。

3 模型設計

3.1 符號與術語

本文使用的數據集中都是文本數據,為了方便數據及問題的描述,給出如下定義。

3.2 CMDC 算法的整體設計

CMDC 算法利用多維度文本數據的互補性解決因多維度文本數據的差異性帶來的聚類效果低下的問題。CMDC 算法通過識別各維度聚類結果中的互補文本數據來評估這些互補文本數據中的低質量聚類維度,應用于后續的文本聚類過程。在聚類過程中,為各個維度的每個類簇設計了一個度量矩陣,并自動地利用互補文本來調節,使互補文本在多個維度的度量具有相似的結果,以提升多維度文本聚類結果的一致性,最終實現多維度文本聚類整體效果的提升。CMDC 算法的具體過程如圖1 所示。

CMDC 算法包含2 個關鍵組成部分,分別為互補文本挑選和約束文本聚類?;パa文本挑選旨在自動學習每個維度m聚類結果中不一致的文本數據。本文以文本對(x i,xj) (i,j=1,2,…,|D|)來評估聚類結果的一致性,若xi和xj在每個維度結果中都被分配到或都未被分配到同一類簇中,則認為xi和xj的聚類意見一致,否則xi和xj在部分維度中屬于同一類簇,在其他維度中被分配到不同的類簇,則(xi,xj)為互補文本?;パa文本挑選為每個文本維度自動學習互補文本集Cm,其中包含在維度m中聚類質量可信度低的互補文本?;パa文本集Cm將被加入后續的約束文本聚類過程中,對文本聚類進行約束,學習聚類過程中的合理距離度量。通過為各維度的每個類簇k學習不同的局部度量矩陣(i=1,…,|Vm|),來調整各維度中各類簇中各特征的貢獻權重,使關鍵特征在相似度測量中的貢獻權重更高,并相應地降低噪聲特征的影響,最終令互補文本集mC中的文本對在約束文本聚類過程的度量一致,改善聚類結果。約束文本聚類為各維度學習新的聚類分配結果和局部度量矩陣,各聚類分配用于輔助下一輪互補文本挑選。在CMDC 算法過程中,互補文本挑選與約束文本聚類互相促進,循環迭代直至聚類的結果收斂或互補文本的數量達到設置上限,CMDC 算法過程停止。聚類停止后,挑選互補文本最少的維度輸出作為聚類的整體結果。

3.3 互補文本挑選

互補文本挑選重點考慮與維度間聚類結果不一致的文本對(x i,xj)。通過設計可信因子λ(xi,xj)m來估算文本對(x i,xj)在維度m中的聚類可信度,該因子對(x i,xj)當前維度和其他維度的聚類被分配到同一類簇的概率差異進行對比。為減少計算量,首先選取在維度m不屬于同一類簇中,但在其他維度中均屬于同一類簇的文本來計算λ(xi,xj)m,如式(1)所示。

λ(xi,xj)m的值越小,文本對(x i,xj)m在不同維度間的聚類結果的差異越大,(x i,xj)m在維度m的聚類結果中被歸屬于同一個類別的概率越低,在除m以外的其他維度被聚到同類簇的概率越高,則文本對在維度m的聚類可信度越低。因此,通過置信閾值選取λ(xi,xj)m值合理小的文本對。設置閾值τ,并選取λ(xi,xj)m<τ的那些文本對Cm加入后續的約束文本聚類中。

3.4 約束文本聚類模塊

該模塊由約束文本聚類算法構成。針對每一個維度m,互補文本對抽取模塊依賴前序的文本聚類結果,自動學習互補文本集合Cm,互補文本(x i,xj)m∈Cm在單維度的聚類中結果較差。在約束文本聚類中,提出利用Cm改善維度m的聚類結果。在此過程中,需要計算文本與文本之間、文本與類簇質心之間的距離。由于余弦相似計算無法區分特征在距離計算中的貢獻,本文在聚類過程中引入度量學習來進行調整。文本xm與類簇質心之間的度量余弦相似如式(3)所示。

其中,Ωm表示當前維度m的聚類目標,評估當前聚類的總體結果質量;Φm表示約束目標,評估當前維度的互補文本的符合情況。這2 個部分以參數α進行線性連接。Ωm測量Dm中所有的文本數據到其分配類簇的距離,對所有的文本數據以及類簇的質心進行歸一化處理后,Ωm的計算如式(5)所示。

Φm是約束目標,此目標計算互補文本集Cm的符合度。判斷在互補文本集Cm中的文本對是否在聚類中被劃分到一個類別中,若否,則對文本對進行懲罰。以文本對的λ(xi,xj)m結果計算懲罰的程度,具體計算方法如式(6)所示。

其中,Sx表示文本x所屬的類簇;δ表示指示函數,δ(true)=1,δ(false)=0。

本文采用循環迭代機制來計算式(4)所示目標函數的最優解,如算法1 所示。

算法1約束文本聚類算法

輸入數據集D、文本維度m

輸出Dm對應的類簇質心、度量矩陣

1) 初始化類簇起始點。

2) 給定聚類的類簇質心點,根據式(3)計算當前維度的文本到各類簇質心的相似度,選擇相似度最高的類簇分配文本數據。

3) 給定聚類分配。

4) 更新各類簇的質心表示。

6) 跳轉到2)重復直至收斂。

其中,類簇質心根據被分配的所有文本進行更新,計算方法如式(7)所示。

4 實驗

4.1 數據集及評估方法

實驗使用2 個真實數據集以驗證CMDC 算法的有效性。第一個真實數據集是英文論文數據集AMiner。此數據集包含3 個類簇,每個文本表達為2 個維度,其中,以論文的摘要作為摘要維度,以論文的作者及參考文獻的第一作者作為用戶維度。本文爬取同一時期微博、百度和頭條新聞等數據源4 個重要新聞話題的熱點新聞,構成一個多源熱點新聞數據集(MHN,multi-source hot news),作為實驗的第二個數據集。MHN 共涉及3 個維度,包含從新聞的正文中提取的正文維度、從新聞的標題中提取的關鍵內容作為標題維度,以及利用主題模型LDA(latent Dirichlet allocation)提取的主題維度。從數據維度的構成上來看,AMiner 數據集的差異性大于MHN 數據集。表1展示了數據集的詳細信息。

表1 數據集信息

本文使用歸一化互信息指標(NMI,normalized mutual information)來評價實驗的聚類效果,其計算式如式(9)所示。

其中,R={r1,r2,…,rk}表示算法聚類后的簇集合,S={s1,s2,…,sj}表示標準的聚類標簽;I(R;S)=H(R)?H(R|S)表示隨機變量間的互信息,H(R)表示R的熵,H(R|S)表示給定S時R的條件熵。NMI的取值范圍為[0,1],該值越大說明聚類效果越好。

4.2 實驗參數設置

針對AMiner 數據集,考慮用戶維度覆蓋學者和其所研究的領域(即摘要維度)具有一定的一致性,因此利用用戶維度映射得出的表示也具有與摘要維度相同的意義,可以進行降維,達到更好的提煉特征的效果。本文結合深度學習特征的表現方式,將AMiner 數據集提取的用戶維度的特征映射到摘要維度,訓練關于用戶信息的嵌入(embedding)模型并以此來提取用戶維度的特征表示。而對MHN 數據集的標題維度,本文則選用了包含語義信息的BERT(bidirectional encoder representation from transformer)模型[22]做文本表示,使輸入增加語義信息。2 個數據集的其他維度都使用原始的詞頻向量表示。

對于3.2 節中CMDC 算法的停止條件,本文設置互補文本集數量上限為12 000;對于3.3 節中互補文本挑選模塊中的參數,設置置信閾值τ∈(0,1)。為了更完善地捕獲多維度數據的互補性,通過對實驗涉及的 2 個數據集進行統計分析,將{λ(xi,xj)m;(x i,xj)m∈C m,i≠j} 的第三、四分位數設置為當前維度閾值τ(針對不同的數據集特性,該算法需要根據自身任務及經驗設置合適的參數,為獲得足夠數量的互補文本,閾值τ可進行放大)。在本文的實驗中,AMiner 數據集的摘要維度和用戶維度均設置為0.08,MHN 的標題維度、正文維度以及主題維度設置為0.52。

為使當前維度的聚類目標和約束目標同時發揮作用,實驗中,對于式(4)所示的目標函數,本文設置α=0.5。

4.3 對比實驗及結果分析

CMDC 算法的本質是采用質量互補文本挑選模塊及基于度量學習的約束文本聚類模塊迭代進行的,利用多維度文本數據的維度互補性來彌補文本數據在單個維度聚類過程中質量的不足,最終提升各維度間聚類結果的一致性。本文通過2 個數據集共記5 個維度進行分析,從單維度和多維度2 個方面對CMDC 算法進行對比;除此之外,還對CMDC 算法的互補性和一致性進行了探究。

4.3.1 單維度聚類實驗

為驗證質量互補文本挑選和基于度量學習的約束文本聚類的作用,本文選取了幾種對比算法,具體如下。

1) k-means 算法。該算法是傳統無監督聚類,作為單維度聚類性能比較的基線方法;

2) MTCUBC[21](multi-dimensional text clustering with user behavior characteristics)算法。該算法是基于輔助維度的約束信息單向進行基于度量學習的約束文本聚類算法。

實驗設置互補文本對的數目為12 000 條,3 種算法的單維度聚類性能如表2 所示,CMDC算法在所有的維度上都高于 k-means。相比于MTCUBC 算法,在除MHN 數據集的正文維度之外的其他4 個維度上,CMDC 算法分別有0.035、0.117、0.062 和0.135 的提升。同時也分析了不同數據集的提升差異,從k-means 算法的聚類效果可以看出,AMiner 數據集中2 個維度的聚類效果差距較小,而MHN 數據集中不同維度間的差異性雖然較低,但是各維度的性能相差高達0.3。因而在CMDC 算法過程不同維度相互迭代、相互促進的過程中,AMiner 數據集的2 個單維度性能都得到了提高;而在MHN 數據集的3 個維度中,標題維度和主題維度的性能都有了較大的提升,而這種提升在整個CMDC 算法中是以正文維度性能小提升(基于基線方法)為代價的,因此在正文維度,CMDC 算法的性能略低于MTCUBC算法。也正是出于對度量差異的極度不平衡性(而非來源差異性)的考慮,本文在數據預處理階段添加了語義嵌入來降低這種不平衡。在單維度聚類的對比實驗中,CMDC 算法在4 個維度上取得了最好的效果。從CMDC 算法和MTCUBC 算法的差異而言,充分說明本文設計的互補文本集學習策略在聚類過程中是有效的。

表2 單維度聚類性能NMI

4.3.2 多維度聚類實驗

針對多維度數據差異性和互補性2 個特點,除了基線方法外,本文選取了多種算法進行對比。

1) Mv+k-means。對多維度信息進行無差別拼接組合后進行k-means 聚類,作為多維度聚類基線方法。

2) P-MLRSSC 和 C-MLRSSC 。MLRSSC(multi-view low-rank sparse subspace clustering)[23]系列算法通過構造親和力矩陣,學習多維度之間共享的聯合子空間表示來改善多維度文本的差異性問題,本文選取了適用于當前數據集的2 個算法:P-MLRSSC(pairwise MLRSSC)、C-MLRSSC(centroid MLRSSC)用于對比,參數設置請見文獻[23]。

3)MSC_IAS (multi-view subspace clustering with intactness-aware similarity)。為充分利用多維度數據的互補性,Wang 等[24]提出通過集成編碼的補充信息來學習完整空間,記為MSC_IAS。實驗設置參數如下。AMiner 數據集:k=30,d=600。MHN數據集:k=6,d=1 500。參數釋義請見文獻[24]。

同樣設置互補文本對的個數為1 2000 條來驗證CMDC 算法在多維度的效果。由表3 可以看出,CMDC 算法在AMiner 數據集的提升效果最為明顯,其原因是論文在摘要維度中多關注論文解決的實際問題和使用方法,用詞差異大,使用的用戶維度由相關文獻的第一作者組成,其共同關注度更高,AMiner 數據集的互補性更好。相比于AMiner數據集,MHN 數據集的3 個表示維度的關聯度更高,互補性更弱,因此多維度性能提升效果不顯著。

表3 多維度聚類性能NMI

綜合單維度聚類性能,由表 3 可以看出CMDC 算法在不同特點的AMiner 和MHN 數據集上性能都較為穩定,而MSC_IAS 在差異性較大的數據集(AMiner 數據集)的性能低于基線方法,甚至可能導致丟失單維度數據的有效特征;面向文本數據低秩和稀疏等特點,MLRSSC 系列算法也很好地改善了多維度間的度量差異,但相對于使用互補文本學習和約束文本聚類迭代進行的CMDC 算法,聚類性能還有約0.02 的差距。由此證明,CMDC 算法利用多維度文本數據的互補性,有效地解決了因多維度文本數據差異性帶來的聚類效果低下的問題。多維度文本數據聚類的維度來源差異性越大、互補性越好,CMDC 算法的聚類結果越好。

4.3.3 多維度文本的互補效果實驗

本節實驗中,采用逐步提升互補文本對數量的方式來驗證其對多維度聚類結果的影響。實驗結果如圖2 所示,從整體趨勢看,2 個數據集在迭代的過程中都有很好的表現。

圖2(a)所示,在AMiner 數據集中,用戶維度嵌入的特征信息對摘要維度聚類效果的影響表現很穩定,明顯上升后開始進入收斂階段,充分說明在互補性較強的數據集上CMDC 算法效果顯著。反觀MHN 數據集(如圖2(b)所示),正文維度初始聚類NMI 達到0.86,加入挑選互補文本集初期有較為明顯的下降后進入收斂,產生此結果的原因是MHN 數據集的維度之間有較強的關聯性,使正文維度在整體聚類過程中有最好的結果,而從其他2 個維度提取的互補文本數據對正文維度的互補性不強,甚至可能提取了含有噪聲的文本用于互補,導致性能降低。相應地,標題維度和主題維度中包含的特征較少,效果不佳,而從正文維度中可提取更多的互補文本,呈現較明顯的提升趨勢。

4.3.4 多維度文本聚類一致性提升效果實驗

CMDC 算法使用互補文本對挑選和約束文本聚類模塊改善了不同維度之間的差異性問題,使置信度較高的樣本在不同維度中得到一致的聚類結果。其中,互補文本旨在捕獲不同維度的互補性,通過度量學習調整不同維度、不同類簇的測量方式,從而使式(4)所示的目標函數最小化。以數據集AMiner 為例,多維度聚類一致性的趨勢如圖3 所示。

圖3 展示的是AMiner 數據集摘要維度使用3.3 節自動挑選的900 對互補文本進行約束聚類的情況,其中694 對與實際樣本類別一致,206 對為噪聲樣本。在約束文本聚類的過程中,一致的約束互補文本對最高攀升到了568 對,并平均維持在476 對,說明通過CMDC 算法使來自用戶維度的聚類信息運用到了摘要維度,通過約束文本聚類模塊實現了聚類信息的共享;同時統計了在這些一致樣本對中與實際樣本類別相同的數量,可以看出與一致樣本對數量趨勢相同,并且差值保持在90 對左右,這些樣本是會影響聚類的噪聲樣本對。聚類過程中一致樣本對數量的震蕩也是聚類性能趨勢的體現。

圖2 CMDC 算法在2 種數據集的NMI 性能

圖3 多維度聚類一致性趨勢曲線

總體而言,CMDC 算法自動挑選各維度間的測量不一致的樣本作為互補文本,利用基于度量學習的約束文本聚類模塊,通過遞增互補文本促進聚類,提高不同維度間聚類性能的一致性。CMDC 算法過程可以實現改進不同類別形狀達到更好的聚類效果。

5 結束語

本文提出的CMDC 算法是一種多維度文本聚類算法,算法中的互補文本挑選模塊和約束聚類模塊通過相互促進的迭代模式形成整體;有效地利用數據的互補性改善了多維度文本的差異性問題,實現聚類結果與度量學習的共同調優。CMDC 算法是基于度量學習在多維度文本聚類算法的改進,其思路亦可以應用于其他算法中,具有很好的通用效果。

本文算法還有需要進一步改進的地方,未來除了學習互補文本做約束外,將探索不同類簇之間潛在的聚類相關性語義[25],以及在選擇約束文本聚類的過程中,解決由低基線維度導致的互補文本集噪聲問題。

猜你喜歡
多維度度量約束
鮑文慧《度量空間之一》
空間角與距離的多維度解法
“多維度評改”方法初探
代數群上由模糊(擬)偽度量誘導的拓撲
突出知識本質 關注知識結構提升思維能力
度 量
多維度市南
馬和騎師
適當放手能讓孩子更好地自我約束
CAE軟件操作小百科(11)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合