?

多視角子空間學習研究進展

2021-04-21 09:47柳利芳馬園園
安陽師范學院學報 2021年2期
關鍵詞:聚類矩陣算法

柳利芳 , 馬園園

(1.安陽師范學院 教育學院,河南 安陽 455000; 2.安陽師范學院 計算機與信息工程學院,河南 安陽 455000)

0 引言

信息技術的迅猛發展,使互聯網上的信息呈現出指數級增長態勢,一些與大數據相關的概念、理論、技術和方法應運而生??v覽與大數據研究相關的成果和項目不難發現其宗旨均在于:從海量數據中充分挖掘、提取知識性信息,進而為科學決策提供建議和支持[1-2]。大數據在對行業管理和技術帶來革命性變化的同時,也對研究人員提出了更大的挑戰。因大數據固有的“4V”屬性,尤其是其種類繁多(Variety)的特性,僅依靠傳統的技術和方法難以獲取更加符合客觀規律的知識和認識。因此,迫切需要開發多視角學習的方法以從多個維度、多個視角對多源異構數據進行充分挖掘和分析,并有效整合,從而提高對復雜事物認識的水平。

多視角學習是針對多源異構數據而設計的一整套信息融合框架和方法,通過有效的整合算法分析來之于同一對象集的不同特性的信息,從而得出更符合客觀規律和事實的結論。許多學者提出了行之有效的信息融合策略[3],歸納起來,大致分為三類:1)前整合策略(Early Integration),即將來自不同視角的數據通過級聯的方式合成一個獨立的數據表示,然后將其用作模型的輸入[4-5];2)中整合策略(Intermediate Integration),對多個視角的數據表示進行轉化(如計算相似性矩陣),然后將轉化后的矩陣通過相應的組合方式整合并用作模型的輸入[6-7];3)后整合策略(Late Integration),分別對每個視角的數據進行學習并獲得局部結果,然后基于某種準則融合這些局部結果并形成最終的聯合判決[8]。

文章主要討論子空間學習相關算法,并在此基礎上進一步討論這些方法在不同數據集上的表現,并給出了各自的優缺點;最后總結了多視角學習領域面臨的挑戰和未來的發展趨勢。希望通過本文的分析,能夠為多源數據的整合提供方法論上的有益借鑒和參考。

1 基本概念

多視角學習方法論體系中包含諸多分支,如協同訓練[9]、多核學習[10]、子空間學習[11]等。協同訓練其基本思想是利用少量帶標記的樣本,輔助未標記樣本的分類,在訓練過程中逐一選取具有最高置信度的樣本并將其填充到標記樣本訓練集中,通過算法的迭代運行不斷擴展訓練集的范圍從而達到對所有樣本進行分類的目的[9];多核學習其基本思想是通過使用預先定義的核函數(Kernel function),在訓練過程中學習這些核的最優組合參數,以形成一個能用以分類、回歸等任務的合成核。多視角學習體系中的這些分支從學習任務上可將其大致歸結為分類、聚類和回歸,本文主要從聚類的角度來分析和討論現有的基于子空間的多視角學習技術的發展、原理及趨勢。

2 相關算法

基于子空間學習的多視角學習算法旨在通過某種準則(如最大相關系數、最小化目標函數等)來獲得多個視角共享的潛在子空間表示,然后基于這個子空間執行聚類、分類、預測等任務,常應用于文本主題識別、生物信息挖掘、機器翻譯、圖像處理等領域?;谀P图僭O可將其分為線性子空間學習與非線性子空間學習,線性子空間學習以典型相關分析(Canonical Correlation Analysis, CCA)[11]、費舍爾判別分析(Fisher Discriminant Analysis, FDA)等為代表;非線性子空間學習以核CCA(Kernel CCA)[10-11]及圖融合算法[6]為代表?;诙鄠€視角共享子空間的形式可將其分為:最大相關子空間和隱子空間模型。

2.1 基于最大相關子空間的多視角學習模型

該類模型以CCA、Kernel CCA、FDA等為代表,CCA旨在通過最大化典型變量的相關系數(皮爾遜相關),將兩個視角的特征數據映射到低維的子空間中去。

CCA將兩個視角的數據分別投影到Φx1與Φx2上,在確定選擇典型相關變量的數目后,即可在投影子空間中進行聚類、分類、可視化等操作。CCA適用于處理具有線性關系的數據,當原始數據不具備這種特性時,可用Kernel CCA模型來刻畫。

2.2 基于低維子空間嵌入的多視角學習模型

文獻[12-13]分別對多視角學習方法進行了調研和綜述,其中提到子空間嵌入(Subspace embedding)的思想,其實質在于將多個視角的數據同時嵌入(Embedding)到一個共享的空間中,然后再對這個共享的空間降維,屬于中整合的范疇。下面給出幾種典型的算法。

2.2.1 聚類集成(Clustering ensemble,CE)

聚類集成思想[5]最初由Strehl等人提出,通過對每個源的數據進行聚類(局部聚類),然后將這些局部聚類組合起來形成一個中間類,再對這個中間類進行聚類,以生成最終結果。Greene[4]提出了一種基于矩陣分解的聚類集成方法。

該過程可解決多個視角數據不一致的情況,當樣本在不同視角中屬于不同的局部聚類時,集成聚類隱式地將不一致的分割融合為一個明確的聚類。

2.2.2 相似網絡融合(Similarity network fusion,SNF)

該方法由王波等人于2014年提出[6],在疾病分型、文本聚類等任務中具有較好的表現。其思想在于:通過對不同視角的數據構建相似網絡,在保證每個視角所攜帶的信息能夠在其他視角中進行有效傳播和利用的同時對這些相似網絡進行融合,并形成最終的聚類。

2.2.3 其他模型

除了以上模型外,Han等人還提出了一種稀疏的無監督方法用于多視角學習[14],首先通過主成分分析(Principle component analysis, PCA)得到每個視角的低維子空間表示,然后將這些表示級聯起來形成一個新的矩陣,再對這個矩陣進行分解得到最終的聚類指示矩陣。在這個過程中,為了使獲得的解具有更好的解釋能力,作者還對載荷矩陣(Loading matrix)的列與行分別施以L1范式和結構稀疏誘導范式(Structured sparsity-inducing norm)[15]。此外,相對熵也用于描述子空間中的概率分布,在圖像檢索和文本分類任務中取得不錯的效果。

2.3 基于隱子空間(Latent subspace)的多視角學習模型

隱子空間學習模型假設同一數據集的不同視角間共享一個潛在的子空間表示,與低維子空間嵌入模型不同的是:低維子空間嵌入模型是對原始數據或經處理(如核化)后的數據進行整合,并獲得各視角的一致表示矩陣,分類、聚類、回歸等任務是基于中間的整合矩陣而進行的;而隱子空間方法在模型構建之初就假定存在一個共享隱子空間,隨著模型訓練完畢,自動獲取該隱子空間的表示。核信息嵌入(Kernel information embedding, KIE)[16]是隱子空間模型的代表。KIE假定兩個視角的樣本來自一個分布(原始分布),其目的在于通過最大化各視角共享的低維分布和原始分布之間的互信息,來找到不同視角的隱子空間表示;SGPLVM同樣假設兩個原始的觀測空間由一個共同的隱子空間衍生而來,其思想與KIE相同。

最近,基于非負矩陣分解的多視角學習模型也受到了日益廣泛的關注,在圖像處理、文本聚類、生物信息學等領域涌現出了很多代表性的理論和方法,下面對這些方法做一簡單梳理。鄰接的多視角非負矩陣分解(Joint Nonngative Matrix Factorization,JNMF)假設在不視角間存在一個共同的聚類模式(低維子空間表示),其默認不同視角的數據間存在一個共同的子空間表示,其缺陷在于不同視角的數據表示可能會因測量誤差、環境等因素造成其潛在的結構模式不一致?;谝陨峡紤],文獻[17]提出了一種一致的多視角非負矩陣分解模型(Multi-view Nonnegative Matrix Factorization, Multi-view NMF),該模型假設不同視角間存在一致的聚類模式,在信息融合的過程中,各視角潛在的聚類模式都趨近于這個一致的聚類模式。

文獻[18-19]分別從近鄰、加權的圖近似的角度闡釋了基于多圖的多視角學習過程,基于多圖的多視角學習模型其基本假設同JNMF,都默許各視角間存在一個共同的聚類模式;與JNMF不同的是,在多圖融合模型中不僅用圖來刻畫數據之間復雜、微妙的關系,在矩陣分解和學習過程中還容許不同視角之間存在個性差異,把各個視角之間的共性和個性信息統一于模型的構建和訓練之中,更有利于帶來算法性能的提升。

2.4 其他多視角學習模型

除了以上多視角學習模型之外,還有許多其他代表性的方法,如基于對稱非負矩陣分解的多視角聚類模型(Multi-view Symmetric Nonnegative Matrix Factorization,Multi-SNMF)[1, 7]、基于譜聚類的多視角學習模型(Multi-view Spectral Clustering,MSC)[20]等。損失函數聯合優化模型采用同一目標函數同時對多個視角進行聯合優化,在最后決策時可選擇目標函數最小的視角生成的聚類模式作為最終的聚類。這類方法以協同聚類、協同正則化的多視角聚類等為代表。多視角譜聚類(Multi-view Spectral Clustering,MSC)采用譜方法的優良特性,對多個視角的數據進行協同學習等。

3 實驗分析和討論

為驗證多視角學習方法在不同數據集上的性能,本節執行了大量對比實驗,實驗結果呈現在3.2節中?;谝陨嫌懻?,我們在兩個公開的多視角數據集上對基準算法和最近幾年涌現出的一些新算法執行了大量實驗,比較了它們在精度(Accuracy,AC)和標準互信息(Normalized mutual information,NMI)兩個指標上表現。

3.1 數據集

1.“Three-source”新聞故事數據集。收集來自BBC、Reuters和Guardian三個在線網站的新聞故事,共包含169個新聞故事。通過手工標注將這三個來源的新聞故事分為6個主題類型:商業、娛樂、健康、政治、體育和技術,更多細節可參見文獻[4]。

2.“Human Microbiome Plan,HMP”數據集。該數據集來自“HMP”網站http://hmpdacc.org/,包含三個視角的成分數據:進化譜(phylogenetic profile)、豐度譜(Abundance profile)和代謝譜(Metabolic profile)數據,采自人體7個不同部位(腸道、鼻腔、產道、耳后折痕、牙菌斑、舌背和頰黏膜)的637個樣本組成。

3.2 實驗結果和討論

本節實驗比較的方法有:最優的單視角和最差的單視角(BSV;WSV);協同正則化的多視角譜聚類算法(MSC);協同訓練的多視角譜聚類(Co-training multi-view spectral clustering,Co-training SC)[20];基于相似網絡融合的方法SNF[6]、RSNMF[7];基于隨機深林(Random forest,RF)和SNF而構建的一類多視角聚類方法(RSNF_Bi、RSNF_Unfm、RSNF_Adpt)[19];基于矩陣分解的方法Multi-view NMF[8]、JNMF、LJ-NMF、LJ-SNMF[17]等。

表1 真實數據集上的性能比較

如表1所示,RSNF_Adpt、RSNMF在兩個指標上表現最好,說明了魯棒的關聯矩陣的構建會帶來模型性能的顯著提升;需要指出的是在利用RF生成相似矩陣時,訓練模型所需的時間開銷會隨著樹的數目的增多而急劇增加,而RSNMF方法效率相對會高出很多;對于Multi-view NMF、JNMF與LJ-NMF而言,在處理具有復雜關系的數據時(如HMP數據,人類微生物組會受到來自腸道環境、飲食和其他微生物物種的影響),用線性關系來刻畫微生物數據的結構模式,效果往往不是十分理想;而對于MSC和Co-training SC,最后生成的子空間是正交的,因此每個特征向量都包含有負元素,造成其解釋意義不強;在基于NMF的算法中,其生成的低維子空間中元素的值都是非負的,是一種“軟聚類”方法,更符合客觀世界中同一個對象具有多個角色的事實,如社交網絡中同一個人可能擁有多重身份或社會任職、微生物網絡中同一分類的微生物可能在不同的模塊中行使不同的功能。

隨著多源異構數據的日益增多,近年來涌現出許多新的整合理論和方法,如考慮不同視角間差異和共性的多視角聚類方法、異構網絡融合方法等,限于篇幅,不再一一詳述。需要注意的是在選擇子空間學習算法時,應根據學習的任務和數據的特性選擇或設計不同的算法。

4 結論與展望

多視角學習方興未艾,在提高算法性能和結果可解釋性方面尚有許多工作需要開展,主要表現在:

1.體現視角差異與共性的模型構建。不同視角的數據表示可能受測量工具、外在環境、主觀因素等的影響,造成其潛在的聚類模式的差異。因此,應同時兼顧跨視角的共性信息和不同視角攜帶的個性信息,并將其統一于模型構建過程之中。

2.異構網絡模塊挖掘與關聯[21-22]。多視角聚類在異構網絡模塊挖掘與關聯中發揮了愈來愈重要的作用,然而,在異構模塊數目的識別、關聯與解釋性方面中尚有許多工作有待解決,如在微生物互作用網絡中如何確定微生物模塊的數目;生成的微生物模塊是否有聚類意義及如何判定是否顯著等。

3.基于半監督的多視角子空間學習。在模型構建中,融入先驗知識往往能帶來算法性能的顯著提升,如何充分利用任務相關的領域知識或背景信息,設計有效的基于半監督的多視角學習算法是研究人員需要考慮的一個問題,也是我們未來研究的一個主要思路。

猜你喜歡
聚類矩陣算法
一種傅里葉域海量數據高速譜聚類方法
基于知識圖譜的k-modes文本聚類研究
哪種算法簡便
一種改進K-means聚類的近鄰傳播最大最小距離算法
基于模糊聚類和支持向量回歸的成績預測
Travellng thg World Full—time for Rree
多項式理論在矩陣求逆中的應用
算法框圖的補全
算法初步知識盤點
矩陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合