?

面向網絡數據的Elastic Net回歸模型

2023-06-05 09:14蘇美紅
關鍵詞:正則個數變量

蘇美紅

(太原科技大學 計算機科學與技術學院,山西 太原 030006)

0 引言

線性模型作為一種經典的機器學習算法,不僅具有較為簡潔的表示形式,而且具有較好的可解釋性。傳統的線性模型,通常是基于獨立同分布假設的,忽略了數據之間的關聯性,從而不能有效地適用于網絡數據問題。然而,當前大數據時代,事物及其關聯前所未有地以數據的形式被記錄和收集,因而產生了大量的網絡數據[1]。如何合理地將網絡數據中包含的關聯信息融入到回歸模型中,以進一步提高線性模型的泛化性能,是機器學習領域一個重要的研究課題。

網絡數據已廣泛存在生活中的方方面面,如生物制藥、智能交通、電子商務、疫情防控等[2]。網絡數據作為一種數據表現形式,能夠有效地刻畫和描述數據之間的關聯性?;诖?,面向網絡數據的回歸模型引起了學者們的廣泛關注。目前已有的基于網絡數據的回歸模型均是基于屬性之間的關聯性,忽略了輸出變量(或標簽)之間的潛在結構信息,進而影響了回歸模型預測的準確度。近期,Network Lasso[3]通過構建含有輸出變量之間的網絡結構圖,并利用平方損失和L1正則化對參數進行選擇和估計,為解決上述問題提供了一種新思路。然而,當變量之間相關性較強時,該方法的性能會明顯減弱;而且面向高維小樣本數據,容易導致模型過度稀疏化。為解決上述問題,基于含有輸出變量結構信息的回歸模型,本文提出了面向網絡數據的Elastic Net 回歸模型。該模型主要包含有平方損失函數項和Elastic Net 正則項兩部分,第一部分平方損失函數項既包含有樣本屬性信息,又包含有樣本輸出變量之間的結構信息;第二部分Elastic Net正則項由L1和L2組成,前者具有變量選擇能力,后者可以處理共線性問題,并且具有一定的穩定性。綜上,所提模型有效地解決數據共線性以及模型過度稀疏問題,從而進一步提高了回歸模型預測的準確性和可解釋性。其主要貢獻如下:

(1)構建了一種含有樣本結構信息的回歸模型,避免了傳統線性模型獨立同分布的基礎假設。

(2)提出了一種面向網絡數據的回歸模型算法,既包含網絡數據的結構信息,又能夠有效處理強相關性問題,避免了模型過度稀疏化。

1 面向網絡數據的回歸模型

網絡數據[4]通常用圖來表示,圖中每個節點代表一個具體的網絡實體,如社交網絡中的一個用戶;節點之間的連接邊代表實體之間的關系,如兩個用戶之間的好友關系。近十年來,隨著數據采集技術的蓬勃發展,數據不僅呈現出了上述網絡結構的特點,而且具有高維性。因此,如何有效地分析或處理高維網絡數據成為了機器學習、計算機科學、生物信息等領域的研究熱點[5-7]。目前關于網絡數據的研究主要集中在兩個方面,一方面是關于網絡結構的研究[8-9],另一方面主要考慮將網絡數據中的結構信息與機器學習中常用的經典模型相結合[10-11]。前者旨在根據數據估計未知的網絡結構,典型的方法有罰似然估計和鄰居選擇方法[12]。后者主要是利用機器學習模型對網絡數據進行分析,以便作進一步推斷或預測。本文將重點關注于后者,具體地,本文將聚焦于回歸模型與網絡結構信息相結合的研究。

高維性已經成為了網絡數據的基本特點之一,高維問題的本質特點是具有稀疏性,即數據表面上維數很高,但本質上具有低維結構[12]。以高維線性模型為例,雖然輸入變量的維數或屬性個數遠大于樣本數,但事實上,對輸出變量有重要影響的屬性很少。正則化方法的提出,為求解高維問題提供了一種有效的途徑。在此基礎上,以Lasso 為代表的一類回歸模型具有了變量(特征)選擇能力,如自適應Lasso[13]、LAD-Lasso[14]、SCAD[15]等?;诨貧w模型的網絡數據分析也引起了相關學者的注意。例如,Zhu 和Levina 等[16]提出了一種網絡鏈接數據的預測模型,他們在個體模式效應中引入了基于網絡的懲罰,以表示鏈接節點的預測因子之間的相似性,該方法是點估計問題的回歸版本[17-18]。此外,在貝葉斯框架下,該方法可解釋為應用高斯馬爾可夫隨機場作為先驗的網絡回歸問題。在經濟學中,Manski[19]對社交網絡展開研究;Asur 等[20]通過研究網絡結構來對現實生活場景進行預測。上述工作利用回歸模型對網絡數據進行了有效的分析,由此也表明網絡數據在回歸模型中重要的研究價值。然而,考慮樣本輸出變量的網絡結構信息尚未得到充分的研究。尤其在回歸模型構建中,并未合理利用輸出變量之間的網絡結構信息。近期,Su 等[3]通過網絡圖將樣本之間存在的潛在結構信息引入的回歸模型中,提出了Network Lasso 模型,通過網絡圖將樣本鄰近信息加入回歸模型中,提高了模型的預測精度;另一方面,在估計回歸模型參數時,通過L1正則項達到了變量選擇的能力。然而,上述方法存在明顯不足,一方面缺乏穩定性,容易導致較大波動;另一方面忽略了變量之間的共線性問題,從而使得回歸參數估計的準確度降低,進而影響了回歸模型的預測精度。

針對上述問題,本文提出了一種新的基于L1和L2正則項的Network Elastic Net 回歸模型,前者L1正則項能夠保證模型的稀疏性;后者L2正則項既可以保證模型的穩定性,又能夠有效解決變量之間的共線性問題。

2 Network Elastic Net回歸模型

線性回歸模型形式簡單、易于建模,同時蘊含著機器學習中一些重要的基本思想,很多功能更為強大的非線性模型可在線性模型的基礎上通過引入層次結構或高維映射而得到[21]。此外,由于線性模型中的回歸參數直觀地表達了各個輸入變量或屬性特征在預測中的重要性,從而使得線性模型具體很好地可解釋性。

2.1 線性回歸模型

線性模型通常具有如下形式:

其中Y=(y1,y2,…,yn)∈Rn為n維響應向量,yi(i=1,2,…,n)表示第i個樣本的輸出值,n為樣本個數;X=(X1T,…,XjT,…,XpT)∈Rn×p為設計矩陣,p為輸入變量個數,Xj=(x1j,x2j,…,xnj) 表示第j個輸入特征;β=(β1,…,βp)T∈Rp為回歸模型參數;ε=(ε1,ε2,…,εn)T為模型誤差向量。當參數β確定后,模型得以確定。因此,根據給定數據集估計回歸參數是線性模型的根本目標。

經典的回歸模型參數估計方法為最小二乘估計(Least Squares estimator,LS)[22],即

正則化方法[23]始于20 世紀40 年代積分方程的研究。近年來,正則化已成為稀疏建模和變量選擇的有效方法,其基本思想為在目標函數上加入關于模型參數的懲罰函數項或正則化項來降低模型的復雜度,其中基于最小二乘的正則化模型應用最為廣泛,如Lasso[24]。Lasso(Least Absolute Shrinkage and Selection Operator)是Tibshirani 提出的基于平方損失的正則化方法,能夠同時實現變量選擇和模型參數估計。其模型如下:

其中λ≥0 為正則化參數,為參數向量β的L1范數。

Lasso 回歸使用L1范數作為懲罰函數項,通過對參數β施加一定的約束,使得部分參數取值為0,從而實現了變量選擇的能力。在此基礎上,各種不同的懲罰函數被提出,從而產生了多種不同的正則化回歸方法,如L1/2[25],Adaptive Lasso[26],Elastic Net 回歸[27],SCAD(Smoothly Clipped Absolute Deviation)[28],MCP(Minimax Concave Penalty)[29],Hard 閾值罰[30]等等。上述正則化回歸模型均具有變量選擇的能力,因而被廣泛應用于矩陣分解[31],多標簽學習[32],多目標學習[33]等。此外,上述方法還可用來處理不平衡數據。進一步,面向網絡數據的正則化方法也引起了相關學者的關注[34]。

2.2 Network Elastic Net模型構建

為提高模型預測的準確性,在擬合過程中,不僅考慮每個樣本的預測變量xi對其響應變量yi的影響,同時考慮其鄰接樣本yj(j=1,2,…,n) 對其產生的影響,具體構建模型如下:

其中i=1,2,…,n,yi代表第i個響應變量,xi代表第i個預測變量,εi為模型誤差,β∈Rp為對應的p維待估回歸參數,yj(j∈Mi)表示與yi具有連接關系的響應變量,αj為相應的影響系數,Mi表示與yi相連接的響應變量組成的集合,即Mi={j|(yi,yj)∈E)}。

為便于理解與計算,本文假設第i(i=1,…,n)個響應變量yi的所有連接變量yj對其有相同的影響,并令其為α,即αj=αj'=α(j,j'∈Mi)。從而,構建模型如下:

進一步,為估計未知回歸參數β,本文考慮如下正則化估計:

其中第一項為損失函數項,度量學習結果在數據上的誤差損失;第二項為L1正則項,能夠保證模型的稀疏性;第三項為L2正則項,具有強凸性,因而參考文獻[27]中引理2,可知當數據中的因變量xi1和xi2具有相關性時,該模型有能力將xi1和xi2同時選出或剔除,即具有組變量選擇的能力;λ1和λ2為大于0 的正則化參數,λ1越大,模型的稀疏性越強。

將回歸模型(1)重新整理成矩陣形式如下:

其中矩陣A∈Rn×n為圖G的鄰接矩陣,如果(u,v)∈E,則Auv=1,否 則Auv=0;ε=(ε1,ε2,…,εn)T為n維模型誤差向量,εi服從高斯分布。相應地,模型(2)重新整理如下:

由Zou 等[27]可知,L1+L2范數稱為Elastic Net 正則項(或罰函數),故將式(3)稱為面向網絡數據的Elastic Net 回歸模型,即Network Elastic Net 模型。特別地,當λ2=0 時,上述模型即為Network Lasso。與Network Lasso 相比,文所提模型增加了L2正則項,L2正則項是各個元素的平方之和,具體強凸性,因而本文所提模型具有組變量選擇的能力。

其中γ∈(0,1),當γ=1 時,上述模型即為Network Lasso。顯然,對于模型(3),參數λ1∈(0,∞),λ2∈(0,∞);而在上式中λ1∈(0,∞)且γ∈(0,1)。因此通過引入參數γ可降低模型參數選擇的難度,提高計算效率。

2.3 Network Elastic Net模型求解

本小節詳細介紹所提模型(3)的求解算法,本文分別考慮影響系數α已知和未知兩種情況。為便于理解,對(3)式進行推導。

(1) 當α已知時,本文采用坐標下降法求解回歸參數β,具體如下:

對上式右邊求導,并令所求導數為0,可得

其中若βj>0,則e=1;若βj<0,則e=-1。

對上式進一步整理,可得

其中Shrink[u,η]=sgn(u)max(|u|-η,0)。

進一步,可得

(2)當α未知時,本文采用交替迭代和坐標下降法進行求解。

首先,固定β,求解α如下:

根據坐標下降法,可求得

其次,固定α,求解β,所得結果同(4)。

因此,當α未知時,交替迭代公式(4)和(5)可分別求得參數α和β,直到收斂。

綜上,求解Network Elastic Net 的算法步驟如算法1。

算法1 Network Elastic Net 模型求解算法輸入:數據D={(xi,yi })n i=1,參數γ ∈(0,1),正則化參數λ,迭代誤差δ,鄰接矩陣A。輸出:回歸參數β 和影響系數α。Step 1.初始化:給定初始值β0。Step 2.Repeat根據公式(1.5)更新α。根據公式(1.4)更新β。Until■■β?k-β?k-12 ≤δ。

3 Network Elastic Net回歸模型

本節通過人工數據集上的實驗來驗證所提模型Network Elastic Net 的有效性,并與Network Lasso 和Lasso 進行比較。此外,為了盡可能準確全面地利用樣本之間的網絡結構信息,本節考慮三種最常用的網絡結構圖,分別為Scale-Free(SF)網絡,Hub 網絡和Erd?s-Renyi(ER)網絡。具體結構形式如圖1。

圖1 樣本量n=100的三種網Fig.1 Three kinds of network graph with n=100

3.1 數據集及評價指標

本文參考文獻[3]生成實驗數據,具體假定樣本量個數n=100;預測變量維數p=50,100,200,300,400;設計矩陣X中的每一行服從正態分布N(0,Σ),Σ=(σij),σij=0.5||i-j;模型誤差εi服從標準正態分布N(0,1),真實回歸系。在此基礎上,響應變量Y按

生成,并固定α=2;A為上述網絡結構圖的鄰接矩陣。

此外,定義幾個評價指標如下:

(1)Lq損失:;

(3) 變量選擇個數N:N=#{j:j≠0};

(4)F1-score:2TP/(2TP+FP+FN)。其中TP=#{j:β0j=0,且j=0};FP=#{j:β0j=0,且j≠0};FN=#{j:β0j≠0,且j=0}。

針對每一種網絡圖,首先比較了不同γ值對所提方法的影響,分別考慮了γ=0.2,0.35,0.5,0.65,0.8 等5 個不同的值。其次研究了不同維度下本文所提方法的預測與變量選擇能力。最后將本文所提模型Network Elastic Net(E-Netlasso)與Network Lasso(Netlasso)、Lasso 進行了比較,以此驗證所提方法的有效性。下面分別以三種網絡圖為例進行具體的分析和討論。

3.2 SF網絡

3.2.1 參數γ對模型的影響

本小節研究γ值對E-Network 模型的影響,具體包括模型預測準確度和變量選擇能力兩方面,實驗結果如圖2 所示。

圖2 SF網絡中γ對模型的影響Fig.2 Influence of γ in SF network on the model

圖2(a)給出了本文所提方法在不同維度下取得的L2損失值隨參數γ的變化情況,進而衡量本文所提方法在不同γ值下的預測效果。由圖可知,當樣本維度p=50 或100 時,L2損失值在0.5 處取得最小值,即E-Network 的預測準確度最高;當p=200 時,隨著γ的增大,L2損失值減小并趨于穩定;當p=300 時,L2損失值基本取得了相同的值;當p=400 時,L2損失值在γ=0.2 和0.5 之間基本相同,隨著γ的增大,L2損失值先增大后減小。整體而言,當維數較高(大于樣本個數)時,本文所提方法E-Network在不同的γ值下所得誤差基本相同,由此表明參數γ對E-Network 影響較為穩定。當維數較低時,E-Network 在0.5 處取得最小損失值,此時預測精度最高。

圖2(b) 展示了本文所提方法在不同γ值下的變量選擇結果。由該圖可知,當樣本維度p=50 時,隨著γ的增大,F1 分數值逐漸增大,在γ=0.65 處達到最大;當p=100 時,F1 分數值在γ=0.5 處達到最大;當p=200 時,隨著γ的增大,F1 分數值先增大后減小,在γ=0.35和0.65 處達到最大,在γ=0.2 處最??;當p=300 或400 時,F1 分數值均在γ=0.5 處取得最大。綜上可得,參數值γ對本文所提方法在變項選擇方面較為敏感。綜上可得,當γ=0.5時,E-Network 在預測準確度和變量選擇方面均取得了較好的結果。更為全面詳細的實驗結果請參見附錄2 表1。

3.2.2 不同p值下的實驗結果

本小節研究了本文所提方法隨樣本維度p的變化情況。為使得結果更加清晰明了,固定γ=0.5,結果如圖3 所示。

圖3(a) 給出了L2損失值隨p的變化情況,從圖中可以看出隨著維數的增大,L2損失值越來越小,即本文所提方法的預測準確度越來越高。由此說明E-Network 在高維情況下表現效果更好。圖3(b)和3(c)分別從變量選擇個數N 和F1分數值兩方面展示了E-Network 在變量選擇方面的能力。由圖(b)可知,當p=100 或400 時,所選變量比較少;當p=200 或300 時,所選變量幾乎相等;當p=50 時,介于上述兩者之間。由圖(c)可知,隨著維數的增高,變量選擇的準確度越來越高。由此可得,當p=100 時,E-Network 選擇了較少的變量且準確度較低;當p=50 時有類似的結果;當p=200 或300 時,模型所選變量個數較多,但準確度較低;當p=400 時,E-Network 所選變量個數最少且準確度最高,即所選的非零變量與真實的非零變量比較一致。綜上可得,當樣本維數較高時,E-Network 在模型預測精度和變量選擇方面均取得了較好的結果。

3.2.3 三種方法的比較結果

本小節將所提方法E-Network 與Lasso 及Netlasso 進行比較,具體結果與分析如下。

圖4 給出了三種方法在不同維度下的損失值和變量選擇結果。由圖4(a)可得,隨著維數的增加,Lasso 和Netlasso 的L2損失值先減小后增大,后又減??;而E-Netlasso 的L2損失值持續減小,且遠小于Lasso 和Netlasso。圖4(b)和4(c)顯示,在p=50,200,300 的情況下,本文所提方法的變量選擇效果優于其他兩種方法;在p=100 時,Netlasso 表現最好,E-Netlasso 次之;在p=400 時,Lasso 表現最好,E-Netlasso 表現最差,其原因在于參數γ和λ的選擇較大,從而使得其稀疏性更強。

綜上可知,無論是低維數據,還是高維數據,本文所提方法均取得了最小的損失值,從而說明本文所提方法E-Network 具有更為準確的預測效果。在特征選擇和模型選擇方法,本文所提方法均可以取得最優或與次優的結果。整體而言,相比于Lasso 和NetLasso,E-Network在預測和變量選擇方面均有較好的效果,尤其對于高維數據。由此說明,該方法能夠更好地處理變量的共線性問題,進而進一步提高模型預測的準確度。

3.3 Hub網絡

3.3.1 參數γ對模型的影響

下圖展示了L2損失值和F1 分數值隨參數γ的變化情況。

由圖5(a)可得,當p=50 或100 時,E-Network 的L2損失值隨γ的變化波動比較大,其中p=50 時在0.35 處取得最小值,0.65 處次之,0.2處為最大;p=100 時在0.65 處,L2損失值最大,在0.35 和0.5 處幾乎相等且最小。當p大于等于200 時,隨著γ的增大,L2損失值基本趨于穩定,尤其當p=300 或400。圖5(b)給出了ENetwork 模型不同維度下F1 分數值隨γ的變化情況。當p=50 和100 時,隨著γ值的增大,F1分數值的變化趨勢基本一致,且均在0.2 處和0.65 處取的了幾乎相等的最小值。當p=200時,在0.5 處變量選擇效果最好,在0.35 和0.65處最差。當p=300 或400 時,隨著γ的變化,F1分數值幾乎保持不變且取值較大。綜上可得,本文所提模型在預測和變量選擇方面,當樣本維數較低時,受γ影響較大;當維數較高時,對參數γ敏感度較小。更為全面詳細的實驗結果請參見附錄2 表2。

3.3.2 維度p對模型的影響

本小節研究了樣本維度p對模型的影響。類似地,固定γ=0.5。

圖6(a)展示了所提模型在不同維度下的預測效果,圖6(b)和6(c)分別給出了所提模型在不同維度下的變量選擇個數和F1 分數值,用來衡量E-Network 模型的變量選擇能力。由圖(a)可知,隨著維數的增高,E-Network 的損失值呈下降趨勢,在p=300 處取得最小,隨后略有增高,但均遠小于p=50 時所得損失值。由圖(b)可知,當p=400 時,所選變量個數最接近于真實值,且由圖(c)可知F1 分數值也較大,即模型可以以很大的概率選出與真實模型一致的非零變量。類似地,從圖(b)可知當p=50 到300 時,模型所選變量個數遠遠小于真實的值。同時由圖(c)可知,F1 分數值隨著維度的增高而增大,即當p=300 時,雖然模型所選變量個數較少,但精度較高;相反地,當p=50 時,模型所選變量個數較少且精度很低。

3.3.3 三種方法的比較結果

將本文所提方法E-Network 與Lasso、Netlasso 進行了比較,具體結果與分析如下。

圖7(a)給出了三種模型的L2損失值,用來衡量各個模型預測的準確度。由圖(a)可知,本文所提模型的L2損失值遠小于其余兩種模型,尤其當p=300 時。且整體而言,隨著維度的變化,E-Netlasso 模型的L2損失值波動較小,相對比較穩定,其次是Netlasso,Lasso 表現最差。圖7(b)和7(c)分別展示了三種模型的變量選擇個數和F1 分數值,用來衡量模型的變量選擇能力。由(b)可知,除p=300 外,E-Netlasso 取得的變量個數均最接近于真實值。由圖(c)可知,E-Netlasso 所得F1 分數值隨維數的增高而增大,且均大于其余兩種模型所得值。當p=300 時,Netlasso 所選變量個數最接近于真實值,但由圖(c)可知其準確度較小。綜合(b)和(c)可得,E-Netlasso 在變量選擇方面可取得最優或次優。綜上可得,E-Netlasso 在回歸模型預測和變量選擇方法均優于Netlasso 和Lasso。

圖7 ER網絡中γ對模型的影響Fig.7 Influence of γ in ER network on the model

3.4 ER網絡

3.4.1 參數γ對模型的影響

圖8 展示了L2損失值和F1 分數值隨參數γ的變化情況。

圖8 SF網絡中γ對模型的影響Fig.8 Influence of γ in ER network on the model

類似于Scale-free 網絡和Hub 網絡,當維度較低時,E-Netlasso 對參數γ較為敏感,尤其在模型預測方面。當維度較高時,E-Netlasso 模型受參數γ影響相對較小。更為全面詳細的實驗結果請參見附錄2 表3。

3.4.2 維度p對模型的影響

圖9 給出了固定γ值,E-Network 隨p變化的L2損失值、變量選擇個數及F1 分數值。由圖(a)可得,隨著維度的增大,L2損失值逐漸減小,在p=400 處取得最小值。由圖(b)和(c)可得,當p=300 時,所選變量個數大于真實值,但正確率略有偏小。當p=400 時,所選變量個數小于真實值,但正確率相對較高。當p=50 時,變量選擇個數及正確率均最差。綜上進一步可得,本文所提模型在高維情況下在模型預測和變量選擇方法均較好。

圖9 Hub網絡中p對模型的影響Fig.9 Influence of p in ER network on the model

3.4.3 三種方法的比較結果

圖10 展示了三種模型的L2損失值、變量選擇個數及F1 分數值,用來比較三種模型的預測和變量選擇能力。顯然,在預測方面,由圖(a)可知,E-Netlasso 要遠遠優于其他兩種模型。結合變量選擇個數和F1 分數值,E-Netlasso 同樣可以達到最優或次優。綜上,當鄰接矩陣為ER網絡圖時,本文所提方法仍可取得最好的實驗結果。

圖10 Hub網絡下三種模型的比較Fig.10 Comparison of three models under ER network

4 實際數據分析

本節將所提方法應用于房屋價格預測數據來驗證其有效性。該數據來源于R 語言中的igraph 包,記錄了2008 年5 月某地區一周內的房地產交易信息,共包含有985 個交易數據。每項交易中包括緯度、經度、臥室數量、浴室數量、房屋面積和銷售價格等信息。

在實驗中,將價格和所有屬性均進行了標準化處理,使其均值為0,方差為1。實驗中隨機選用200 個數據作為測試集,剩余數據作為訓練集。此外,本節根據每個房子的經度和緯度坐標來構建訓練集和測試集上的網絡圖結構,對于任一樣本i,其相鄰個數g分別考慮3,5,7,10,所有的,即g=3,5,7,10,All 多種情況。對于影響系數α,本文選用與兩房屋之間距離成反比的權重值連接。需注意的是,如果房屋j在房屋i的最近鄰集合中,那么無論房屋i是否是房屋j的最近鄰居之一,它們之間都存在一條無向邊。進一步,本實驗使用樣本內平均平方預測誤差 (In-sample mean squared prediction errors)和樣本外的平均平方預測誤差 (Out-sample mean squared prediction errors)來評模型的優劣?;谀M實驗結果,選取參數γ=0.5。

首先,比較了 Lasso,Netlasso 和E-Netlasso三種方法在各個g下的實驗結果。在此,僅對g=3 的實驗結果進行詳細的分析討論,其余幾種情況將在附錄中給出其實驗結果。

圖11 給出了樣本連結個數為3 時的實驗結果。由圖11 可知,無論是在測試集上,還是在訓練集上,本文所提方法都取得了最小的均方誤差值,Netlasso 次之,Laaso 表現最差。由此可知,在構建回歸模型時,加入樣本的網絡結構信息有利于提高回歸模型預測的準確度。

圖11 g=3時三種模型的比較Fig.11 Comparison of three models under g=3

其次,分別比較了Netlasso 和E-Netlasso 兩種方法在各個相鄰個數下的實驗結果。

圖12 分別給出了Netlasso 在樣本連接個數分別為3,5,7,10,All 五種情況下的測試集和訓練集上的均方誤差值。由此可以看出,當個數為10 時,Netlasso 表現最好;當個數為3 時,Netlasso 表現最差,當考慮所有樣本時,其表現次之。當樣本個數為5 和7 時,Netlasso 取得了幾乎相近的均方誤差值,尤其在訓練集上。值得注意的是,在訓練集上取得的誤差值略小于測試集上,其原因或許在于樣本量的大小對其產生的影響。

圖12 不同g下Netlasso的實驗結果比較Fig.12 Performance of Netlasso under different g

圖13 分別給出了E-Netlasso 在不同樣本連接個數下的測試集和訓練集上的均方誤差值。同樣的,當g=10 時,本文所提方法表現最好;當g=3 時,表現最差。此外,由圖(b)可知,當g=5,7,All 時,Network Elastic Net 具有相近的表現效果,且均大于在g=10 時取得的誤差值。由此說明,當利用網絡結構圖構建回歸模型時,其連接個數的數量對結果的影響尤為重要。因此,如何有效合理地選取合適的樣本連接個數值是值得探討的。

圖13 不同g下E-Netlasso的實驗結果比較Fig.13 Performances of E-Netlasso under different g

5 結語

為了有效處理網絡數據中的變量相關性問題,本文提出了一種面向網絡數據的Elastic Net回歸模型。該模型既具有變量選擇的能力,又能夠有效處理變量的相關性問題。進一步,所得研究結果表明,本文所提方法無論是預測損失還是變量選擇的準確性都有明顯改善,尤其面向高維網絡數據。

本文所提模型為具有強相關性變量的網絡數據提供了一種新的解決思路。此外,在回歸模型構建中加入樣本鄰接樣本信息能夠提高模型預測的準確度,然而,如何選恰當地選擇鄰接樣本個數仍是值得探討的重要問題之一。

猜你喜歡
正則個數變量
怎樣數出小正方體的個數
抓住不變量解題
也談分離變量
等腰三角形個數探索
怎樣數出小木塊的個數
剩余有限Minimax可解群的4階正則自同構
怎樣數出小正方體的個數
類似于VNL環的環
SL(3,3n)和SU(3,3n)的第一Cartan不變量
有限秩的可解群的正則自同構
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合