?

邊緣計算網絡中區塊鏈賦能的異步聯邦學習算法

2024-01-27 06:56黃曉舸鄧雪松陳前斌
電子與信息學報 2024年1期
關鍵詞:信譽算力時延

黃曉舸 鄧雪松 陳前斌 張 杰

(重慶郵電大學通信與信息工程學院 重慶 400065)

1 引言

據GSMA預測,2025 年全球物聯網設備將達250 億臺,海量數據處理請求成為亟待解決的問題[1]。機器學習(Machine Learning, ML)可從用戶環境等多樣特征中挖掘出復雜的“模式和見解”[2]。ML的復雜計算推動了邊緣計算網絡(Edge Computing Network, ECN)的發展,為減輕云端負荷并減少任務反饋延遲,將任務卸載到邊緣節點 (Edge Nodes, ENs) 計算[3]。此外,用戶對隱私保護的關注日益提升,使得數據本地化處理成為當前熱門研究方向[4]。

聯邦學習 (Federated Learning, FL)允許多個設備在保證用戶隱私的前提下共享模型參數[5],由此受到多方關注,其性能優化方案層出不窮。文獻[6]引入信譽機制,根據時間序列來預測信譽值,篩選高質量節點參與FL任務,提升訓練性能。文獻[7]提出一種異步聚合FL方式,可在收到模型更新后可立即聚合,無需等待所有節點完成本地訓練,提高訓練效率。但是,設備上傳模型的時間和質量不確定,異步FL性能不穩定。為克服性能回退,文獻[8]提出一種半異步FL,可自適應調整本地迭代數以解決掉隊者問題??紤]到異步FL的復雜性,一些學者在網絡結構上尋求突破。文獻[9]發現神經網絡深層參數的更新頻率需求低于淺層,基于此特性,提出了時間加權的異步FL,使用不同頻率更新深淺層模型參數,以減少數據傳輸量并提高學習效率。

傳統FL的服務器容易遭到單點攻擊,其數據安全面臨巨大挑戰。區塊鏈技術包含分布式存儲、共識機制等[10],可有效提高FL的安全性。文獻[11]旨在去除傳統FL的中央服務器,提出由本地鏈和全局鏈構成的雙層區塊鏈。本地鏈按時間順序記錄本地模型,形成本地設備的長期信譽值。全局鏈被劃分為邏輯隔離的FL任務鏈,以提高效率和可信性。文獻[12]使用區塊鏈記錄FL中的高質量節點,使用三重主觀邏輯模型計算節點的信譽值,作為節點篩選指標。此外,設計了一種質量證明機制,提高區塊鏈共識效率。文獻[13]提出了一個基于區塊鏈的異步FL框架,使用動態比例因子提升FL訓練效率,并保證訓練的有效性。同時,提出基于委員會的共識機制,以盡可能小的時間成本保證可靠性。

為提高FL的訓練效率與安全性,本文提出基于區塊鏈的異步聯邦學習(Asynchronous Federated Learning based on Blockchain, AFLChain)算法。本文主要貢獻如下:

首先, AFLChain將網絡中的任務發布者和響應者定義為主節點 (Primary Node, PN) 和次節點(Secondary Nodes, SNs)。為提高FL訓練效率,SNs根據算力進行不同輪次的本地訓練。PN持續本地訓練至全局聚合,與SN構成異步FL。

其次,為解決FL中央服務器易受單點攻擊的問題,使用區塊鏈技術保證數據安全。區塊鏈由PN和SNs領導者交替上傳的兩種區塊組成,確保數據可追溯性。SNs領導者由熵權信譽機制選出。

此外,本文提出一種基于次梯度的最優資源分配(Subgradient based Optimal Resource Allocation, SORA)算法,通過聯合優化計算和通信資源提升AFLChain的性能,最小化網絡總延遲。

最后,廣泛的仿真驗證了所提算法的有效性。

2 系統建模及分析

2.1 系統模型

如圖1,本文在ECN中實現FL架構,EN(如智能車間、智能樓宇等)具有足夠的本地數據和算力,可支撐訓練任務和共識算法。發布任務的EN為主節點(Primary Node, PN),參與任務的 EN 為輔助節點(Secondary Nodes, SNs)。PN為可信節點,負責模型聚合,SN負責本地模型訓練及上傳。

圖1 網絡結構圖

在區塊鏈網絡中,所有節點共同維護一條聯盟區塊鏈,由PN和SN領導者交替上傳的區塊組成。共識機制也可用權益證明(Proof-of-Stake, PoS)等,但需要額外方案防止分叉??紤]到聯盟鏈中節點較少,基于投票機制的實用拜占庭容錯(Practical Byzantine Fault Tolerance, PBFT)機制更高效。

2.2 工作流程

設AFLChain中有1個PN和K個SNs。圖2顯示了一個epoch的工作流程,包含以下步驟:

圖2 一個epoch的工作流程

步驟1 SNs從區塊鏈網絡中獲取全局模型。

步驟2 在epochh,第i輪本地迭代中,SNk使用本地數據集(Xk,Yk)的部分樣本計算交叉損失熵作為損失函數,以獲取模型梯度:

其中,b表示數據集樣本大小,θ表示數據類別號,(X,Y)分別是數據的樣本特征和標簽。Fθ是模型權重ω的函數,表示輸出為類別θ的概率。

本文采用隨機梯度下降(Stochastic Gradient Desc ent, SGD)優化算法更新本地模型:

其中,η表示本地學習率。

步驟3 SN發送狀態信息到狀態數據庫,查詢下一個動作。如果返回操作是TRAIN,則繼續進行下一輪本地訓練,否則進入共識過程。

步驟4 所有SNs進入共識后, SNs領導者開啟共識。共識達成后,SNk基于模型更新,本地訓練輪數以及歷史信譽值更新信譽值。

步驟5 SN領導者將SNs的信譽值與模型打包成塊并上傳至區塊鏈。僅SNs領導者有權上傳區塊,所以分叉現象將不會發生。

步驟6 智能合約(Smart Contract, SC)通知PN從區塊鏈下載更新后的SNs模型和信譽值。

步驟7 當PN接收到聚合信號,它將基于PN和SNs模型,采用加權平均策略進行全局聚合。

步驟8 PN將全局模型上傳至區塊鏈網絡。

重復上述步驟至模型收斂或目標精度達成。

2.3 信譽機制

AFLChain依賴于多個SNs的共同維護,為保障模型質量,需對SNs進行評估。與主觀加權方法相比,根據信息差異確定權重的熵權法具有更好的客觀性。本文中,信譽值由模型訓練進度、本地訓練輪數和歷史信譽值決定。信譽值大于上分位點thupper的SN為候選SN,信譽值最高的候選SN為領導者。信譽值小于下分位點thlow的SN為潛在SN,不能參與當前FL任務,其余為普通SN。本文使用余弦相似度表示模型間差異,以保證高維向量計算的準確性[14]。epochh中SNk模型與epochh-1中全局模型ωh-1的余弦相似度為

對于SNk,表示epochh中指標j的標準化值,均采用正標準化,其占比為

其中,j=1,2,3分別表示SNk在epochh-1的信譽值,本地訓練輪數rk和余弦相似度sim(ωkh,ωh)。

指標j的熵權值為

3 異步聯邦學習架構

為緩解同步FL訓練效率低下的問題,本文提出異步FL算法,如圖3,通過包含SNs狀態信息的狀態數據庫調整SNs本地訓練輪數,提高訓練效率,其功能可在SC中實現以克服安全問題。

SNk狀態信息為為epoch計數,rk為本地訓練輪數,為本地訓練時間,為查詢時間,Tk為發信時間戳。

最后,由式(10)確認SNk是否進行繼續訓練,

其中,tc是狀態服務器的當前時間戳。

SNk的等待時間可表示為

其中,Tqry為查詢時間,相對于其他時延可忽略不計,則=0。為優化本地訓練輪數rk以最小化整體等待時間,建立優化目標如下:

若式(10)成立,狀態數據庫返回ak=1。否則,剩余等待時間不夠完成一輪訓練,SNs領導者開啟共識。flag為SC發送至PN的信號,flag=1表示聚合,否則PN持續訓練。細節如算法1所述。

4 問題建模

4.1 計算模型

SNk的本地訓練時間表示為

其中,ck表示SNk訓練一個樣本所需CPU周期,D為樣本個數,表示SNk可提供CPU頻率。

算法1 狀態數據庫決策流程

SNk訓練模型所需的CPU周期數表示為ckD。因此,SNk在一次訓練迭代中的能耗為

其中,β是SNk計算芯片組的有效電容系數。

4.2 通信模型

本場景中通信時延為共識和領導者塊上傳的時延。其中,共識過程分為塊傳播和塊驗證。

在塊傳播階段, SNs向領導者l發送包含本地模型的塊信息,傳輸速率(bit/s)可由式(17)計算:

其中,B表示帶寬,pk為SNk的傳輸功率,gk,l為SNk到領導者l的信道增益,n0為噪聲功率。

因此,在共識過程中塊傳播時延可表示為

其中,δb表示塊大小。

在塊驗證中,SN確認塊信息,確認時延為

其中,φb表示驗證塊所需的CPU周期數,為SNk驗證塊的計算頻率。

此外,領導者l的塊上傳時延可由式(20)計算:

其中,γl為領導者l的傳輸速率,塊上傳能耗為

4.3 優化問題

為使SNs的本地訓練時延、共識時延和塊上傳時延之和最小化,將優化問題建模為

其中, C1為SNk計算資源約束; C2表示塊驗證時延不能超過最大可容忍延遲; C3 和 C4表示模型更新和塊上傳的能耗限制; C5為傳輸功率約束。

4.4 資源分配優化

本節提出SORA算法解決優化問題(22),首先根據 C4,最優塊上傳功率可表示為

(1) 最優計算資源分配

將pk視為常數并去除常量項,原問題簡化為

為降低復雜度,采用交替求解法獲取最優解。

其中,π1,π2是C1,C3的拉格朗日乘子。由Karush Kuhn Tucker (KKT)條件,可得以下充要條件:

為求解3次方程式(30),引入盛金公式[15]。對3次方程ax3+cx2+cx+d=0,定義以下輔助變量:

結合式(30)與式(31),可得如下判別式:

由盛金公式可知,當Δ=0時,該3次方程有3個實根,且其中兩個實根相等。令Δ=0,可得

則等式(30)的3個實根表示為

π1和π2由拉格朗日對偶法求解,對偶函數為

因此,等式(25)的對偶問題可表示為

次梯度法可求解 (38), π1和 π2的更新方程為

其中,t是迭代因子,?1和?2分別是更新步長。

(2) 最優傳輸資源分配

P2是單調遞減函數,在傳輸功率最大的情況下達到最小值,從而有

算法2給出了SORA算法的細節,設定容忍閾值?3,問題式(38)的復雜度為O(log2(1/?3)),K個SN的復雜度表示為O(Klog2(1/?3)),在迭代因子上限tmax下,SORA算法的復雜度為O(Ktmaxlog2(1/?3))。

5 仿真結果及分析

5.1 仿真場景及參數設置

本文使用Python和Pytorch評估AFLChain的性能,Matlab驗證SORA的有效性,采用Mnist和FashionMnist訓練卷積神經網絡(Convolutional Neural Network, CNN),Cifar10訓練ResNet18。路徑損耗模型采用3GPP,140.7+36.7lg(?),?為節點距離。默認算力比ρ=3,其他設置見表1。

表1 仿真參數設置

5.2 結果分析

圖4展示了不同FL算法的性能。使用Mnist訓練CNN,選取5個SNs參與任務?;€為單機訓練CNN,比較算法為谷歌提出的Vanilla FL和文獻[8]的ESync FL。由結果,非同步FL算法可以獲得更高準確率和更快收斂速度。此外,與ESync相比,AFLChain可篩選高質量SN,以達到更好的性能。

圖4 不同算法準確率與全局epoch的關系

如圖5所示,本文比較了AFLChain分別采用異步和同步算法時的性能。在FashionMnist上,全局模型為CNN,兩者準確率差異不明顯,但異步算法能更快達到收斂。在更復雜的通用圖片數據集Cifar10上,ResNet18被用作全局模型。相較同步算法,異步算法收斂速度更快,準確率更高。

算法2 基于次梯度的最優資源分配算法(SORA)

圖5 不同FL算法在不同數據集上的性能表現

圖6展示了SN數量對算法性能的影響。設目標準確率為95%,達到該準確率的epoch數隨著SN數量的增加而減少。當有6個SNs參與訓練任務時,與5個SNs所需epoch數相當,因為新加入SN可能算力較低,降低平均算力水平。

圖6 AFLChain在不同SN數量下的性能表現

圖7對比了AFLChain在不同算力比ρ下的性能。隨著ρ的增大,高算力SNs可進行更多輪次本地訓練,對模型準確率提升的貢獻更大。ρ=1時,即所有SNs只能完成一輪本地訓練時,AFLChain性能等價于同步FL。此外,區塊鏈技術可在不降低訓練精度的同時,保證數據安全性和可追溯性。

圖7 AFLChain在不同算力比時的性能表現

圖8描述了不同掉隊者比例(低算力SN數量/參與訓練SN數量)對算法性能的影響,8個SNs參與FL任務。模型準確率隨低算力SN數量的增加而降低,因為低算力SN增多,本地訓練輪數相應減少,導致準確率降低。但是,即使掉隊者比例大于1/2時,AFLChain仍能達到95%以上的準確率。

圖8 AFLChain在不同掉隊者比例下的性能表現

圖9對比5種場景到95%模型準確率的性能表現:(1)同步FL,ρ=5;(2) AFLChain,ρ=5;(3)同步FL,ρ=2;(4) AFLChain,ρ=2;(5)同步FL,ρ=1。ρ=5時,同步FL中高算力SN需要等待低算力SN,而AFLChain允許高算力SN在等待時間內持續訓練,提高效率效率。ρ=1時,epoch數顯著增加,AFLChain等價于同步FL。綜上,SN的算力比越高, AFLChain的性能增益越大。

圖9 不同算法在不同場景下的時間開銷

圖10展示了SNs信譽值隨著epoch的變化。以SN 3為例,在epoch a,初始信譽值為51>thupper,為候選SN。在epoch b,其信譽值為16<thlow,說明它可能出故障,無法繼續任務。在epoch c,排除故障或重啟后,其信譽值重置為50。在epoch d,其信譽值根據其訓練表現有相應升降。每個epoch的領導者由信譽機制選取,避免某個SN的絕對控制。

圖10 SNs信譽值的變化

圖11展示了7個SNs參與任務時,信譽策略對模型準確率的影響。理想場景中,所有SNs均持有高算力且積極訓練,不會缺席訓練,信譽機制影響極??;非理想場景考慮SNs算力不均且可能掉線,分別對平均權重策略與熵權法策略進行驗證。平均權重策略中權重皆為1/3。結果表明,本文所提出的基于熵權法的信譽機制性能接近理想策略。

圖11 不同信譽機制對準確率的影響

圖12顯示了SORA算法在不同fmax下的網絡時延。SORA算法在分別在迭代8, 10, 12次之后趨于收斂。此外,網絡時延隨著fmax的增加而降低,因為fmax越大意味著可以分配的計算資源越多, FL任務計算時延和塊驗證時延也相應降低。

圖12 SORA算法在不同最大算力時約束的收斂情況

圖13比較了SORA、統一資源分配 (Uniform Resource Allocation, URA)、隨機頻率分配 (Random Frequency Allocation, RFA)和隨機功率分配(Random Power Allocation, RPA) 算法的網絡時延。其中,SORA算法性能最好,RFA算法由于計算時延較大,性能最差。RPA算法優化了計算頻率分配,訓練時間大大減少,性能接近SORA算法。

圖13 不同資源分配算法的網絡時延對比

6 結束語

為提高聯邦學習效率,本文提出了一種基于區塊鏈的異步聯邦學習算法AFLChain。首先,基于ENs算力分配訓練任務,提高計算資源利用率。其次,引入熵權信譽機制評估ENs并對其分級,承擔更多訓練任務的SN將獲得更高信譽值。最后,通過聯合優化傳輸功率和計算資源分配,最小化整體網絡延遲。仿真結果驗證了所提算法的有效性。

猜你喜歡
信譽算力時延
多方求解智能時代算力挑戰
這個第二不一般
衛星通信在算力網絡中的應用研究
以質量求發展 以信譽贏市場
中國電信董事長柯瑞文:算力成為數字經濟的主要生產力
基于單片機MCU的IPMI健康管理系統設計與實現
信譽如“金”
基于GCC-nearest時延估計的室內聲源定位
基于改進二次相關算法的TDOA時延估計
FRFT在水聲信道時延頻移聯合估計中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合