?

基于異構特征的強化聯邦學習模型融合方法?

2024-01-23 13:37趙瀟楚張元杰
計算機與數字工程 2023年10期
關鍵詞:異構聯邦權值

禹 發 趙瀟楚 谷 牧 張元杰

(1.中國石油大學(華東)計算機科學與技術學院 青島 266580)(2.中德智能技術研究院 青島 266071)(3.航天云網科技發展有限責任公司 北京 100039)(4.青島文達通科技股份有限公司 青島 266555)

1 引言

AlphaGo[1]在圍棋上接連戰勝人類頂尖選手李世石與柯潔,讓人們逐漸意識到了人工智能(AI)所擁有的巨大能量,期待將其應用到各行各業中來。當AI 真正要落地到各個行業之中時,效果往往差強人意,究其原因,最重要的問題在于數據,大多數行業數據的數量和質量都無法滿足AI 技術的需求,大多數行業中,數據都是以孤島的形式存在,行業中各個企業集團之間存在競爭壁壘,同時涉及到安全和隱私以及其他問題,幾乎不可能形成一個統一的完備的行業數據集。隨著整個互聯網世界對于數據安全性和用戶的數據隱私意識的增強,加劇了數據獲取的困難性。

數據的隔離和對數據隱私的重視正成為人工智能的下一個挑戰,但聯邦學習為我們帶來了新的希望。

它可以在保護本地數據的同時為多個企業建立統一的模型,從而使企業可以在以數據安全為前提的情況下共同取勝。

聯邦學習[2~5]的概念起初由谷歌提出,他們的主要想法是建立基于分布在多個設備上的數據集的機器學習模型,同時防止數據泄漏。最近的改進集中在克服統計挑戰[6~7]和提高聯邦學習的安全性[8~9]。還有一些研究努力使聯邦學習更具個性化[10]。聯邦學習的出現使在數據保持不交換的情況下,進行大規模的協同模型訓練。

文獻[11]中使用聯邦學習來幫助訓練入侵檢測的模型,解決了單個機構數據集有限性而導致的模型泛化性不強的問題;文獻[12]基于聯邦學習設計了FRL 框架,提高分部學習模型質量,同時在應用于北京PM2.5 監控的實驗中表現出了高于中心化訓練三到五倍的效率。在邊緣計算方面,文獻[13]將聯邦學習應用于邊緣設備的輕量級模型訓練上,并在提高準確率的情況下,縮減了模型訓練時間。Kwon[14]等將聯邦學習應用于水下物聯網設備的訓練中,并加入了強化學習來對聯邦學習中的通信傳輸進行優化,提高了通信鏈路的效率。但是,以上對于聯邦學習的應用仍存在在需要解決的問題。

由于客戶端設備硬件條件(CPU、內存)、網絡連接(3G、4G、5G、WiFi)和電源(電池電量)的變化,聯邦學習網絡中每個設備的存儲、計算能力和通信能力都有可能不同,加上聯邦網絡中設備上數據集數量與質量上的非對稱性以及設備算力的差異,各節點訓練的模型有好有壞同時聯邦這些異構特征給聯邦學習的建模、分析和評估都帶來了很大挑戰。傳統的聯邦學習算法,會將各個節點上傳的模型按照等權重進行平均融合,如果某個節點模型質量差或者存在錯誤,會影響聯邦學習全局的模型準確率,降低效率。

本文提出一種基于異構特征的強化聯邦學習模型融合方法,針對于聯邦學習中異構特征問題,提高容錯能力,保證學習效果,加入強化學習,能夠動態地通過聯邦網絡中個設備的狀態信息,調整模型融合時的權值,代替傳統的平均融合方法,更好地對全局模型進行更新。

2 基于異構特征的強化聯邦學習模型融合方法

為了解決聯邦學習中的異構特征問題,需要針對不同的節點情況,在融合時自適應地調整各節點的權值,得到最優的權值進行融合。我們希望這個過程可以自主地進行,并能通過訓練次數增加,不斷學習,更準確地得到最優權值。而強化學習可以通過代理(Agent)與環境(Environment)不斷交互,去學習得到最優結果,這恰恰可以應用于聯邦學習的模型融合時,權值的選擇。

2.1 聯邦學習

聯邦學習(Federated Learning)從本質上講,是一種分布式的機器學習技術,或者稱作一個機器學習框架。推動其產生的背景主要分為三個方面:

1)在人工智能紛紛落地于應用后,逐漸暴露出來的問題是數據量的不足,一個高可用的人工智能應用通常需要依賴于大量高質量的數據集訓練,現實生活中,極少有企業能滿足這一點。

2)全世界各個機構逐步加強了對數據的保護與監管,例如歐盟的《通用數據保護條例》(GDPR)以及我國的《數據安全管理辦法(征求意見稿)》,都對數據的流動做了限制。

3)企業數據通常隱藏著企業機密且存在巨大潛在價值,不允許對外開放,這會導致數據孤島問題。

為了能夠在合乎法律規范的情況下,使企業間在不泄露自己數據的情況下,共用數據集,共同訓練模型,以達到提高模型準確率與泛化性的目的,聯邦學習應運而生。

2.2 強化學習

強化學習[15~16]是機器學習算法的一個分支,它受行為主義心理學啟發而產生,同時與早期的控制論、心理學、神經科學和計算機科學都有關系。強化學習指的是仿照人類的學習方法而設計出的智能體,在動態環境中不斷重復“動作-反饋-學習”的方式來進行學習,智能體是強化學習的動作實體。對于自動駕駛的汽車,環境是當前的路況;對于圍棋,狀態是當前的棋局。在每個時刻,智能體和環境有自己的狀態,如汽車當前位置和速度,路面上的車輛和行人情況。智能體根據當前狀態確定一個動作,并執行該動作。之后它和環境進入下一個狀態,同時系統給它一個反饋值,對動作進行獎勵或懲罰,以迫使智能體執行期望的動作。

2.3 強化聯邦學習模型融合方法

在傳統聯邦學習中,各節點上傳模型,會在中心節點進行融合,生成全局模型,融合時采用平均融合的方法,即

然而由于各節點數據質量,算力和能量等異構性問題,各節點上傳的模型質量參差不齊,如果某個節點數據集質量有錯、質量差或者機器算力差會導致此節點上傳模型對于全局模型的準確率提升沒有幫助,甚至會有害,基于此,我們希望在聯邦學習的過程中加入一種可以自適應的模型融合方法,能夠根據歷史的各節點模型信息,動態調節各節點模型的權重,提高有益節點的權重,降低權重甚至舍棄有害節點。強化學習能通過智能體不斷與環境交互,通過獎勵機制不斷學習,達到最大化獎勵或者特定目標。于是,我們將強化學習加入到聯邦學習的模型融合過程中來,使用強化學習來代替平均融合算法。

本文以強化學習算法DQN(Deep Q-learning Network)為基礎,將聯邦學習模型融合過程形式化為一個強化學習問題,進行求解。在一個聯邦網絡中有N個節點:

狀態(State):s?S={s1,s2,s3,s4…sN},表示N節點在模型融合時的準確率以及上一次的權值。

動作(Action):a?A={A1,A2,A3,A4…AN},表示為第i個節點分配的權值。

獎勵(Reward):R 表示在狀態s 下執行動作a,得到的獎勵值,在本實驗中為融合后模型準確率與上一次準確率的差值。

策略(Policy):π表示在狀態s 下選擇一個動作,表示為a=π(s)。

價值函數(Value function):獎勵只代表某一次動作的獎勵值,而價值函數是從長期的角度看待動作的好壞,Qπ(s,a)是策略π在狀態s下,采取動作a 的長期期望收益,按照策略執行動作后的回報定義為

其中γ?[0,1]稱為折扣因子,表示對未來獎勵的看重性,當其為0時只看重現在。狀態s的價值為

狀態s下采取動作a的動作價值函數Q為

要得使得在狀態s 下動作a 得到最好的效果,則應使最大的價值函數取最大值,根據貝爾曼方程(Bellman equation)可得:

a′表示下一步執行的動作,使用深度學習對此進行求解,我們把一個神經網絡來作為策略π,稱之為Q-network,其輸入為狀態s,輸出為下一步動作a 的q 值,取在接下來狀態′下,執行動作a′后最大q值y=r+γmaxa′Q*(s′,a′)為目標解,即可使用均方誤差(Mean Square Error),對其進行梯度下降求解,損失函數為

這樣,只需要對神經網絡的參數θ進行訓練,即可得到策略π的最優解。

整個算法流程如算法1所示。

3 實驗分析

3.1 實驗數據集

一般傳統機器學習使用的是獨立同分布的數據集,也稱IID(Independent and Identically Distributed)數據集,而在實際聯邦學習過程中,基于用戶設備、地區、習慣等的不同,數據通常是非獨立同分布 的Non-IID(None-Independent and Identically Distributed)數據集。為了與實際聯邦學習環境相對應,我們在cifar-100 數據集的基礎上,進行了重新劃分,將其轉換為Non-IID 數據集,如圖1 所示,左邊為原始cifar-100 數據集,右邊為劃分以后Non-IID的cifar-100數據集。

圖1 正常數據分布圖

圖2 Non-IID數據集

3.2 實驗環境

為了模擬聯邦學習中異構性的特點,實驗中用了多臺性能不同的機器當作聯邦節點,以此來保證各節點訓練出來的模型質量不同,模擬異構性特征,所使用節點信息如表1所示。

表1 實驗節點信息

3.3 實驗設置

實驗在預設的八個節點上進行,使用No-IID數據集進行模型訓練,使用網絡結構為resnet34,分別使用強化聯邦學習模型融合算法與使用傳統平均融合算法進行聯邦學習過程,比較其結果。

3.4 實驗結果

圖3 為訓練過程中各節點上傳模型的準確率,從中可以看出,在Non-IID的情況下,節點8因為數據分布以及機器算力問題,在訓練過程中導致了模型準確率一直不高,同時也體現了聯邦學習中的異構性問題。

圖3 各節點模型準確率

實驗結果如圖4 所示,在不使用任何訓練trick的情況下,傳統平均融合算法最后達到38.2%的準確率,使用強化聯邦融合算法,弱化了節點8 在融合時的權值,提高了聯邦學習魯棒性,最終到了41.49%的準確率,提高了3.29%。

圖4 平均融合與強化聯邦融合準確率

4 結語

通過實驗證明了異構性在聯邦學習中的影響作用,同時在聯邦學習模型融合過程中,使用強化學習代替傳統平均融合,提高了聯邦學習的魯棒性與模型訓練的效果。

但是研究仍存在不足,聯邦學習除了異構性問題外,聯邦學習中更關鍵的一點是如何抵抗聯邦學習中的惡意攻擊。在聯邦學習中會存在惡意節點,向中心節點發送有毒模型或梯度信息,導致聯邦學習無法擬合,實驗的下一步研究應放在如何使用強化學習來控制節點權值,以達到免受攻擊影響。

猜你喜歡
異構聯邦權值
一種融合時間權值和用戶行為序列的電影推薦模型
試論同課異構之“同”與“異”
CONTENTS
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
303A深圳市音聯邦電氣有限公司
基于權值動量的RBM加速學習算法研究
異構醇醚在超濃縮洗衣液中的應用探索
overlay SDN實現異構兼容的關鍵技術
LTE異構網技術與組網研究
20年后捷克與斯洛伐克各界對聯邦解體的反思
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合