?

基于逆強化學習的示教學習方法綜述

2019-02-20 08:33張凱峰
計算機研究與發展 2019年2期
關鍵詞:決策專家狀態

張凱峰 俞 揚

(計算機軟件新技術國家重點實驗室(南京大學) 南京 210023)

強化學習(reinforcement learning, RL)[1]是機器學習的重要分支之一.在強化學習中,智能體(agent)通過不斷與其所處環境(environment)自主交互從而進行學習并完成任務.在交互過程中,智能體將基于最大化累積反饋獎賞的目標對自身策略不斷進行優化更新.該過程可以被認為是(正向)強化學習過程.與傳統監督學習不同的是,強化學習天生具有一定的“自學”能力,可以自主地對環境進行探索學習.因此,強化學習能夠被有效地應用到許多標記數據代價高昂的自主學習問題當中去,這包括:推薦系統、自動駕駛、智能機器人、Atari游戲等.在強化學習中,如圖1所示,智能體通過觀測所處環境的狀態,在動作空間選取合適動作予以執行.環境將依據相應狀態轉換概率轉換至新的狀態,并給予智能體一定反饋獎賞.這個過程可以始終執行下去,也可以在智能體觀測到終止狀態后停止.

Fig. 1 Reinforcement learning procedure圖1 強化學習過程

然而對于絕大多數決策問題而言,環境將難以給出準確的即時反饋信號或者環境給出的反饋信號將具有很高的延遲性.例如在自動駕駛問題中,對于行駛過程中的車輛,環境很難在車輛每執行一個動作后即時地給出反饋信號;而在圍棋這一類游戲之中,在每一步的落子后環境也很難立即評價該步的好壞,而往往需要經過多步之后才能來判斷之前一步的好壞,這也就是環境所給予的反饋信號延遲性較高的情況.在上述情況下,更為直接的方式是利用大量人類專家的決策數據進行學習從而得到智能體的策略.這樣的學習方式被稱為示教學習或模仿學習(imitation learning)[2].

示教學習的目標是模仿專家的決策軌跡進行決策,其中每條專家決策軌跡{ζ1,ζ2,…,ζm}包括了一系列的狀態-動作對ζi=si1,ai1,si2,ai2,…,sin,ain.近年來,示教學習先后通過學習人類飛行員的飛行操作數據、道路導航數據以及自動系統控制數據等,在Stanford自動直升機[3-8]、導航[9-12]以及HVAC控制[13]等項目中取得了一系列成果.

根據模擬專家行為的不同實現過程,示教學習可以被劃分為以下3種實現方式:

1) 行為克隆(behavioral cloning)[14-15].通過傳統監督學習方法建立狀態-動作之間的分類模型(針對離散動作空間)或回歸模型(針對連續動作空間),從而實現決策,也即動作的預測.然而,由于該類方法在大規模狀態空間下所得到的策略存在嚴重的復合誤差(compounding errors)[16]并且難以有效學習到專家決策行為的動機.因此,該類方法需要設計人工標記數據的方法進行矯正,例如DAgger等[17],且僅適用于狀態空間較小的情況.

2) 基于逆強化學習的示教學習方法.逆強化學習的目標是通過在馬爾可夫決策過程上建立合適的優化模型,逆向求解得到決策問題的反饋函數.通過結合傳統的正向強化學習方法設計的一系列示教學習方法,例如學徒學習(apprenticeship learning)[18]、代價指導學習(guided cost learning)[19]等,能夠更好地解決大規模狀態空間所帶來的問題,因而在眾多機器人項目中得到了廣泛的應用.值得說明的是,部分研究工作也認為逆強化學習是示教學習方法的一種[20],這是由于該類方法在工作過程中通過不斷的正向策略搜索進而優化算法所需要的反饋信號,因此整個系統(逆強化學習)可以被認為是一類示教學習方法.

3) 基于博弈的示教學習方法.經典的示教學習過程可以看作是智能體和所處環境進行博弈的過程.其中系統依據其混合策略Pt在動作空間選取動作,環境依據相應混合策略Qt選取狀態,同時系統將觀測到自身在執行決策之后所得到的損失值.相關的經典工作包括通過已有自適應博弈方法[21]來優化學徒學習的MWAL算法[22],以及生成式對抗性示教學習方法[20,23-24],通過生成器(generator)生成策略,由判別器(discriminator)判斷其是否是來自專家決策數據抑或是生成器生成的策略數據,通過訓練2個學習器,尋找最優策略.

1 基本概念

在強化學習中,馬爾可夫決策過程[1]可以形式化為一個五元組S,A,T,R,γ表示.其中,S表示強化學習智能體所處環境的狀態空間;A表示智能體可選取動作的動作空間;T表示狀態轉換概率模型;R表示環境在某個狀態-動作對下所給予的反饋信號;γ表示反饋獎賞折扣系數.通常,強化學習所面對的任務的狀態轉換模型以及反饋量需要通過智能體不斷地探索(exploration)從而獲取相關信息.

智能體的目標是通過和環境的不斷交互最大化自身策略的未來累計反饋獎賞值.其交互過程為:智能體在某個狀態s0出發,根據策略在動作空間選取動作a1執行,此時環境將依據其狀態轉換模型轉換到下一個狀態,同時將給予智能體一個確定的反饋獎賞.該過程將不斷進行直到終止狀態.其中智能體的策略π是指狀態空間到動作空間的映射.

1.1 值函數

與動態規劃算法類似的是,我們可以為每個狀態定義一個值函數(value function),這將為強化學習的實現帶來很大方便.值函數根據其自變量的不同可以分為:狀態值函數V(s)和狀態-動作對值函數Q(s,a).其表述形式分別為

(1)

(2)

可以看出:狀態值函數或者狀態-動作對值函數分別是某個狀態、狀態-動作對下的累計未來反饋獎賞.因此只需要通過最大化值函數就可以最大化累計反饋獎賞,這使得強化學習策略求解更加方便.

基于最優策略,我們不難得到以下2個定理:

定理1. Bellman等式.假設馬爾可夫決策過程為M=S,A,T,R,γ,智能體策略為π:S→A,對于任意狀態s、動作a,其價值函數可以表示為

(3)

(4)

定理2. Bellman最優定理.假設馬爾可夫決策過程為M=S,A,T,R,γ,智能體策略為π:S→A,則策略π是最優策略當且僅當對任意狀態s:

(5)

1.2 策略搜索

經典的正向強化學習研究是智能體基于最大化累計未來反饋獎賞求解策略的過程.而求解策略可以通過求解值函數實現.

根據1.1節所述,求解值函數可以通過式(6)和式(7)展開進行:

(6)

通過式(6)(7)求解值函數從而獲得最優策略的方法可以理解為策略迭代過程,也即通過不斷迭代以下2個交互過程:策略評估(policy evaluation)和策略改進(policy improvement),從而獲取最優策略.其中,策略評估是指通過當前的策略評估值函數,而策略改進是指通過當前值函數優化得到新的策略.這個過程就是經典的正向強化學習過程.

2 逆強化學習

逆強化學習是通過大量專家決策數據在馬爾可夫決策過程中逆向求解環境反饋信號函數的一類方法.其基本原則是尋找一個或多個反饋信號函數能夠很好地描述專家決策行為.這也就是說,逆強化學習算法將基于專家決策最優的假設進行設計.

然而,由于在函數空間中可能存在多個函數能夠同時滿足專家策略最優的假設,例如每一步決策所帶來的反饋始終為0的情況.因此,算法設計的模型應能夠解決反饋信號的模糊性(ambiguity).目前,我們可以通過3類反饋信號函數的形式實現反饋信號求解過程,它們分別是:1)基于大間隔(max-margin)的反饋信號;2)基于確定基函數組合的反饋信號函數;3)基于參數化的反饋信號函數,例如神經網絡.

2.1 基于確定基函數組合的反饋信號函數

逆強化學習發展初期,大多工作均建立在環境反饋信號函數為確定基函數組合的情況下.該類方法通過狀態特征構建基函數,從而將求解反饋信號函數的任務轉化為求解各個基函數權重的任務.其能夠較好地克服反饋信號搜索過程中存在的函數歧義性的問題.

為了建立合適的優化模型求解相關決策問題的反饋信號,該類方法從專家決策軌跡最優的假設出發,通過以下2種方法建立相關模型:

在上述優化目標的基礎上,我們可以考慮逆強化學習問題的約束條件還應包括:a1為最優決策動作,根據定理2可以得知,該條件等價于a1動作在相應狀態下的Q值將大于其余動作的Q值.此外,約束條件中還應保證立即反饋信號值始終是有限值.當考慮到對模型進行正則化時,我們可以得到Ng等人[25]提出的針對專家決策軌跡的優化模型,如式(8)所示:

s.t. (Pa1(i)-Pa(i))(I-γ·Pa1)-1R?0,(8)

Ri≤Rmax,i=1,2,…,N.

其中,Pa(i)表示狀態轉換概率矩陣.矩陣R表示反饋量矩陣.其中模型約束條件

(Pa1(i)-Pa(i))(I-γ·Pa1)-1R?0,

表示左側矩陣各項元素均大于0,以保證a1為最優決策.|Ri|≤Rmax亦表示矩陣中各項元素均小于某個有限值.當考慮到決策問題的反饋函數可以由一組確定的基函數線性擬合時,該優化模型可以很好地通過線性規劃(linear programming)求解得到相應環境的反饋函數.

2) 根據強化學習基于動態規劃算法最大化未來反饋量的經典研究我們可以得知:最優策略相對于其他策略而言將獲得最大的未來獎賞,即:

將取得最大值.

當決策問題的反饋信號可以由一系列確定的基函數φ1,φ2,…,φk線性組合而成時,我們可以定義策略的特征期望[18]為

由此,我們可以得到對于任意策略特征期望μ,可以得到:

wTμE≥wTμ.

其中,μE表示專家決策數據所確定的專家策略特征期望,其值可以通過蒙特卡洛算法進行估算:

通過建立優化模型:

(9)

我們可以得到以下結論:當優化變量t不大于擬合誤差ε時,算法將得到決策問題反饋信號優化變量w,也即得到未來總反饋函數R=wTμ.此時,由于t≤ε,也將得到相應策略,其未來獎賞值wTμ(i)≥wTμE-ε,也即結合不同正向強化學習策略搜索方法設計的示教學習方法得到的策略將不低于專家策略減去某小量的水平.

通過上述2種方式建立的逆強化學習優化模型可以幫助求解得到相關問題的反饋信號.該類方法通過比較專家策略和其他策略的價值,從而建立逆強化學習優化模型,能夠較好地實現對專家決策軌跡的學習,并獲取環境反饋信號函數.

2.2 基于參數化模型的反饋信號函數

隨著逆強化學習面對的決策問題復雜度的提升,研究人員開始關注于提升反饋信號函數的表達能力.其中較為有效的是通過參數化模型對環境反饋信號進行建模.

早期的致力于擴大決策問題反饋信號表達能力的工作包括:2010年Levine等人[27]提出的FIRL(feature construction for IRL)算法,其方法通過構建一組基于邏輯聯結的合成特征,從而間接實現了非線性反饋信號的建模.2011年,Levine等人[28]又提出了GP-IRL,其方法采用了基于高斯過程[29]的反饋信號,通過高斯過程極大地增強了反饋函數的表示能力.2015年,Jin等人[30]又在GP-IRL算法基礎上結合了深度信念網絡,實現了深度高斯過程在逆強化學習上的應用(DGP-IRL).其中GP-IRL和DGP-IRL在眾多開源環境測試,例如經典的Grid-world測試實驗以及gym下的強化學習基準測試實驗中都取得了”state-of-the-art”的效果.

隨著深度學習的蓬勃發展,通過神經網絡對反饋函數進行建模逐漸稱為逆強化學習的一大主流方向.其中較為知名的是2008年,Ziebart等人[11]提出的最大熵逆強化學習方法(maximum entropy IRL),通過優化專家決策數據集的似然函數實現反饋信號的優化,很好地解決了專家決策數據中可能存在的噪聲以及專家數據本身并不是最優的問題.

最大熵逆強化學習方法是經典的基于“能量”的模型(energy-based model)[31].其中能量函數ε為環境的代價函數(即反饋信號函數的相反數).根據“能量”模型的假設,可以知道專家在策略軌跡空間的采樣概率密度為

(10)

其中,τ為策略軌跡,分母為劃分函數Z(partition function).式(10)可以簡單地理解為:當2條決策軌跡具有相同的反饋獎賞時,其具有相同的概率別“專家”采樣獲得,而當某條軌跡具有更高的反饋獎賞時,“專家”將更有機會能夠采樣到這條軌跡.

為了讓專家決策數據(訓練數據)更能夠被“專家”采樣到,逆強化學習的優化目標是最大化專家軌跡的似然函數,可以表述為

(11)

因此,通過隨機梯度方法優化模型式(11)就可以求解得到環境的反饋信號函數.此處需要注意的是:當我們面對的是離散且規模較小的狀態空間時,劃分函數Z可以通過動態規劃算法求得;而當我們面對大規模狀態空間時,則需要通過采樣等方法實現[19,32].

最大熵逆強化學習方法通過優化專家決策數據的似然函數從而獲得環境反饋信號,該方法引入了一定的隨機性,可以處理專家決策數據本身不是最優或含有一定噪聲的情況.

類似能夠處理專家決策數據本身不是最優的方法還包括一系列概率模型.其中包括:2007年,Ramachandran和Amir[33]提出貝葉斯非參數化方法去構建反饋函數特征來實現逆強化學習,該方法稱作貝葉斯逆強化學習(Bayesian IRL).其后2013年,Choi等人[34]通過構建了一組合成特征上的先驗概率優化了該算法.

2.3 其他函數表示形式

對于某些復雜決策問題,環境反饋信號難以通過單一的一個函數進行表示,也就是說是通過單一函數擬合過程中會出現決策數據和反饋函數嚴重不一致的情況.通過基于每條專家決策軌跡都能夠被多個局部一致的反饋函數所生成的假設,Nguyen等人[35]提出了通過期望最大化(expectation-max-imization, EM)方法來學習不同的反饋信號以及它們之間動態的轉換過程.通過該方法,可以實現針對專家決策軌跡的分割,使得各個部分(segments)均能對應合適的局部一致的反饋函數.基準數據測試(Grid-world以及gym等開源強化學習環境測試)表明該方法也取得了”state-of-the-art”的效果.

此外,逆強化學習領域仍有很多問題需要進行研究解決.例如,在考慮到部分可觀察的環境(partially observable environments)[36]時,如何有效地將逆強化學習或示教學習方法遷移到這樣的環境之中、如何設計實驗來提高反饋函數的可識別性(identifiablity)等問題.

3 基于逆強化學習的示教學習方法

示教學習的目標是通過專家決策軌跡去模仿專家的決策行為.本文第2節介紹了逆強化學習的方法和所需解決的問題,逆強化學習是通過學習專家決策軌跡從而獲得環境反饋信號的一類方法.本節將介紹通過結合逆強化學習、正向強化學習策略搜索算法所設計的示教學習方法,也即基于逆強化學習的示教學習方法.

目前,基于逆強化學習的示教學習主要的2個框架分別是:1)在經典的正向強化學習算法內循環中使用逆強化學習算法優化問題的反饋信號,基于反饋信號函數繼續實現策略的優化,不斷迭代實現示教學習過程.其核心在于將逆強化學習方法置于正向策略搜索方法的內循環之中,經典的方法包括學徒學習方法等.2)基于不斷優化得到的反饋信號去實現正向強化學習過程,通過采樣數據和專家數據相結合實現逆強化學習過程,同時將正向強化學習過程置于逆強化學習的內循環中,經典的方法有代價指導學習等.本節將主要介紹學徒學習方法和代價指導學習方法.

3.1 學徒學習

學徒學習方法是通過在馬爾可夫決策過程中,模仿專家行為,最終得到不差于專家行為策略的方法.其核心的思想是通過匹配專家期望特征實現模仿學習過程.

在線性假設下,反饋信號可以由一組確定基函數φ1,φ2,…,φk進行線性組合.因此,策略的價值可以表示為

(13)

因此,我們可以得到以下結論:對于某個策略π,若其特征期望接近專家策略特征期望,則該策略是學徒學習的一個解.算法1描述了由Abbeel等人[18]提出的通過結合策略迭代和式(9)的逆強化學習算法所設計的學徒學習方式.

算法1. 學徒學習算法.

輸入:專家決策行為數據;

輸出:算法得到的策略以及相應的反饋函數.

① 隨機初始化一個策略,計算其特征期望:

μ(0)=μ(π(0)),設置i=1;

② 計算:

并且獲得相應w值為w(i);

③ IFt(i)≤εTHEN

④ 算法終止;

End If

⑤ 使用強化學習算法,計算最優策略π(i)未來累計獎賞為R=(w(i))Tφ;

⑥ 計算策略特征期望μ(i)=μ(π(i));

⑦ 設置i=i+1,并返回步驟②.

其中,λi可以看作是以λi的概率選擇μ(i)策略.

為了將學徒學習方法應用到高性能機器人系統之中,Abbeel等人[37]通過將學徒學習和探索策略(exploration policies)方法結合解決動態未知的機器人環境.其后,該項工作也被應用到了著名的Stanford自動直升機之中.

3.2 代價指導學習

代價指導學習[19]是通過結合正向強化學習中的策略優化[38](policy optimization)方法和最大熵逆強化學習方法[11]實現的示教學習方法.

如圖2所示,系統通過初始化策略在機器人或設備上進行軌跡采樣,并將采樣得到的軌跡和專家決策數據進行合并,共同用于實現逆強化學習過程,優化反饋信號函數.基于得到的反饋信號函數,在內循環中實現策略優化.不斷迭代上述過程,最終實現示教學習過程.其實現過程如算法2所示.

Fig. 2 Guided cost learning procedure圖2 代價指導學習過程

算法2. 代價指導學習算法.

輸入:專家決策行為數據;

輸出:算法得到的策略以及相應的反饋函數.

① 隨機初始化一個策略;

② FORi=1 toIDO

③ 通過目前策略采樣生成采樣數據集;

④ 擴展數據樣本集:Dsamp=Dsamp∪Dtraj;

⑤ 通過Dsamp優化問題反饋信號函數;

⑥ 通過正向強化學習更新策略;

⑦ END FOR

⑧ 返回優化后的策略和相應反饋信號.

算法2步驟①實現隨機初始化策略;步驟③通過當前策略進行采樣;步驟④實現采樣數據集和專家決策數據集的合并;步驟⑤實現逆強化學習過程(最大熵算法);步驟⑥實現策略優化;不斷迭代步驟③~⑥,實現示教學習過程.

此外,由于強化學習系統采樣的樣本有限,一般可以通過將專家決策數據集合進行分組,通過多組數據循環優化反饋信號,實現逆強化學習過程.目前,代價指導學習算法在機器人多項智能操作,例如倒水、疊盤子等實驗[19]中取得了”state-of-the-art”的效果.

通過上述介紹的學徒學習方法和代價指導學習方法兩大類實現框架,我們能夠將不同的逆強化學習和正向強化學習方法進行結合從而設計一系列示教學習算法.通過采用不同的逆強化學習方法,我們可以處理專家決策數據本身存在的各種問題,例如數據存在噪聲、其決策過程本身并不是最優的以及反饋信號表示能力受到限制等.同樣地,通過采用不同的正向強化學習方法,我們可以解決許多由環境所帶來的問題,例如實現在高維連續系統中的示教學習應用等.

4 結束語

本文不僅介紹了建立逆強化學習優化模型的方法以及逆強化學習方法發展回顧,還介紹了如何通過結合逆強化學習、正向強化學習方法設計新的示教學習方法,重點介紹了2種框架以及其具有代表性2種的經典方法:學徒學習以及代價指導學習方法.

示教學習是通過模仿專家行為實現專家決策的學習方法.而其中,基于逆強化學習的示教學習方法不僅能夠實現針對決策數據的學習,還能夠較好地學習到專家行為的動機.

目前,示教學習的主要應用領域為智能機器人操控.在應用過程中,目前示教學習方法也遇到了很多問題,這包括:如何將示教學習算法在不同機器人之間進行遷移[39];如何采用更少量的專家決策數據來學得較好的反饋信號[40]等.此外,將示教學習方法應用到更多的強化學習場景當中也是我們未來的研究方向之一.

猜你喜歡
決策專家狀態
致謝審稿專家
為可持續決策提供依據
狀態聯想
決策大數據
決策大數據
諸葛亮隆中決策
生命的另一種狀態
請叫我專家
堅持是成功前的狀態
專家面對面
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合