?

考慮行為克隆的深度強化學習股票交易策略

2024-02-05 07:11楊興雨陳亮威鄭蕭騰
系統管理學報 2024年1期
關鍵詞:股票交易克隆收益

楊興雨,陳亮威,鄭蕭騰,張 永

(廣東工業大學 管理學院,廣州 510520)

如何設計股票交易策略是金融領域中被廣泛關注的重要問題。傳統的交易策略利用股票的歷史價格數據進行技術分析,尋找合適的投資機會,例如雙推力策略[1]。然而,這類交易策略有一定的局限性。一方面,面對復雜的金融市場,策略的泛化能力較弱,不能很好地適應未來的價格變化;另一方面,策略依賴人類專家對市場規律的準確分析與把握,而人類專家可處理的信息量有限且存在認知偏差。

近年來,隨著人工智能的迅速發展,深度強化學習越來越多地被用于設計股票交易策略。強化學習與人類學習類似,通過與環境的不斷交互試錯來積累經驗,從而實現對環境的感知,并做出與環境相適應的決策[2],可應用于研究資產定價[3]等問題。深度學習通過多層網絡和非線性變換對輸入的信息進行特征提取,實現高維特征的表達,被廣泛應用于研究資產定價[4]、股價預測[5]與信用風險管理[6]等問題。深度強化學習將兩者結合,通過不斷地感知環境,實現從狀態空間到動作空間的映射轉換,使決策者同時具有深度感知能力和決策能力,并實現自適應的優化控制[7]。目前,深度強化學習廣泛應用于金融投資決策[8]、商品定價[9]、游戲博弈[10]等領域,展現了其在解決序列決策問題方面的優勢。

利用深度強化學習,可以直接從大量金融數據中學習得到股票交易策略,即根據決策時的價格等信息,對股票頭寸進行適應性調整。與傳統的交易策略相比,基于深度強化學習的股票交易策略具有較強的泛化能力。該策略設計方法可以方便地調整網絡層數與數據類型,具有良好的擴展性。對于利用深度強化學習設計的股票交易策略,智能體通過不斷地探索金融市場環境,利用市場反饋的收益獎勵,適應性地調整股票頭寸。然而,在探索過程中智能體缺少探索方向的指引,學習效率低,需要大量的探索才可能得到有效的股票交易策略。因此,本文借鑒模仿學習的思想,使智能體在保持自主探索能力的同時,將專家的投資決策作為探索的指引,即模仿專家的行為,從而提高智能體的決策質量與學習效率,使交易策略具有良好的盈利能力和抗風險能力。

基于上述分析,本文研究考慮行為克隆的深度強化學習股票交易策略。首先,選取股票的價格數據與技術因子作為強化學習中環境的狀態,用于模擬股票市場環境;其次,通過設計專家策略為智能體提供每個狀態的投資建議;再次,令智能體不斷探索股票市場環境,使用對決DQN(Dueling Deep Qlearning Network,DDQN)算法優化智能體的決策,利用行為克隆的方法,使智能體在環境中探索的同時模仿專家的決策,從而構造出考慮行為克隆的對決DQN 股票交易策略;最后,對交易策略進行數值分析,并檢驗策略的性能。

本文的主要貢獻如下:

(1) 將模仿學習中的行為克隆引入深度強化學習,讓智能體在探索的同時克隆專家的決策,提高智能體的決策水平。

(2) 結合深度強化學習與模仿學習,設計同時具有探索能力和模仿能力的股票交易策略,使交易策略具有良好的盈利與抗風險能力。

(3) 利用多只股票對所設計的策略進行測試,實驗結果表明,所設計的策略可以適應金融市場的變化,具有良好的泛化能力。

1 文獻綜述

利用深度強化學習算法設計股票交易策略已成為量化投資領域的新趨勢,受到眾多學者的廣泛關注,取得了豐富的研究成果。

許多學者提出了以Q 學習算法為框架的交易策略。Chakole等[11]利用K-Means聚類算法對股票狀態進行離散化,并確定每個狀態類別離散的交易動作集合,借助Q 學習算法設計了一個單只股票交易策略。由于深度學習的發展,可以利用神經網絡實現非離散的股票狀態到投資動作的映射,使強化學習也適用于狀態連續的決策問題。Li等[12]利用深度Q 學習(Deep Q-learning Network,DQN)算法分別在股票上實現了交易策略,通過數值實驗驗證了將深度強化學習用于設計股票交易策略的優勢。許杰等[13]利用長短期記憶網絡(LSTM)和卷積神經網絡(CNN),提出了一個可在復雜的金融市場中實現自動交易的DQN 股票交易算法??紤]到股票數據的噪聲與非線性往往是影響交易策略性能的重要因素,Wu等[14]利用門控循環單元(GRU)提取股票在時間維度上的特征,結合DQN 算法構造了GDQN 模型,實現了單只股票的自適應交易。Lucarelli等[15]設計了一個由單個全局智能體和多個局部智能體構成的深度Q 學習投資組合管理框架,其中,每個局部智能體負責單個資產的交易,全局智能體管理每個局部智能體的獎勵,且在加密貨幣市場對所設計策略進行了測試。Lee等[16]基于多智能體DQN 強化學習框架設計了一個分散化的投資組合策略。為了在動態的金融市場中實現穩定的決策,Jeong等[17]利用深度神經網絡提取股票價格數據的時序特征和挖掘交易信號,并結合DQN算法設計了具有良好魯棒性的深度強化學習交易策略。

在基于深度強化學習設計交易策略的過程中,上述研究只關注股票自身的信息,而在現實的投資決策過程中,往往還需要參考專家的決策建議。因此,本文考慮將模仿學習引入深度強化學習股票交易策略,使智能體在學習過程中模仿專家的決策,從而提高智能體的學習效率與決策質量。模仿學習使智能體通過模仿專家的決策過程學習策略。類似于強化學習,模仿學習也適用于決策問題,其廣泛應用于機器人控制[18]、自動駕駛[19]、游戲[20]等領域,例如AlphaGo即通過克隆人類圍棋選手的行為進行決策。然而,將模仿學習應用于金融領域的研究較少。Liu等[21]通過模仿學習使智能體在學習中盡可能地參考專家的投資決策,設計了一個高頻的期貨交易算法。

隨著深度強化學習算法的不斷發展,不少更穩定的DQN 改進算法被提出,例如對決DQN[22]。為了進一步豐富深度強化學習應用于股票交易的研究,本文將對決DQN 作為基礎模型,設計股票交易策略。同時,結合模仿學習的行為克隆方法,通過引入專家的決策信息,讓智能體在探索環境的同時克隆專家的決策,使其同時具有自主探索能力和模仿能力。將模仿學習引入強化學習,一方面可以利用專家信息作為智能體探索環境的指引,提高探索環境的效率與決策質量;另一方面保持智能體的自主探索能力,避免只依賴于行為克隆方法導致策略泛化能力弱的問題。

2 相關概念與原理

2.1 對決DQN 算法

強化學習是通過與環境的不斷交互試錯,根據環境反饋的獎勵,不斷優化策略。智能體觀測到環境的狀態s t,并根據策略π做出動作a t,然后從環境中得到獎勵r t,同時觀測到環境的下一個狀態s t+1??蚣苋鐖D1所示。

圖1 強化學習框架Fig.1 The framework of the reinforcement learning

智能體在狀態s t下執行動作a t,從環境中獲得的折扣獎勵記為u t,其期望稱為動作價值函數或Q函數,記為Q(s t,a t),即

式中,γ為折扣率,且γ∈(0,1)。動作價值函數可用于判斷動作a t的好壞。

Q 學習的目的是學習最優動作價值函數,使智能體做出最優決策,其更新公式為

2015年,Mnih等[7]基于深度神經網絡和Q 學習算法,使用Q 網絡代替Q 表,實現連續狀態到離散動作的映射,即(其 中θQ為Q 網絡的參數),提出了DQN 算法。同時,為充分利用智能體的探索經驗,DQN 引入經驗回放機制[23]。在智能體每次與環境交互之后,將經驗四元組(s t,a t,r t,s t+1)存放在經驗回放池P中。在訓練過程中,DQN 每次從P中隨機抽取N個四元組,并將當前Q值與目標Q值之間的均方誤差作為損失函數,即

然而,DQN 算法存在高估Q值的問題[24],對決DQN 算法是解決這一問題的方法之一。該算法通過改進DQN 中Q 網絡的結構,更準確地估計Q值。對于某個狀態,動作價值與狀態價值之差稱為動作優勢值,對決DQN 設計了狀態價值網絡和動作優勢網絡,分別計算智能體的狀態價值V(s)以及各動作的優勢值D(s,a),從而得到Q(s,a)。對決DQN 還包括一個共享網絡,其網絡結構如圖2所示。

圖2 對決DQN 框架Fig.2 The framework of the dueling DQN

2.2 行為克隆

模仿學習是一種針對專家決策進行模仿的方法,其中最直接的模仿學習方法是行為克隆(Behavior Cloning,BC),即對專家的決策行為進行克隆[26]。它以專家的決策動作為標簽,使智能體在克隆專家決策的過程中得到一個接近專家決策水平的策略。

行為克隆的決策流程如下:

(1) 構建一個專家訓練集D,由M個“(狀態,動作)”二元組組成,即

(2) 在監督學習的范式下,將智能體在N個狀態下的決策與專家決策的差距,定義為行為克隆的損失,即

(3) 計算損失值Loss(θμ),并利用梯度下降法優化策略網絡參數θμ,從而使智能體具有接近專家決策水平的能力。

3 考慮行為克隆的對決DQN 股票交易策略

在強化學習中,智能體不斷地在環境中進行探索,并根據環境反饋的獎勵,優化自身的策略。然而,智能體通過探索的方式學習策略,存在學習效率低、策略收斂速度慢的問題[27]。若智能體在學習過程中將有關決策的先驗知識作為指引,則有望提高其探索與學習的效率。因此,本文考慮利用機器學習中模仿學習的思想,賦予智能體模仿專家決策的能力,提高智能體的決策水平。具體地,本節結合對決DQN 與行為克隆,設計一個克隆專家決策的深度強化學習股票交易策略。

3.1 專家策略的構造

理想的專家行為應與市場行情一致,即專家在每期決策時已知當期股票價格的漲跌,并進行相應的買入或賣出操作。由于專家在每期期初調整資產頭寸時已知當期股票價格的漲跌,故專家只持有現金或股票。

專家決策規則如下:

(1) 若當期股票的收盤價高于開盤價,則專家買入股票。具體地,若專家當前持有現金,則全部買入股票;若專家當前持有股票,則繼續持有。記對應的交易動作為1。

(2) 若當期股票的收盤價低于開盤價,則專家賣出股票。具體地,若專家當前持有股票,則賣出全部股票,轉為持有現金;若專家當前持有現金,則繼續持有。記對應的交易動作為-1。

(3) 若當期股票行情持平,即收盤價等于開盤價,則專家不進行任何交易操作,記對應的交易動作為0。

綜上可知,第t期的專家動作可表示為

投資者難以預知未來股票的漲跌,而且該類型的專家策略只有在事后才能確定,因此,這類專家策略不能用于現實的股票交易。本文將該類型專家引入股票交易策略的訓練過程中,為智能體提供一個模仿對象,使智能體進行自主探索的同時根據專家的決策進行模仿學習。

3.2 股票策略的設計

為實現基于深度強化學習框架的股票交易策略,下面首先介紹環境的狀態、智能體的交易規則與動作以及環境中的獎勵函數,然后利用深度強化學習對決DQN 算法和行為克隆方法設計完整的股票交易策略。

3.2.1環境的狀態 狀態是對環境的一種描述,代表智能體從環境中所能獲取的信息。利用股票價格數據與技術因子等指標模擬真實的金融環境,包括每日股票的開盤價(Open)、最高價(High)、最低價(Low)、收盤價(Close)、相對強弱指數(RSI)、變動率指標(ROC)、順勢指標(CCI)、收盤價平滑異同移動平均線(MACD)、指數平均數指標(EMA)和成交量平滑異同移動平均線(VMACD)10個指標。智能體每次從環境中觀察到的狀態是股票在過去一個歷史時間窗口內(本文的歷史時間窗口大小是15個交易日)的各指標數據。狀態s的樣例如表1所示。

表1 環境的狀態s 的樣例Tab.1 The example of the environment state s

3.2.2智能體動作與獎勵函數 在投資過程中,投資者只持有股票或現金,不會同時持有兩者,在每期期初對資產頭寸進行調整,因此,投資者的決策包含將持有的資金全部買入股票、將持有的股票全部賣出和不進行任何交易3 種,分別記為1、-1 與0。智能體的動作記為a t,代表投資者的投資決策,其取值范圍為{1,-1,0},與專家動作一致。值得注意的是,相比于專家策略,智能體并不知道當期股票的漲跌,只能基于過去歷史時間窗口內的數據進行投資決策。

在強化學習中,通常選取Q值最大的動作作為智能體的動作,即然而,對于本文研究的股票交易問題,Q值最大的動作不一定能夠被執行。具體地,若當前不持有現金,則買入動作不能被執行;若當前不持有股票,則賣出動作不能被執行。因此,下面分3 種情形討論智能體的動作。為方便敘述,記第t期末股票的持有數量為m t,第t期末的現金數額為b t,交易費用率為c。

將第t+1期對數收益率作為環境對智能體的獎勵,即

3.2.3股票交易策略 股票投資是一個序列決策問題,可利用深度強化學習方法實現交易決策。相比于DQN 算法,對決DQN 算法能更準確地估計各投資動作帶來的未來期望收益。因此,本文基于對決DQN 算法設計股票交易策略。

令智能體在金融環境中探索。具體地,在第t期智能體觀察狀態st,通過ε貪心策略選擇投資動作a t,從環境中獲得相應的即期獎勵r t,隨后環境返回下一個狀態s t+1,得到一個經驗四元組(s t,a t,r t,s t+1)。為了打破經驗間相關性和重復利用經驗,采用經驗回放技巧,將智能體每次探索得到的經驗放入經驗回放池。當經驗數量大于閾值L時,開始對Q 網絡進行訓練。隨機抽取經驗回放池的N條經驗計算這批經驗四元組的實際Q值與目標Q值間的均方誤差,即

對決DQN 通過不斷地與環境交互以優化策略,這種基于探索的學習方式存在效率不高、策略收斂速度慢的問題。為此,本文將對決DQN 與行為克隆方法相結合,將專家的決策作為智能體模仿的對象,通過模仿專家來提高智能體的學習效率與決策質量。令智能體對被抽取的歷史狀態s i再次決策,對應的動作為,并與專家動作進行對比,然后計算智能體的模仿損失,即此處不應采用狀態si下的歷史動作a i與專家動作對比,是因為過去的決策不能及時反映智能體模仿的效果。

為使智能體同時具備探索環境和克隆專家決策的能力,本文將智能體的強化學習損失和模仿損失進行加權求和,作為智能體的最終損失??紤]到智能體的強化學習損失與模仿損失存在量綱不一致的問題,若直接聯結智能體強化學習損失和模仿損失,則調節效果不明顯。因此,本文利用兩個損失的極差解決該問題。具體地,智能體強化學習損失和模仿學習損失的極差的定義為:

利用極差分別對這兩部分的損失進行歸一化,再利用參數λ1、λ2加權處理后的損失,最終構造模型的損失函數。具體定義為

式中:θ為Q 網絡的參數;λ1和λ2分別為探索損失與模仿損失的權重,用于調節智能體探索能力和模仿專家的程度,λ1+λ2=1,λ1∈[0,1]。當λ1=0,λ2=1時,智能體僅具有克隆專家決策的能力。隨著λ1的不斷增大和λ2的不斷減小,智能體的探索能力逐漸增強,模仿能力逐漸減弱。當λ1=1,λ2=0時,智能體僅具有自主探索的能力。

利用梯度下降法對Q 網絡參數θ進行更新,更新公式為

式中,α為學習率。

綜上所述,本文設計了考慮行為克隆的對決DQN 股票交易策略,稱為BCDDQN(Behavior Cloning Dueling Deep Q-learning Network)。該策略的整體算法框架如圖3所示。

圖3 股票交易策略BCDDQN 的算法框架Fig.3 The algorithm framework of the stock trading strategy BCDDQN

偽代碼如算法1所示:

4 實驗設計與結果分析

為檢驗上節所設計的BCDDQN 策略的性能,將在多只股票上對其進行訓練與測試,同時與多個基準策略進行對比,并分析相關的實驗結果。

4.1 實驗數據

從銀行、房地產、制造業與高新科技行業選取4只股票作為測試對象,分別是中國A 股市場的平安銀行、萬科A、格力電器和紫光股份。為了更充分地說明策略的性能,額外選取銀行業指數、家電行業指數與滬深300指數作為測試對象。

描述環境狀態的資產數據從東方財富網中獲得,時間段是2011年3月1日至2023年3 月1日。其中,將2011-03-01~2020-02-07 的交易數據作為訓練集,將2020-02-10~2023-03-01的交易數據作為測試集。由于策略在決策時需要使用過去15個交易日的數據,故測試數據中初始決策日實際為2020年3月1日。對于數據殘缺值,采取過去歷史時間窗口內的平均值進行代替。

4.2 網絡結構與參數

在實驗中,選取3 個全連接神經網絡作為BCDDQN 策略的共享網絡、狀態價值網絡與動作優勢值網絡。選取股票的10個指標在過去15個交易日的每日數據作為狀態s,將其轉換為一個150維的向量作為Q 網絡的輸入,亦即共享網絡的輸入。設置共享網絡輸出層的節點數為50,即狀態價值網絡與動作優勢值網絡輸入層的節點數為50。后兩者的輸出層節點數分別為3和1。Q 網絡最終輸出一個維度為3的向量,各分量分別為買入、持有和賣出3個動作的價值。

設置智能體與環境交互的回合E=100,學習率α=0.001,經驗回放池中經驗數量閾值L=1 500,每次抽取經驗四元組的個數N=512,探索損失權重λ1與模仿損失權重λ2均為0.5。在訓練過程中,Q網絡參數每更新10次,目標Q網絡參數更新一次。另外,除了交易成本靈敏度分析,取交易費用率為0.3%。

4.3 對比策略

本文將與買入并持有策略、基于DQN 的交易算法、基于對決DQN 的交易算法、基于行為克隆的交易算法以及A 股市場指數在測試集內的表現進行對比。各對比策略介紹如下:

(1) 買入并持有策略(B&H)。該策略在第1期使用全部現金買入股票,此后不進行任何買賣操作,其最終累計收益完全由市場決定。因此,通過觀察B&H 策略的走勢,可以判斷該股票在各階段內是否發生了較大的價格變化。

(2) 基于DQN 的交易策略。該算法適用于解決狀態連續的序列決策問題,其決策動作是離散的。DQN 算法可用于實現股票交易,在每一期選擇對股票進行買入、持有或賣出的決策。

(3) 基于對決DQN 的交易策略。與DQN 算法類似,該算法同樣適合于解決連續狀態的序列決策問題,其決策動作是離散的。相對于DQN 算法,對決DQN 對動作價值的估計更準確。

(4) 基于行為克隆的交易策略。該策略僅利用行為克隆的模仿學習方法。該算法中的智能體不與環境進行交互,而是在監督學習的范式下,以專家決策為標簽,通過克隆專家的決策學習股票交易策略。

(5) 市場策略。利用A 股指數在測試時間段內的表現與BCDDQN 進行對比,從而判斷BCDDQN盈利表現是否能夠高于市場整體水平。

在各策略訓練完成后,將它們分別在不同股票上進行測試,記錄每期的累計收益率,并選取年化收益率、夏普比率與卡瑪比率作為評價策略性能的指標,計算公式分別為:

式中:y為投資年限;n為投資期數;S n為累計至n期的收益率;最大回撤

rf為無風險年化收益率;σ為日收益率的年化標準差。本文取rf=0.03。

4.4 實驗結果與分析

本節對比各策略在累計收益率、夏普比率和卡瑪比率等指標上的表現,以此分析損失函數中權重λ1、λ2和 交易成本對本文策略BCDDQN 的影響,并對BCDDQN 策略進行超額收益檢驗。

4.4.1策略的收益表現 為檢驗本文策略的盈利能力,分別使用上述所選標的資產對其進行測試,計算策略在各標的資產上的逐日累計收益率,并與其他策略進行對比,如圖4所示。

圖4 各策略在不同標的資產上的逐日累計收益率對比Fig.4 The comparison of daily cumulative returns of the strategies on different underlying assets

由圖4可以發現:對比基于行為克隆的交易算法,BCDDQN 策略的逐日累計收益率更高?;谛袨榭寺〉慕灰姿惴ㄈ鄙僮灾魈剿髂芰?其每期的投資動作只是針對當期情況做出,而強化學習方法會考慮對未來期望收益的影響。通過觀察BCDDQN 策略在7 只標的資產上的表現,可以發現:當市場上漲時,智能體往往能夠持有股票賺取收益;反之,當市場下跌時,智能體往往能夠賣出股票減少損失。這體現了BCDDQN 策略具有充分應對股票價格變化的能力和較好的泛化能力。DQN 與DDQN 交易算法缺少模仿專家投資決策的能力,僅通過自主探索能力所學策略不能很好地適應未來復雜且變化的金融市場,導致策略的收益表現不足。對比DQN 和DDQN 只有自主探索能力的交易算法,BCDDQN 策略的逐日累計收益率也是最高的。BCDDQN 策略通過行為克隆的方法模仿專家決策,充分利用專家的投資建議,從而智能體在各狀態下能更準確地執行投資動作。因此,同時結合強化學習和模仿學習的股票交易策略有更好的收益表現,其逐日累計收益率明顯高于其他對比策略。

4.4.2策略風險調整的收益表現 衡量股票交易策略的性能既要考慮收益也要考慮風險,因此關注策略風險調整的收益表現。測試各策略并計算夏普比率和卡瑪比率,結果如表2、3所示。

表2 各策略的夏普比率Tab.2 The Sharpe ratios of the strategies

表3 各策略的卡瑪比率Tab.3 The Calmar ratios of the strategies

由表2、3可知,BCDDQN 策略的風險調整后的收益均優于其他策略?;谛袨榭寺〉牟呗詢H模仿專家的決策,在學習過程中缺少收益等信息的指示,即智能體不知道決策可帶來的獎勵與動作價值,最終策略的收益表現不足。BCDDQN 策略在模仿的同時保持了自主探索能力,不僅模仿專家的投資決策,而且還利用環境反饋的獎勵信息調整策略,從而提高策略在風險調整后的收益。

DQN 和DDQN 交易策略只是根據每期的對數收益率來調整投資策略,則智能體可能會執行冒險的投資動作來賺取收益而忽略風險。BCDDQN 策略通過引入專家決策進行模仿,使智能體在探索時考慮決策可實現收益的同時減少決策帶來的風險,最終策略具有良好的風險調整后的收益表現。同時,策略的抗風險表現也是股票交易策略的重要性能,相關結果如表4所示。由表4可知,BCDDQN 策略抗風險的表現也是最優的。綜上所述,BCDDQN 策略在所選股票上展現了良好的適用性和抗風險能力。

表4 各策略的最大回撤Tab.4 The maximum drawdowns of the strategies

4.4.3行為克隆與對決Q 網絡的作用 為了進一步驗證智能體在探索環境時克隆專家決策的有效性以及不同類型Q 網絡對策略的影響,本文設計了考慮行為克隆的DQN 算法,記為BCDQN(Behavior Cloning Deep Q-learning Network)策略。BCDQN策略分別與DQN 交易算法和BCDDQN 策略對比年化收益率,從而驗證使用行為克隆和對決Q 網絡的作用。BCDDQN 策略與DDQN 交易算法對比年化收益率,用于驗證克隆專家決策的作用;DDQN 交易算法與DQN 交易算法對比年化收益率,用于驗證使用對決Q 網絡的作用。實驗結果如表5所示。

表5 各策略的年化收益率Tab.5 The annualized percentage yields of the strategies

由表5可知:在多數股票上考慮行為克隆的深度強化學習交易策略對比未考慮行為克隆的深度強化學習股票交易策略實現了更高的收益,即BCDQN 策略好于DQN策略,且BCDDQN 策略好于DDQN策略;使用對決Q 網絡的策略對比使用傳統Q 網絡的策略,在多數股票上實現了更高的年化收益率,即DDQN 策略好于DQN策略,且BCDDQN策略好于BCDQN策略。BCDDQN 策略結合強化學習和模仿學習兩種方法,不僅保持了在環境中自主探索的能力,而且還具有克隆專家決策的能力,使智能體在學習時同時利用自主探索的學習經驗和專家的投資建議優化投資策略,從而智能體執行更為恰當的投資動作,帶來更高的收益。

4.4.4損失函數中權重對策略的影響 本文策略通過探索損失權重λ1與模仿損失權重λ2控制智能體自主探索和克隆專家決策的程度。為了分析損失函數中權重對策略的影響,分別計算BCDDQN 策略在不同權重取值下的年化收益率,如表6所示。

表6 參數λ1 與λ2 對各策略年化收益率的影響Tab.6 The impact of parametersλ1 and λ2 on the annualized percentage yields of the strategies

由表6可知:當λ1取值較小、λ2取值較大時,智能體主要依賴于專家過去的決策經驗進行模仿學習,并利用所學投資策略做出關于未來市場的決策,策略在缺少足夠的探索時未能實現良好的收益;當λ1取值較大、λ2取值較小時,智能體主要依賴于自主探索能力進行學習,智能體在探索過程中模仿專家的投資建議不充分,所學策略不能充分體現專家的決策規則,使得策略可帶來的收益降低;當λ1、λ2取值恰當時,智能體在環境中探索時具有充分的自主探索能力和克隆專家決策能力,策略在各股均實現良好的收益。因此,應同時保持智能體的自主探索能力和模仿能力,使智能體在學習過程中充分利用環境反饋的信息和專家的投資建議不斷地優化投資策略。

4.4.5交易成本對策略收益的影響 交易成本是影響策略實現收益的重要因素之一,智能體每次買賣標的資產時均會產生交易費用。為了分析交易成本對策略收益的影響,對各策略在交易費用率分別為0.00%、0.15%、0.30%、0.45%和0.60%時進行測試,計算它們在不同交易成本下最終實現的年化收益率。具體結果如圖5所示。

圖5 交易成本對策略收益的影響Fig.5 The impact of transaction costs on the returns of the strategies

由實驗結果可知,當交易費用率不斷提高時,各股票交易策略可實現的收益均呈現下降趨勢。本文提出的BCDDQN 股票交易策略,在不同的交易費用率下,其收益變化曲線均高于其他策略的收益變化曲線,且在各股中實現了最高的年化收益率。即使在高交易費用率下,BCDDQN 股票交易策略仍然表現出良好的盈利能力,相比于其他策略具備更高的收益性和穩定性。因此,同時保持智能體的自主探索能力和模仿能力,能有效提高智能體的投資決策水平,使股票交易策略有良好的收益表現。

4.4.6基于Fama-French三因子模型與五因子模型的策略超額收益檢驗 實現超額收益是交易策略的核心目標之一,一個交易策略如果能持續地獲得超額收益,則意味著該策略具有一定的市場優勢,并能夠抓住市場中存在的收益機會。為了檢驗BCDDQN 策略是否具有市場優勢,利用Fama-French 三因子模型[28]與Fama-French 五因子模型[29]對BCDDQN 策略進行超額收益檢驗,檢驗結果如表7、8所示。實驗結果表明,BCDDQN 策略在測試集中均實現超額收益且通過顯著性檢驗。本文策略為投資者實現了比市場平均水平更高的收益,從而增加投資者的回報。

表7 基于Fama-French三因子模型的BCDDQN超額收益檢驗Tab.7 The excess return test of the strategy BCDDQN based on Fama-French three-factor model

表8 基于Fama-French五因子模型的BCDDQN超額收益檢驗Tab.8 The excess return test of the strategy BCDDQN based on Fama-French five-factor model

5 結語

本文將專家的決策信息引入深度強化學習對決DQN 算法中,設計了同時具有探索能力和模仿能力的股票交易策略。利用不同標的資產數據對本文策略進行測試,實驗發現:本文策略在收益和風險指標上均表現良好,具有較強的抗風險能力與適用性。這說明,模仿專家決策的同時保持自主學習能力能夠有效提高交易策略的表現。

本文存在一些不足。設計的交易策略只適用單只股票的投資決策,在決策過程中僅使用歷史價格數據與技術指標。因此,未來研究將利用多源異構的股票數據,包括基本面數據和財經文本數據,設計交易多只股票的策略。

猜你喜歡
股票交易克隆收益
克隆狼
浙江:誕生首批體細胞克隆豬
螃蟹爬上“網” 收益落進兜
“委托炒股”型賄賂犯罪法律適用研究*
心理學在股票交易中的應用
怎么設定你的年化收益目標
抗BP5-KLH多克隆抗體的制備及鑒定
2015年理財“6宗最”誰能給你穩穩的收益
Galectin-7多克隆抗體的制備與鑒定
再論波普爾的“預告的不精確性”
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合