?

機器學習在股票預測中的應用綜述

2020-06-18 05:44徐浩然徐可文
計算機工程與應用 2020年12期
關鍵詞:股票準確率神經網絡

徐浩然,許 波,徐可文

廣東財經大學 信息學院,廣州510000

1 引言

自股市誕生以來,由于股票市場的高回報性,股票的波動一直引起大家的高度關注,研究者希望通過研究,揭示股票運行規律,對其價格走勢進行預測。但是,股票市場是一個非常復雜的系統,其非線性、不平穩性、復雜性等特點導致對股票價格的預測研究變得十分困難。

早期的股票行情分析,主要包括基本面分析和技術分析?;久娣治鲋饕峭ㄟ^公司的整體運營情況、財務報表以及行業的發展趨勢和宏觀經濟運行態勢對公司價值及其未來的股價走勢進行預測?;久娣治鍪禽o助投資者進行長線投資的主要依據。而技術分析,則更關心證券市場本身的變化因素,通過股價、成交量或漲跌指數等數據計算得到各種技術指標,使用這些技術指標以及圖表展現過去股票價格走勢,從而對該股票未來的價格進行預測。

與基本面分析及技術分析不同,許多學者將股票每日的收盤價按照時間先后順序列出,構造成股票時間序列模型。根據股票歷史價格走勢對未來短期變化趨勢進行預測,其中,最為著名的便是ARIMA[1]模型。近些年,許多學者如:Zheng[2]、Rangel-Gonzalez[3]、宋剛[4]等對ARIMA算法進行了進一步的優化與改進工作。

隨著大數據時代的到來,股票市場中海量的數據引起了眾多學者的關注。機器學習方法,例如:支持向量機、神經網絡、決策樹等方法被廣泛應用于股票預測領域。其在處理復雜以及大量數據上面表現出的優勢,解決了傳統方法的許多局限性。研究者們通過股票市場中產生的大量歷史數據,結合機器學習算法進行建模與訓練,并通過訓練出的模型來對股票未來的走勢進行預測,較傳統的方法極大提高預測的準確率,具有十分重要的理論和現實意義。

本文重點收集了近幾年來在股票預測領域使用機器學習方法的主要文獻,從股票預測研究的主要問題、特征工程以及機器學習算法的應用(如圖1)三個方面分別進行分析和總結。對該領域研究的難點與不足進行歸納,并淺析該領域研究未來可能有的發展動向。力求使讀者能對該領域的研究現狀全面認識,并且提供了一些未來可能的研究思路。

2 股票預測主要研究問題

在股票預測問題上,不同的學者的關注點不盡相同。不同的研究問題,其實驗結果的表現形式也不一樣。研究者關注的主要問題包括以下幾個方面。

2.1 股票價格的預測

研究者希望通過訓練一種機器學習模型,對股票未來的價格進行預測。對股票具體價位的預測實質上是一類回歸問題。研究者將通過模型預測出的股價與實際股價進行對比,并通過MSE、RMSE、MAE等指標衡量股價預測的準確率。而另一部分學者則關注未來股價的變動趨勢,將股價預測問題轉換為二分類問題,構建one-hot編碼作為標簽,即若未來一段時間內的股票收盤價大于當天收盤價則記為1,否則便記為0,并通過準確率、AUC、召回率等指標可以衡量預測的效果。但是在實際股票投資中,股票的漲跌幅度對投資者收益影響較大,二分類的漲跌預測往往很難滿足實際應用中的需求,部分學者將“上漲”“下跌”的二分類問題轉化為“小漲”“大漲”“小跌”“大跌”的四分類問題進行分類預測。

2.2 轉折點的預測

由于股票價格短期變化的不確定性,對于其轉折點的預測被許多學者所關注。準確的預測股票價格變動的轉折點,在轉折點位置進行相應的買賣操作,對于投資決策具有十分重要的意義。Chang等人[5]將分段線性表示PLR結合BP神經網絡對股票轉折點進行預測。李豐等人[6]通過使用PLR和高斯過程分類方法,提取股票歷史價格序列的轉折點,對轉折點進行分類標記,并通過實驗證明其對股票轉折點預測模型的有效性。Tang[7]將分段線性表示(PLR)和加權支持向量機(WSVM)相結合,對股票TPs進行預測,并且在文中提出了幾種提高PLR-WSVM模型性能的方法。

2.3 量化投資模型

與使用統計指標評估模型的準確率不同,一些學者更關注股票預測模型在實際市場上的量化投資收益。Buncic[8]使用動態模型平均法構建了股票回報率預測模型,并根據預測結果建立投資組合,其較被動的指數投資策略獲得了可觀的收益。秦璐[9]提出區域標記法,把某一段頂部、底部區域的點進行全部標記,來代替只標記最高、最低點的傳統單點標記法。其方法使得股票交易收益更加穩定,且更符合證券市場的實際情況。

3 特征工程

在機器學習實驗,特別是股票預測實驗中,特征工程一直是十分重要的部分。股票市場經過長時間的發展,積累了大量反應股票趨勢變化的原始數據。從類型上來說,既包括大量個股的數據,也包括行業板塊、市場指數的數據。大多數學者如Wang等[10],選取道瓊斯指數、納斯達克指數作為較為成熟的股票市場代表,將我國的香港恒生指數、上證指數、創業板指數等作為新興股票市場代表進行研究,以此來比較其算法在成熟與新興市場的不同表現。為了減小市值較小的股票的異常波動對預測結果的影響,蘇治[11]選取了A股市場總市值前150位的公司數據。也有部分學者選取個股數據進行預測模型效果的評估,但是由于個股的變動隨機性較大,模型評估效果往往具有局限性。

同時,股票市場的各種輔助指標對于機器學習的預測也起到十分重要的作用,好的指標選取可以大大提高預測準確率的上限。早期的研究中,包含日期與收盤價的股票時間序列數據被廣泛應用于預測。開盤價、最高價、最低價、成交量、成交額、換手率等基礎交易數據也被眾多學者用作輔助預測的常用指標。隨著大數據技術的不斷發展,更多的股票歷史交易數據被用于預測,一些由金融、統計領域的行業專家構造的技術指標被更多的使用。鄧烜堃[12]將kdj、macd、boll等48個常用技術指標作為輔助訓練特征,取得了不錯的效果。伯毅[13]根據經驗,自行創造了一種支持壓力指標,并通過實驗論證加入其自創指標后的數據訓練效果要好于未加入之前的效果,說明其自創的指標可以提升模型的預測效果。

圖1 機器學習算法在股票預測應用思維導圖

近些年來,包括股票新聞、金融微博、論壇等社交媒體的文本數據被越來越多的用于股票預測。朱夢珺[14]對金融微博進行文本與語義分析,并對應相關股票的價格走勢進行擬合預測。Sun[15]使用大量社交媒體數據研究股票價格與社交媒體內容間的關系。余傳明[16]使用一種新的文本價格融合模型,對將股票論壇文本數據與股票價格指標結合進行預測,其準確率較單獨使用文本或者股價特征有了較大提升。

但是并不是越多的特征,預測效果就好越好。如何合理有效地選擇最有價值的特征指標進行訓練,去除對預測精度影響較小的特征,是一個十分重要的研究課題。Alsubaie[17]采用5種不同的特征選擇方法對50個廣泛使用的股票分析技術指標進行了排序,并且提出了一種成本敏感的微調樸素貝葉斯分類器,獲得了很好的投資收益。Tsai[18]提出了一種基于特征選擇的混合時間序列模型,首先采用逐步回歸,然后采用多元自適應回歸樣條MARS和使用核技巧的嶺回歸來選擇關鍵特征。于卓熙[19]運用主成分分析對應該股票價格變化的指標進行降維。鄧烜堃[12]利用DAE對選取的48個技術指標進行降維,并結合BPNN進行預測。其模型不僅大大降低了運行時間,而且較PCA、FA等降維方法在準確率上有所提升。

4 機器學習算法應用

4.1 支持向量機

支持向量機[20](SVM)是在統計學習理論基礎上發展形成的機器學習方法。其理論基礎主要是VC維理論和結構風險最小化原理,是建立在幾何距離基礎上的一種學習算法。由于其在解決小樣本、高維數據和非線性問題方面展現出特有的優勢,眾多學者將支持向量機模型用于股票預測領域。

Kim[21]直接把支持向量機用于股票預測,通過實驗論證了該方法較傳統的神經網絡方法效果更好。張貴生等[22]利用SVM處理高維面板數據的優勢,構建一種近鄰互信息的特征選擇模型。挖掘與目標股指相關的周邊金融市場的變化信息,對目標股指進行預測。Mei[23]將SVM與傳統的ARIMA模型結合,首先利用ARIMA模型進行預測,然后將其誤差結果作為SVM的輸入變量,以預測股價的波動方向。Alam[24]提出了一種結合輸入數據全局和局部特征的多核支持向量機。同時,利用果蠅優化算法(FFO)提出了一種參數整定方法,并將其應用于股市運動方向預測問題。

傳統的SVM更多地被用于解決分類問題,卻不適用于解決股價預測問題中的回歸問題。在SVM基礎上發展起來的基于非線性回歸技術的支持向量回歸機(SVR)解決了這一缺陷。Frohlich等[25]最先以遺傳演算法進行特征選取最優化的SVR模型研究。Huang[26]以臺灣股票市場的數據,建立了遺傳算法改進的SVR選股模型。實驗表明,采用遺傳算法進行特征選擇和參數尋優的SVR模型顯著增強該模型的預測準確率。Vilela[27]使用聚類方法結合SVR構造了一種兩階段模型。

許多學者基于SVM與SVR模型,對文本數據進行分析與預測。黃潤鵬[28]運用新浪微博的文本數據,構建情緒傾向時間序列,通過支持向量機模型,研究上證指數時間序列與情緒傾向時間序列之間的關系。Shynkevich[29]根據新聞與目標股票間的相關性,對新聞進行加權,并結合多核SVM模型進行預測。董理[30]從社交媒體中提取文本信息結合股票指標,使用SVR模型對股價進行預測。

SVM與SVR在解決高維特征的分類和回歸問題具有優勢,這也與股票預測領域的多特征數據相契合。同時,支持向量機中存在大量核函數可供使用,研究者可以根據實際問題選擇適合的核函數進行應用。但是,目前還沒有較好的方法解決核函數選取的問題,這也是未來的研究重點。同時,當該方法應用于大規模訓練樣本時會耗費大量的計算機內存和運算時間,這可能會限制其在大數據時代股票預測中的發展空間。

4.2 神經網絡

人工神經網絡(Artificial Neural Network,ANN)是人工智能領域的研究熱點。該算法從信息處理角度對人腦神經元網絡進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網絡。早在20世紀90年代,Varfis等人[31]便已經嘗試將人工神經網絡應用于金融時間序列問題。Hammad[32]采用前向多層人工神經網絡對多家公司的股票進行預測,證明人工神經網絡具有收斂快、精度高等優勢。Amin[33]通過實驗評估了幾種前饋人工神經網絡在納斯達克市場股票價格預測效果。劉恒等[34]利用貝葉斯正則化方法改進BP神經網絡,解決BP網絡陷入局部最優化影響泛化能力的問題。Qiu[35]使用全局搜索技術(GA/SA)結合人工神經網絡進行預測。冉楊帆[36]、戴德寶[37]等則比較了神經網絡和支持向量機方法在股票文本數據預測方面的效果。

傳統的神經網絡主要具有以下缺點:容易陷入局部最優化;需要訓練的權值過多;需要大量的樣本進行訓練且泛化能力不強,容易導致“過擬合問題”等。隨著近些年的大數據積累以及計算機運算能力的提升,深度學習在人工神經網絡的基礎上發展起來。相較于傳統神經網絡,深度學習模型層數更多,具有更強的特征提取能力,受到了廣泛的關注。

4.3 深度學習

受益于大數據技術以及計算機運算能力的提升,以卷積神經網絡CNN、循環神經網絡RNN、長短期記憶網絡LSTM、前饋神經網絡FNN等為代表的深度學習技術,在文本、圖像、語音視頻識別等領域取得了突破性的進展。而目前,越來越多的學者將目光投向股票預測領域,希望通過深度學習的最新技術來解決此類問題。Catalin[38]利用LSTM和CNN分別構建了股票預測模型,并根據其預測結果建立買賣策略。Kim[39]將LSTM和CNN模型結合,對于股票數據,分別從時間序列以及股票圖像兩種角度進行預測。彭燕[40]運用LSTM處理時間序列中間隔和延遲較長問題的優勢,解決RNN會遺忘之前狀態信息的缺點。曾安[41]依據時間序列前后兩個方向的序列關系,使用一種基于深度雙向LSTM的神經網絡預測模型解決長時間序列的梯度消失問題。

部分學者也提出了一些方法,對現有的深度學習結構進行了優化與改進。Wang[10]從輸入數據中提取主要成分并對其進行積分,構建出一種基于主成分分析的神經網絡STNN。Li[42]構建了一種結合極端學習器EML的深度學習結構。Zhou[43]構建了一個基于EMD和FNN的兩階段模型。利用信號分解的EMD經驗模態分解方法,將分解出來的IMF作為輸入變量,輸入FNN模型進行訓練。吳曼曼等人[44]在其基礎上進一步研究,證明了EMD結合Flman神經網絡進行股票預測的有效性。

與傳統的機器學習方法相比,不需要進行特征選擇是深度學習的一大優勢。在股票預測問題中,特征工程是十分困難的工作,不管是市場中的常用指標還是基于數學、統計學的專家指標,都很難令人信服。而深度學習可以使計算機自行進行特征選擇,比人工選擇具有更高的準確率。并且具有很高的適應性,同時也可以利用遷移學習方法進行相似領域的轉換。

深度學習同樣存在一些缺陷。首先深度學習需要大量的數據進行支持并且需要高端的GPU進行長時間的訓練才能收獲好的訓練效果。其次,深度學習“黑箱操作”的運算方法使其具有較差的解釋性,無法進行可視化展示,其訓練得出的結果無法找到對應的經濟學理論解釋,這也是深度學習在股票預測應用中難以令人信服的主要原因。

4.4 集成學習方法

集成學習,是指結合多個學習器進行學習任務的一種機器學習方法,也稱為分類器的集成。該方法可以對線性回歸、決策樹、支持向量機等基學習器進行集成訓練,其性能較單一學習器往往會有較大的提升。

Bagging是并行式集成學習方法的代表。謝琪等人[45]利用bagging方法,集成多個長短記憶神經網絡LSTM進行訓練,其預測準確率較單一的LSTM模型有了較大提升。Awajan[46]使用基于經驗模態分解EMD的bagging方對非平穩非線性的時間序列進行預測。Lohrmann[47]使用隨機森林模型對股票進行分類并根據結果制定交易策略和買入持有策略。

Boosting算法是常用的串行式集成學習算法。Zhang[48]采用adaboost算法進行預測,體現出集成學習算法在股票預測領域很好的性能。Zhang[49]將Adaboost算法與概率支持向量機PSVM、遺傳算法GA等結合進行股票轉折點的分類預測。王燕[50]利用網格搜索算法對Xgboost模型進行參數優化,尋找出準確率最優的Xgboost參數模型。Zhou[51]首次將級聯集成學習架構應用于股票指數的預測和交易,其將邏輯回歸模型LR級聯到梯度增強決策樹(GBDT)模型上,并進行模擬買賣實驗,證明其模型在實際應用中的利潤收益。

集成學習與傳統單一的機器學習算法相比往往具有更高的精度。隨機森林、Xgboost等方法也具有特征選擇的功能,便于處理包含多特征的股票數據。同時,其可解釋性高,可以很方便地進行可視化展示,易于用戶理解。但是該方法主要應用于股票預測中的漲跌分類問題,對應股價的回歸問題無法進行預測。

5 未來研究熱點與展望

目前機器學習在股票預測領域已經取得了非常不錯的成績,但是其綜合準確率,依然沒有達到令人非常滿意的效果。對于衡量股票價格預測準確率:MSE、RMSE、MAE等指標,以及股票漲跌趨勢準確率:AUC、召回率等指標,其精度較以往的研究有了大幅度的提升,但是還有進一步提升的空間。時間序列數據量過小以及特征工程復雜的工作都是目前股票預測領域的研究難點。所以,未來還有許多方面需要研究者進行探索。在今后的研究中,可能存在以下研究熱點。

5.1 遷移學習

股票時間序列的數據量較少是困擾深度學習方法應用的主要問題。在圖像處理領域中,遷移學習方法在解決小數據問題中取得了很好的效果,未來可以嘗試使用遷移學習方法解決股票領域數據量的問題。遷移學習[52](Transfer Learning,TL)是指將以前任務中學習到的知識和技能應用到新任務(新領域)中的能力。利用已經學習過的“源域”,應用到新的領域“目標域”之中進行輔助學習。傳統機器學習的股票預測方法都是單獨使用一只股票的時間序列數據對其未來價格進行預測,但對于一些發行時間較短,時間序列數據量較少股票的預測效果受到了較大的限制。由于股票市場中相似行業的公司股票價格變動規律往往具有相關性和聯動性,可以考慮使用遷移學習的方法(圖2),利用與目標股票相關度較高的其他股票數據進行輔助預測,或許是未來的研究熱點。

圖2 遷移學習與傳統機器學習在股票預測的比較

5.2 特征工程

“數據和特征決定機器學習的上限,而算法只是不斷逼近這個上限”。在此前的研究中,大量的研究者更關注于算法模型的構造與改進。但同時,特征工程仍有許多工作需要完成,是提升預測準確率的關鍵一環。

開盤價、收盤價、成交量、最高最低價等常用指標在短期股價預測中被廣泛使用。同時,可以嘗試在模型中輸入公司財務指標、宏觀經濟指標、行業相關指標等來預測某具體行業的上市公司長期的運行趨勢。文本分析依然有待更深入的研究,可以關注“股吧”“論壇”等社交網站中股民情緒變化與股票市場趨勢的關聯度。

另一方面,可以使用自適應算法對特征進行優化。典型的自適應算法包括迫零算法、最陡下降算法、LMS算法、RLS算法等,其主要思想是根據處理數據的數據特征自動調整處理方法處理參數、邊界條件或約束條件等,使其與所處理數據的統計分布特征、結構特征相適應,以取得最佳的處理效果。

5.3 深度學習模型融合

深度學習方法在股票預測中取得了較多的進展,由于其高預測精度的優勢,未來依然會被作為研究熱點。

目前最常用的CNN與LSTM模型各有優缺點。CNN在特征選擇上具有更好表現,而LSTM則更加關注時間序列之間的相關性。未來的研究中,考慮將CNN和LSTM進行模型融合,發揮其各自的優勢。Shi等[53]提出convlstm模型,在特征輸入LSTM前進行卷積操作,較好地解決城市降雨量預測問題中的時間與空間關聯性的問題。未來也可以探究該方法在股票預測中的應用。

另外,深度學習作為一種“黑箱操作”模型,存在解釋性差的缺點。未來可以更加關注其在進行股票預測過程中的經濟學理論意義和解釋性。

6 結束語

股票預測作為一個困擾研究者的重大問題,在這些年的研究中已經取得了不錯的進展。支持向量機、深度學習、集成學習等機器學習算法在該領域都受到了廣泛的關注。但是每種模型都存在其特有優勢和缺陷,預測準確率不高、解釋性差等問題凸顯。提高預測準確率、增加數據量、進行模型融合、增強模型的可解釋性等問題未來依然有待進一步的深入研究。

猜你喜歡
股票準確率神經網絡
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
神經網絡抑制無線通信干擾探究
基于神經網絡的中小學生情感分析
高速公路車牌識別標識站準確率驗證法
本周創出今年以來新高的股票
本周創出今年以來新高的股票
本周連續上漲3天以上的股票
近期連續漲、跌3天以上的股票
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合