?

支持向量機發展歷程及其應用

2024-04-09 14:57李召桐
信息系統工程 2024年3期
關鍵詞:支持向量機

李召桐

摘要:股票投資作為一種常見的投資方式,其投資方法也日新月異。越來越多的投資分析師利用計算機分析數據的優勢來進行股票交易。支持向量機(Support Vector Machine,SVM)作為一種數據挖掘技術,在高維、非線性、過擬合等問題上具有較強處理能力,在股價預測方面表現出特有優勢。系統論述了支持向量機的發展及其在預測領域中的應用,并構建SVM股票預測模型,運用股票數據對股票進行漲跌情況預測,通過選取核函數以及調整參數,并計算準確率、精確度、召回率、F1值等預測模型評估指標,分別進行SVM模型和SVM_RBF模型構建及模型效果評估。

關鍵詞:支持向量機;股價預測;核函數

一、前言

作為一種新的機器學習方法,依據結構風險最小原理,支持向量機表現出獨特的泛化和推廣能力,已逐漸成為國內外機器學習研究的熱點之一。20世紀90年代提出了支持向量機(SVM)的概念:支持向量機以統計學習理論(SLT)為基礎,基于結構風險最小化(SRM)原理建立數據模型,為解決有限數據樣本情況下的統計模式識別奠定了堅實的基礎。與傳統機器學習方法相比,該方法具有結構簡單、適應性好、全局最優、訓練速度快和泛化能力強等諸多優勢。

股價預測是投資策略形成和風險管理模型發展的基礎[1]。一個準確的股價預測可以為投資者提供更多在證券交易所獲利的機會,但由于股價趨勢的波動性、不規則性和高度不確定性,股價預測一直是極具挑戰的問題[2]。

本文簡要回顧了傳統支持向量機的發展歷史與基本理論,介紹了支持向量機的改進算法,系統總結了支持向量機在分類與回歸問題中的具體應用實例及其優勢,通過改進支持向量機預測模型,提高了股票漲跌預測準確率。

二、支持向量機理論發展歷程

(一)傳統支持向量機

支持向量機的基本思想如圖1所示,實心點和空心點分別代表2類數據樣本;H代表分類超平面;H1和H2分別代表數據樣本中離H最近且平行于H的面,H1和H2之間的距離稱為分類間隔(Margin)。H面不但能將H1和H2這2類樣本正確分開,而且使H1和H2之間的分類距離最大,在確保結構風險最小化的情況下,真正降低了風險。H1和H2上的數據樣本點就叫做支持向量(SupportVector)。

假設給定樣本數據為(xi,yi),i=1,2,...,其中xi∈Rn,yi∈{-1,+1}。n維空間中的線性判別式為:

f(x)=(m*xi)+n

分類超平面方程為:

(m*xi)+n=0

其中,m為權重向量;n為偏置向量。

此時,2類樣本到超平面的距離為1_||m||。為了使間隔距離最大,則需要||m||2最小,這樣最優分類超平面問題就可以轉化為滿足上述條件的一個凸二次優化問題:

該約束條件可引入Lagrange(拉格朗日)函數:

則可得出對偶問題:

進而,可得到最優分類函數:

其中,ai≥0為Lagrange乘子;

以上解決的問題是線性可分的。但在實際應用中,遇到的大多數問題是非線性可分問題,因此支持向量機的主要思想就是通過非線性變換將樣本數據映射到高維的特征向量空間(Hilbert空間)中,在高維特征向量空間中求得最優分類超平面,再用變換后的內積運算重復上述過程。依據統計學習理論,假設k(x,y)為內積函數,即核函數(KernelFunction),用核函數代替決策函數,即:

在求解過程中常用的算法有塊算法、分解算法、增量算法、序列最小優化算法和多類分類算法等。

(二)改進支持向量機

隨著數學其他領域的突破,傳統的支持向量機理論和技術得以快速發展,出現了眾多的改進支持向量機理論,例如模糊支持向量機、最小二乘支持向量機、KNN-支持向量機、BS-支持向量機等。

2002年提出了模糊支持向量機,該方法主要是根據樣本輸入不同導致分類效果不同以及懲罰系數會隨樣本隸屬度的變化而變化等特點,進一步削弱孤立點或噪聲對支持向量機分類結果的影響。具體做法是各樣本點對應一個隸屬度Si(0

式中,C為懲罰系數;ei為松弛變量;Siei表示不同樣本被錯分的程度。

引入Lagrange函數得出對偶問題:

即得到最優分類函數:

f(x)=sgn{(m*x)+n}

其中,SiC表示樣本xi的重要程度。當SiC越大時,xi被錯分的可能性就越低,分類間隔就越??;反之,分類間隔就越大。對于噪聲或者孤立點而言,Si越小,對應的SiC就越小,從而提高了分類的準確度。

20世紀90年代末提出了最小二乘支持向量機,該算法遵循結構風險最小化的原則,將傳統的支持向量機中的不等式約束問題轉化為等式約束問題,將二次規劃問題轉化為線性方程組來求解:

式中,e為誤差變量;γ為正則化參數,可平衡擬合精度和模型推廣度。

最小二乘支持向量機在很大程度上降低了樣本點在訓練過程中的復雜度,運算速度方面也遠遠超過傳統支持向量機。

李紅蓮等[3]提出了NN-支持向量機,具體做法是將訓練集中的樣本與其最近鄰的類進行對比,同類保留,異類剔除,再利用支持向量機構造分類器。該算法采用歐氏距離作為2個向量之間的距離,即假設xi=(xi1,xi2,…,xin),xj=(xj1,xj2,…,xjn),則xi與xj之間的距離定義為:

最近鄰即為歐氏距離最近的樣本。與傳統支持向量機相比,NN-支持向量機具有分類時間短、正確率高、可用于大數據訓練樣本等優勢。

郭亞琴等[4]提出了BS-支持向量機,該算法主要對全部樣本數據進行訓練從而得到全部模式的模型,再對全部樣本進行識別。識別過程中,需要計算每個模式類樣本的均值μi以及訓練樣本到樣本均值的距離dij:

計算樣本屬于模式類的概率:

根據概率值進行由大到小排序,假設期望模式下識別概率為pjn,計算相對概率值RP:

通過RP的大小可將樣本分為好樣本、差樣本和邊界樣本3類,再取邊界樣本進行訓練得到分類器。該方法具有分類速度快、正確率高、訓練樣本集大的優點。

除了以上幾種改進的支持向量機外,還有中心支持向量機、小波支持向量機 和推理型支持向量機等,隨著支持向量機的不斷改進與發展,將會出現更多的改進支持向量機算法。

三、SVM模型預測股票漲跌實例

(一)股票數據讀取

通過tushare獲取相關數據,得到其開盤價、收盤價、最高價、最低價以及交易量等信息。選取中國寶安代碼為000009.sz這一股票,如表1所示,時間范圍為2009年1月5日—2021年4月30日,通過采用開盤價、收盤價、最高價、最低價以及交易量等信息,運用SVM模型預測股票漲跌。

(二)股票數據處理

首先選取開盤價、收盤價、最高價、最低價以及交易量股票信息作為特征列預測股票漲跌情況,然后以當日收盤價和上一日收盤價之差得到漲跌情況作為標簽列,本文中以1代表上漲、0代表下跌,并對數據進行標準化處理。

(三)SVM模型構建及模型效果評估

首先提取特征變量和標簽,然后劃分訓練集和測試集,訓練集占總數據數量的80%,測試集占20%。

通過網格搜索方式擬合SVM模型,預測股票漲跌情況,并對預測精確度進行評估,如表2所示。

表3結果顯示,模型預測精確率為0.52,模型預測準確率是指預測正確的所有樣本除以總樣本,通常來說越接近1越好。

(四)SVM_RBF模型構建及模型效果評估

首先,通過選取核函數對模型進行模型參數調整,然后再次進行股票漲跌預測,并對預測效果進行評估,RBF核函數評價較好,表2展示了SVM_RBF模型評價參數。

SVM模型效果評估指標主要有準確率、精確度、召回率、F1值,如表2和表4所示,以跌0為例,準確率表示預測正確的所有樣本除以總樣本,通常來說越接近1越好,本次模型準確率為0.518;精確度表示預測為0的樣本中真正為0的比例,模型精確度為0.54;召回率表示所有真實為0的樣本中,預測正確的樣本所占比例,模型召回率為0.46;F1值是精確度和召回率的調和平均值,精確度和召回率都高時, F1值也會高, F1值在1時達到最佳值。

四、結語

綜上所述,本文系統論述了支持向量機的發展及其在預測領域的應用,并構建SVM股票預測模型,運用股票數據對股票進行漲跌情況預測,分別進行SVM模型和SVM_RBF模型構建及模型效果評估。本次研究仍存在很多不足之處,比如模型較簡單,可以結合其他模型增強預測能力,此外,提取股票特征方面,可以增加其他特征或者對特征有效性進行評估,模型整體的預測能力還有待改進。

參考文獻

[1] Huang J, Liu J. Using social media mining technology to improve stock price forecast accuracy [J].Journal of Forecasting, 2020,39(01): 104-116.

[2] Huang S, Liu S. Machine Learning on Stock Price Move?ment Forecast: The Sample of the Taiwan Stock Exchange[J].International Journal of Economics and Financial Issues, 2019,9(01):189-201.

[3]李紅蓮,王春花,袁保宗.一種改進的支持向量機NN-SVM[J].計算機學報,2003(08):1015-1020.

[4]郭亞琴,王正群.一種改進的支持向量機BS-SVM[J].微電子學與計算機,2010,27(06):54-56.

責任編輯:張津平、尚丹

猜你喜歡
支持向量機
基于支持向量回歸機的電能質量評估
基于智能優化算法選擇特征的網絡入侵檢測
數據挖掘技術在電廠經濟性分析系統中的應用Q
基于改進支持向量機的船舶縱搖預報模型
基于SVM的煙草銷售量預測
動態場景中的視覺目標識別方法分析
論提高裝備故障預測準確度的方法途徑
基于熵技術的公共事業費最優組合預測
基于支持向量機的金融數據分析研究
管理類研究生支持向量機預測決策實驗教學研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合