?

基于SVM的煙草銷售量預測

2016-12-22 21:52劉璐丁福利孫立民
軟件導刊 2016年11期
關鍵詞:支持向量機

劉璐 丁福利 孫立民

摘 要:煙草銷售量預測能為煙草生產、運輸、配送提供指導,使煙草行業能更好地適應市場需求。煙草銷售量受眾多因素的影響,具有季節性和周期性規律,傳統的線性模型難以進行準確的預測?;谥С窒蛄繖C建立煙草銷售量的多維時間序列模型,實驗結果表明,該模型具有較高的預測精度,能夠準確地反映煙草銷售量的變化趨勢。對比實驗也表明,所提出的方法比其它幾種方法預測精度高,可以為煙草行業的銷售管理提供科學依據,具有實用價值。

關鍵詞:煙草銷售量預測;支持向量機;多維時間序列

DOIDOI:10.11907/rjdk.162026

中圖分類號:TP319

文獻標識碼:A 文章編號文章編號:16727800(2016)011013403

0 引言

中國是世界上最大的煙草生產國和消費國[1]。煙草銷售是煙草行業管理中最為關鍵的部分,準確的煙草銷售預測能為煙草生產、運輸、配送提供指導,而要進行準確的煙草銷售預測必須找到合適的預測方法。因此,如何設計高精度的煙草銷售預測方法是煙草行業管理的重要課題。

傳統煙草銷售量預測方法的研究主要集中在對煙草零售經營者訂單的管理分析中,而且采用銷售人員意見匯總法、德爾菲法(經理及員工的意見)等為主的人工預測方法[2]。這種人工預測方法業務流程較多,浪費大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場需求。從機器學習的角度上看,煙草銷售量的預測屬于回歸問題[3],而回歸包括線性回歸和非線性回歸。文獻[4]在對煙草銷售量數據進行分析的基礎上,提出了一種線性預測模型,但由于煙草銷售量受季節、人口、市場、節假日等一系列因素的共同影響,并不適合采用線性回歸方法進行預測。在非線性回歸方法中,較為常用的有神經網絡和支持向量機(SVM)。文獻[5]基于BP神經網絡對煙草銷售量進行建模并預測,而神經網絡是基于經驗風險最小化,不僅泛化能力較差,而且存在局部極小點問題[6],因此神經網絡雖然對原始數據的擬合能力較強,但對未來數據的推廣能力較差,而對未來數據的推廣能力往往更能反映學習機器的實用價值。支持向量機基于結構風險最小化,泛化能力強且預測精度高。因此,本文采用支持向量機方法對煙草銷售量進行建模預測。

1 支持向量回歸機

2 預測方法

2.1 數據預處理

本文收集到了云煙品牌一個品類2006年1月~2011年10月共6年的銷售數據,銷售數據信息中包括銷售量、銷售日期(年月日)、倉庫編號、發票信息、審核人信息等,其中對銷售量預測影響最大的是銷售日期及對應的銷售量。由于中國的香煙銷售對陰歷呈現出更強的規律性,因此將銷售統計數據轉換為以陰歷月為標準。

2.2 數據歸一化處理

由表1可以看出,各列數據屬性不同,數值范圍相差較大。為避免數值范圍較大的屬性控制數值范圍較小的屬性,使數據具有統一性和可比性,將屬性值都歸一化[10]為[0,1]之間。歸一化所用公式為:

2.3 模型定階

由于煙草銷售量預測屬于經濟預測,因此它不僅與當前日期有關,更與之前的銷售信息有關。為確定當前銷售量與前多少個月的銷售信息關系最大,需要通過拓階[11]的方法來確定。

設煙草銷售量數據的一個樣本為{yi,yeari,monthi},yi為第i個樣本中的煙草銷售量,yeari為當前年份,monthi為當前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過拓階能夠更為準確地得到自變量和因變量的函數依賴關系。當階數為n時,表示將前n個樣本中的信息添加到當前樣本中的自變量中。即用前n個月的銷售信息和當前年月來預測當前銷售量。此時,自變量總數為(3×n+2),其中n為階數。通過SVM由低階到高階逐步進行拓階,模型每拓一階,自變量相應地增加 3個。對于每一次的拓階,以MSE最小為標準決定是否接受拓階。設SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優階數n。通過對煙草數據的拓階,得到拓階結果如圖2所示。

2.4 回歸模型的參數選擇

當訓練模型確定后,通過支持向量回歸機進行預測。由于徑向基核函數的準確率較高,并且大多數SVM默認的核函數也是徑向基核函數[12],本文亦采用徑向基核函數。

3 實驗結果與分析

以云煙數據集為例,選擇2006年1月-2010年12月的銷售量數據為訓練樣本,以2011年1-10月的銷售量數據為測試樣本。在本文算法實現過程中,實驗環境配置如表2所示。

4 結語

通過預測煙草銷售量可以提前了解煙草的銷售動態,為煙草物流、倉儲等部門提供決策依據。本文基于支持向量機建立煙草銷售預測的多維時間序列模型。實驗證明,根據本文方法建立的模型所預測的結果與實際結果基本一致,能夠比較準確地反映煙草銷售量的變化趨勢。對比實驗也證明,與其它幾種方法相比,本文方法預測誤差最小。綜上,本文所述方法是合理有效的,可以應用到實際煙草銷售量預測中。

參考文獻:

[1] 蔣德珺.我國煙草業國際化戰略研究[J].北方經濟,2012(14):9495.

[2] 利普·科特勒,洪瑞云,梁紹明,等.市場營銷管理 [M].亞洲版·2版.北京:中國人民大學出版社,2001.

[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計算機應用,2012,32(9):25042507.

[4] 張素平.基于乘法模型的內蒙古烏蘭察布市卷煙總銷量預測研究[J].內蒙古科技與經濟,2012(21):3335.

[5] 仲東亭,張玥.BP神經網絡對煙草銷售量預測方法的改進研究[J].工業技術經濟,2007,26(9):115118.

[6] 劉蘇蘇,孫立民.支持向量機與RBF神經網絡回歸性能比較研究[J].計算機工程與設計,2011,32(12):42024205.

[7] 鄧乃揚,田英杰.數據挖掘的新方法——支持向量機[M].北京:科學出版社,2004

[8] 肖建,于龍,白裔峰.支持向量回歸中核函數和超參數選擇方法綜述[J].西南交通大學學報,2008,43(3):297303.

[9] 單黎黎,張宏軍,張睿,等.基于主導因子法的裝備維修保障人員調度值預測[J].計算機應用,2012,32(8):23642368.

[10] 彭麗芳,孟志青,姜華,等.基于時間序列的支持向量機在股票預測中的應用[J].計算技術與自動化,2006,25(3):8891.

[11] 向昌盛,周子英.基于支持向量機的害蟲多維時間序列預測[J].計算機應用研究,2010,27(10):36943697.

[12] 譚征,孫紅霞,王立宏,等.中文評教文本分類模型的研究[J].煙臺大學學報:自然科學與工程版,2012,25(2):122126.

[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.

[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.

[15] 王興玲,李占斌.基于網格搜索的支持向量機核函數參數的確定[J].中國海洋大學學報:自然科學版,2005,35(5):859862.

[16] ITO K,NAKANO R.Optimizing support vector regression hyperparameters based on crossvalidation[C].Proceedings of the International Joint Conference on Neural Networks, 2003:20772082.

[17] HSU C W,CHANG C CLIN C J.LIBSVM:a library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm.

(責任編輯:孫 娟)

猜你喜歡
支持向量機
基于改進SVM的通信干擾識別
基于支持向量回歸機的電能質量評估
基于智能優化算法選擇特征的網絡入侵檢測
基于改進支持向量機的船舶縱搖預報模型
基于支持向量機的金融數據分析研究
管理類研究生支持向量機預測決策實驗教學研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合