?

基于FA-SVR的小麥蚜蟲發生程度預測模型研究

2021-06-17 08:34高風昕
農業與技術 2021年11期
關鍵詞:麥蚜蟲維空間訓練樣本

高風昕

(黃淮學院數學與統計學院,河南 駐馬店 463000)

引言

豫南地區是我國小麥的主產區,其產量高低對我國糧食安全有著重要的影響,而小麥蚜蟲是危害小麥產量和品質的重要害蟲。在豫南地區危害小麥的蚜蟲主要是麥長管蚜、麥二叉蚜等屬于同翅目蚜科,有翅可遷飛,具有遷移性,繁殖能力強,1a可以繁殖20余代。麥長管蚜、麥二叉蚜主要以成蚜、若蚜吸食小麥葉面、莖稈、嫩穗的汁液使小麥缺失營養導致葉面逐漸變黃直到枯死,從而使小麥減產,據統計,我國每年因為麥蚜蟲的危害使小麥減產2~3億t。因此,預防預測麥蚜蟲的危害是科技工作者的一項重要任務。

目前國內外對小麥蚜蟲的預測模型主要有經驗法、實驗法和統計預測法等。如,李文峰等[1]利用逐步回歸的方法構建蚜蟲預報預測模型;丁世飛等[2]用逐步判別方法構建麥蚜蟲發生期的模型;王純枝等利用相關分析法和主成分法構建蚜蟲適宜度的預測預報模型;luo等[3]利用spss中的邏輯回歸方法給出蚜蟲預報預測模型;孫淑梅、丁世飛、李鴻怡等利用模糊數學的方法構建小麥蚜蟲預報預測模型。以上專家給出的預測模型對小麥蚜蟲的防治都起到了積極的作用,但這些模型大多以天氣條件作為主要因素,預測的準確率和時效性不夠高。支持向量機在小樣本訓練方面比其它方法更勝一籌,而且該方法的泛化能力非常強,支持向量機大多運用在證券、金融、電子商務、大氣污染物濃度的預測中[7-10],小麥蚜蟲發生程度的預測模型研究國內外文獻資料涉及很少,基于此,本文運用支持向量機回歸對豫南地區小麥蚜蟲發生程度進行預測,構建了支持向量機回歸的小麥蚜蟲發生程度的短期預測模型,填補了支持向量機回歸在小麥蚜蟲短時預測的不足,通過測試樣本驗證該方法時效性和泛化能力強、預測精度高,具有良好的研究和應用前景。

1 支持向量機基本原理

支持向量機(SVM)將每個樣本數據表示為空間中的點,使不同類別的樣本點盡可能明顯地區分開,通過將非線性低維空間上的樣本數據映射到高維空間中,使樣本數據在高維空間中轉化線性樣本數據,然后尋找最優化區分兩類數據的超平面,使各類到超平面的距離最大化,距離越大表示SVM的分類誤差越小,即使數據集的邊緣點到分界超平面的距離最大,稱邊緣點為支持向量。

設低維空間上的訓練樣本為(x1,y1),(x1,y1),…,(xn,yn),xi∈Rn,yi∈R,其中xi為i個n維輸入向量,yi為對應的輸出值,通過一個非線性映射Φ(x)將訓練樣本由低維空間映射到高維空間中,在高維空間中再對樣本進行線性回歸分析,根據風險最小化準則構建高維空間中擬合最優的線性回歸函數f(x)=ω·φ(x)+b(ω為權重向量,b為偏置常數),然后使用該函數對另外的樣本進行預測,把線性回歸問題轉化為求如下的最優化問題。

(1)

(2)

模型(1)、(2)的對偶問題:

(3)

(4)

(5)

式中,k(xi,x)為核函數。常用的核函數有線性核函數、多項核函數、徑向基核函數和sigmod核函數。根據專家經驗,徑向基核函數(KBF)能使支持向量機取得最好的效果,所以選擇KBF作為核函數。

對支持向量機回歸參數估計有多種,比較各種參數估計方法從預測精度上考慮常選擇網格搜索法來確定懲罰因子C,核參數σ,損失函數中的參數ε。

2 FA-SVR小麥蚜蟲發生程度預測模型

2.1 小麥蚜蟲發生程度的影響因子

本文選取豫南地區駐馬店市、信陽市、南陽市2009—2020年小麥種植區的氣象和小麥蚜蟲發生程度的數據資料,氣象各因子資料來源于豫南地區逐日氣象觀測資料,小麥蚜蟲的發生程度和天敵的數據資料來源于當地植保部門,氣象資料采取每月每旬作為時間周期,小麥蚜蟲的發生程度和天敵數據資料是指每個地市至少選擇5個樣本采集區,每5d采集1次樣本。影響小麥發生程度的因子有日最高氣溫、日最低氣溫、平均氣溫、日照時數;平均相對濕度、最小相對濕度、平均降水量、平均水氣壓;平均風速、最大風速、最大風速風向、極大風速、極大風速風向;日最高本站氣壓、日最低本站氣壓、平均氣壓;七星瓢蟲、異色瓢蟲、食蚜蠅幼蟲、草蛉幼蟲、寄生性天敵。本文以2009—2020年,每年2月1日—5月20日,以每旬作為時間周期,為了減少因子個數把天敵作為一個因子,共17個指標187個解釋變量。根據中華人民共和國農業行業標準(NY/T612-2002)《小麥蚜蟲測報調查規范》,麥蚜發生程度根據百株蚜量(y,頭)分為5級,分級標準為一級(y≤500)、二級(5003500)。

2.2 數據的歸一化處理

利用影響小麥蚜蟲發生程度的指標因子和小麥蚜蟲發生程度數據組成的樣本集,(xi,yi),i=1,2,…n,xi∈Rn,yi∈R,構建小麥蚜蟲發生程度的SVR預測模型。由于各影響因子的量綱不盡相同,為了克服各因子由于量綱的不同對預測結果的影響,同時為了提高各個數據間的可比性和數據的收斂速度,減少模型的訓練時間,先對原始數據進行歸一化處理,利用公式(6)可將原始數據壓縮到[0,1]。

(6)

2.3 FA-SVR組合模型預測流程圖

本文通過構建因子分析和支持向量機回歸組合預測模型(FA-SVR預測模型),提高模型的預測精度和時效性,根據指標構建原則(全面性、簡明性、可操作性、經濟性、代表性、規范性等)選取17個指標的評價體系,對樣本數據標準化處理,克服量綱和大數據對結果的影響,利用因子分析法提取5個公共因子(光熱因子、水分因子、風因子、氣壓因子、天敵因子),從而減少支持向量機指標的輸入個數,分別以所得公共因子為自變量,以麥蚜發生程度為因變量分別進行多元線性回歸分析和支持向量機回歸分析,根據以上分析可以確定FA-SVR預測模型的流程圖,如圖1。

3 實證研究

3.1 主成分SVR參數尋優

以旬為單位收集了2009—2020年12a的210個樣本數據,其中選取2009—2017年的樣本數據作為訓練樣本,2018—2020年樣本數據作為測試樣本。對于訓練樣本選取徑向基核函數(KBF)構建式(5)的ε-SVR預測模型。同時利用170個訓練樣本使用LIBSVM 3.22軟件包,采用網絡遍歷法和K(K=10)折交叉驗證法選擇最優參數,結果C=2257672.96512,g=0.000038896503529,P=0.0338。

3.2 預測值和實際值的比較分析

以因子分析得到的5個公共因子為解釋變量,利用FA-SVR模型和多元線性回歸模型(MLR)得到麥蚜發生程度的預測值與觀測值之間的數據如表1,并且利用FA-SVR模型得到麥蚜發生程度的預測值與實際值之間的相關系數接近于1,利用多元線性回歸模型得到麥蚜發生程度的預測值與觀測值之間的相關系數為0.97,這表明麥蚜發生程度實際觀測值與預測值之間具有高度的相關性,并且通過FA-SVR模型得到的訓練樣本的預測值與實際觀測值相符合,如表1,測試集樣本數據的預測值與實際觀測值相符合,如表2。

表1 訓練樣本實際觀測值與預測值對比

表2 測試樣本實際觀測值與預測值對比

3.3 模型評價

為評價模型的質量,常用FA-SVR模型的預測值與觀測值的進行比較,通常采用以下統計量對FA-SVR模型進行評價,比較結果如表3。

表3 訓練和測試樣本誤差因子比較

平均絕對誤差:

均方誤差:

均方根誤差:

平均絕對百分比誤差:

4 結論

本文首次將FA-SVR模型應用于豫南地區小麥蚜蟲發生程度的預測模型中,通過實證分析可以看出,預測值和實際值呈現高度的相關性并且基本一致。由表4中3個模型比較可以得出,FA-SVR組合模型具有較高的預測精度,所以FA-SVR組合模型的應用能夠準確及時地發布豫南地區小麥蚜蟲監測預警信息,能夠有效地進行小麥蚜蟲的科學防控,并且本模型的預測精度和泛化能力都較高,所以,FA-SVR組合模型用于豫南地區小麥發生程度的預測是可行的。

表4 訓練樣本誤差比較

猜你喜歡
麥蚜蟲維空間訓練樣本
中國北方冬小麥蚜蟲氣候風險評估
Update on Fengyun Meteorological Satellite Program and Development*
人工智能
查治小麥蚜蟲防治要點
2009年平輿縣麥蚜蟲發生的原因分析
從零維到十維的空間之旅
寬帶光譜成像系統最優訓練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識別算法
基于稀疏重構的機載雷達訓練樣本挑選方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合