?

隨機森林在棉蚜蟲害等級預測中的應用

2017-02-15 17:49李磊牟少敏林中琦
安徽農學通報 2017年1期
關鍵詞:氣象因子隨機森林棉蚜

李磊+牟少敏+林中琦

摘 要:棉蚜是棉區的主要農業害蟲之一,對于棉花的產量和質量影響較大。為了準確地對棉蚜蟲害的等級進行分類預測,以便采取科學的防治措施,該研究對山東省濱州地區1990—2009年的20年中5—9月的平均氣溫、降水量、相對濕度、日照時數等氣象數據、棉蚜天敵數據與棉蚜蟲害數據進行了相關性分析,篩選后保留的影響因子數據構建隨機森林棉蚜蟲害等級預測模型。結果表明:隨機森林模型的OOB為5.7%,等級的誤分率為0.09和0.019,經測試集檢驗,模型預測的準確率為82.2%。模型泛化性好,等級的誤分率低。

關鍵詞:隨機森林;棉蚜;氣象因子;等級預測

中圖分類號 TP391;S431 文獻標識碼 A 文章編號 1007-7731(2017)01-0018-03

Abstract:Cotton aphid is one of the main agricultural pests of cotton,for greater effects on the yield and quality of cotton. In order to accurately classify the level of cotton aphid pest forecast,through the acquisition of Binzhou area of Shandong Province region from May to September in 1990-2009,average temperature,precipitation,relative humidity,sunshine hours and other meteorological data and cotton aphid enemies and Aphis gossypii pest data correlation analysis,screening of meteorological data to build a random forest pests and Aphis gossypii level prediction model.Experimental results show that the random forest model of OOB was 5.7%,the level of point error rate was 0.09 and 0.019,have examined the test set and model prediction accuracy is 82.2%.The generalization of the model is good,and the rate of misclassification is low.

Key words:Random forest;Cotton aphid;Meteorological factors;level Prediction

棉花是我國重要的經濟作物之一,山東省濱州地區棉花種植面積廣泛。棉蚜是造成棉花減產的主要害蟲之一,由于其發生時間長,繁殖速度快,危害嚴重且防治困難,在一定程度上制約了濱州地區棉花的優質和高產。而氣象條件和天敵數量均對棉蚜產生直接的影響,為有效防治棉蚜的危害,學者們對棉蚜蟲害的預測進行了大量的研究。如張金[1]等采用逐步判別分析法分析了氣候條件和棉蚜蟲害等級的關系,構建了新疆石河子地區棉蚜多元線性回歸預測模型。吳昊[2]等對九江鄱陽湖地區棉蚜發生規律和預報方法進行了研究,以豐富該地區的棉蚜預報方法。慕彩云[3]等對東疆地區的棉蚜預測構建了日預測、月預測及旬預測的線性回歸模型。目前,在棉蚜預測模型的構建中多運用線性回歸,但是在線性回歸分析中采用何種因子進行表達只是一種推測,從而影響了因子的多樣性和不可測性,使得回歸分析在某些情況下的使用受到限制。

隨機森林在運算量沒有顯著提高的前提下提高了預測精度,并且對于多元共線性不敏感,對缺失數據和非平衡數據比較穩健[4],而且模型訓練速度快,樣本選擇具有隨機性,不易產生過擬合。為此,本實驗將隨機森林用于棉蚜蟲害等級的短期預測中,提高了棉蚜預測的效率和準確率,從而可以及時地為農業生產者提供準確的預警信息,提前采取防治措施,降低棉蚜對棉花的危害。

1 隨機森林算法

隨機森林算法[5]是2001年加利福尼亞大學的Leo Breiman提出的,是一種由多個決策樹組成的集成分類算法。集成學習現已成為國際機器學習界研究的熱點機器學習范式[6]。隨機森林中引入了2個隨機化過程,使得不同的分類樹具有不同的分類能力,當輸入待分類樣本時,隨機森林輸出的結果由每個決策樹的分類結果進行投票決定[7-8]。

隨機森林是一個樹型分類器的集合。該算法中的元分類器是由CART算法組成但沒有剪枝的分類回歸樹。參數X是輸入向量;是獨立分布的隨機向量,決定單棵決策樹的生長過程。隨機森林中最重要的是如何構造一個隨機森林。隨機森林的算法步驟如下:

(1)假設數據的樣本數為N,那么每棵決策樹采樣的樣本數就是N。在這N個樣本中有放回的隨機選擇n(n

(2)每個樣本有M個屬性,每棵決策樹的節點需要分裂時,從這M個屬性中隨機的選取m(m

(3)每棵決策樹的每個節點分裂都是按照步驟(2)進行,使每個節點的不純度達到最小,直到節點不能分裂為止,不對樹進行剪枝。

(4)根據生成的多個樹分類器對新的測試數據進行測試,分類結果按每個樹分類器的投票而決定,即分類公式為:

公式(1)中用majority vote表示多數投票,Ntree表示隨機森林樹的個數。隨機森林的隨機性體現在樣本的隨機選擇和屬性的隨機選擇,有了這兩個因素,即使每棵樹沒有進行剪枝也不會出現過擬合。隨機森林中兩個參數n和m的設置:隨機森林樹的數量n一般取值比較大,m值一般選取M的平方根。在訓練過程中每次抽樣生成了自助樣本集,全樣本集中約有37%的樣本不會出現在每一份自助樣本集中,我們稱這37%的樣本為袋外數據(Out Of Bag,OOB)。OOB可以用來估計組合分類器的泛化誤差和預測分類的正確率。

2 實驗對象及數據來源

2.1 棉蚜數據 棉蚜是棉區的主要害蟲之一,本實驗中棉蚜的數據來源于濱州市植保站對1990—2009年20年棉蚜百株蚜量動態監測的統計。棉蚜的動態監測從每年的5月開始進行,直到棉田的棉蚜完全消失。棉田調查為隨機取樣,通過對取樣點每株棉花上棉蚜記數,最后換算為百株蚜量,為棉蚜蟲害等級分類提供劃分依據。棉蚜的發生程度分級標準按照2010中國農業出版社出版的《主要農作物病蟲害測報技術規范應用手冊》進行劃分等級。棉蚜發生程度分級標準見表1。

2.2 氣象和天敵數據 濱州市位于山東省北部、黃河三角洲腹地、渤海灣西南岸,屬暖溫帶亞濕潤季風氣候。棉蚜發育繁殖所需要的適宜溫度逐步的提高,因此發生時間為每年的5—9月份,所以實驗所用的氣象數據為5—9月份采集到的數據。采集到的氣象數據包括平均氣溫、平均相對濕度、平均水汽壓、日最高氣溫、日最低氣溫、日照時數等因子。棉蚜天敵數據來源于濱州市測報站5—9月份的動態監測數據。

3 棉蚜等級預測隨機森林模型

3.1 影響因子的相關性分析 從濱州市采集到的數據中,包含了15個影響因子數據:20-20時降水量(X1),極大風速(X2),平均本站氣壓(X3),平均風速(X4),平均氣溫(X5),平均水汽壓(X6),平均相對濕度(X7),日照時數(X8),日最低本站氣壓(X9),日最低氣溫(X10),日最高本站氣壓(X11),日最高氣溫(X12),最大風速(X13),最小相對濕度(X14),天敵數據(X15)。為了減少變量的冗余,提高因子的獨立性,對這15個影響因子用R進行皮爾遜相關性分析,求得影響因子與等級的相關系數。用R語言進行因子相關性分析后得到的相關系數如表2。通過表2中的相關系數可以看出,因子中的20-20時的降水量,平均風速,日照時數,最大風速這4個氣象因子的相關系數偏小,說明這4個氣象因子對于等級的分類預測影響較弱。棉蚜的增長受相對濕度影響較大,雨量會影響相對濕度,對20-20時降水量因子進行了保留。篩選后的部分數據集如表3所示,表中的一條記錄表示5—9月份采集到的1d的數據。

3.2 棉蚜等級預測隨機森林模型 基于隨機森林的棉蚜短期預測模型如下:(1)有放回的隨機抽樣。隨機森林對訓練集中的樣本有放回的隨機選擇,選擇的樣本數小于訓練集總的樣本數。(2)設置模型參數。隨機森林預測模型中樹的個數n取100[9],通過計算得出節點m為4。(3)模型訓練。通過訓練集中選取的樣本對模型進行訓練,得到模型的OOB和模型內分類的誤差率。(4)預測。使用構建的隨機森林預測模型對測試集進行分類預測,結合表1得到棉蚜的發生程度。

3.3 實驗結果與分析 用在濱州市采集到的樣本數據(表3)構建隨機森林模型,使用OOB和分類準確率對模型進行評價。實驗得到模型的OOB為5.7%。模型的泛化誤差不大,說明隨機森林預測模型的泛化性比較好。隨機森林的混淆矩陣顯示等級分類誤差如表4所示。從表4可以看出,對于等級1的分類錯誤率為0.095,對于等級2的分類錯誤率為0.019。模型中每一類的分類錯誤率都比較小,說明棉蚜蟲害等級判別的準確率比較高。

測試樣本的分類準確率為82.2%,實驗結果的混淆矩陣如表5所示。隨機森林的結果內含有判別函數,輸入采集到的樣本數據可以判別棉蚜的等級,部分棉蚜等級預測結果如表6所示。結合表1得到棉蚜的發生程度,可以提前對棉區采取相應的防治措施。

4 結論

將隨機森林用于分類預測中,幾乎不需要輸入準備,模型訓練速度快,樣本選擇具有隨機性,而且隨機森林不易產生過擬合,從而有更好的效率和準確率。本次實驗將隨機森林用于棉蚜等級的短期預測中,結果表明,該模型泛化性好,誤分類率低。隨機森林為棉蚜蟲害等級預測提供了一種新的方法。

通過采集更多的影響棉蚜生長的影響因子數據以及棉蚜數據訓練模型,提高隨機森林模型的預測準確率,從而準確及時地對棉蚜等級作出預測,降低棉蚜的危害,實現棉花生產的高產和優產。

參考文獻

[1]張金,王佩玲.新疆石河子地區棉蚜發生程度預測模型研究[J].新疆農業科學,2008,45(3):438-441.

[2]吳昊,徐梅珍,劉定忠.九江鄱陽湖區棉蚜發生規律與預報方法研究[J].安徽農業科學,2013,41(1):113-116.

[3]慕彩蕓,車罡,道然·加帕依,朱曉華.新疆東疆棉蚜發生發展氣象等級預報模型[J].干旱氣象,2010,28(4):489-493.

[4]Iverson L R,Prasad A M,Matthews S N,et al.Estimating potential habitat for 134 eastern US tree species under six climate scenarios[J].Forest Ecology & Management,2008,254(3):390–406.

[5]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.

[6]溫廷新,張波,邵良杉.煤與瓦斯突出預測的隨機森林模型[J].計算機工程與應用,2014,50(10):233-237.

[7]董師師,黃哲學.隨機森林理論淺析[J].集成技術,2013,2(1):1-7.

[8]楊帆,林琛,周綺鳳,等.基于隨機森林的潛在 k 近鄰算法其在基因表達數據分類中的應用[J].系統工程理論與實踐,2012,32(4):815-825.

[9]劉敏,郎榮玲,曹永斌.隨機森林中樹的數量[J].計算機工程與應用,2015,51(5):126-131.

(責編:張宏民)

猜你喜歡
氣象因子隨機森林棉蚜
Hap1型棉蚜在5種春季雜草上的生長發育情況
低劑量啶蟲脒和雙丙環蟲酯對棉蚜繭蜂寄生功能的影響
棉蚜取食被棉長管蚜危害棉花后其相關酶的活性
橡膠產量與氣象因子的灰色關聯性及逐步回歸分析研究
拱壩變形監測預報的隨機森林模型及應用
棉蚜田間藥效試驗篩選
基于多視角特征融合與隨機森林的蛋白質結晶預測
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合