?

基于機器學習的蘋果始花期預測

2020-03-13 11:48張興偉陳超田姍付琳
中國農業科技導報 2020年10期
關鍵詞:時間段間隔花期

張興偉, 陳超, 田姍, 付琳

(成都信息工程大學, 成都 610225)

物候現象是生物節律與環境條件的綜合反映。從氣象條件來說,它不僅反映了當天的天氣,而且反映了過去一段時間氣象條件的累積情況[1]。始花期預測正是基于這一理論而開展的研究。休眠是植物在生長過程中形成的一種對環境和季節性氣候變化的生物學適應[2],是植物發育中的周期性過程。休眠不僅可以使果樹度過寒冬,而且也是落葉果樹下一年正常開花結果必需經歷的一個過程[3]。果樹生長過程中,當溫度降低時落葉果樹進入休眠期,冷量溫度逐漸累積,果樹自身通過一系列的生理變化應對溫度降低,當冷量積累到一定程度,滿足需冷量后開始升溫,隨即進入萌芽期開始累積熱量,此時果樹體內通過一系列生理變化來促進芽的萌發和生長[4]。在蘋果豐產栽培中,為了達到蘋果高產、優質、穩產、高效之目的,必需將蘋果營養生長規律與栽培管理密切結合起來。始花期的早晚是過去一段時間的氣象條件累積對果樹產生的影響。目前,關于蘋果始花期的預測從特征向量上來分,有單氣象因子與多氣象因子兩種。從算法模型上分,有統計學建模和線性回歸建模。蒲金涌等[5]和毛明策等[6]研究了氣溫對蘋果始花期的影響。李美榮等[7]在果樹物候模型理論的基礎上,應用統計學方法對不同月份氣溫進行分析建模。柏秦風等[8]從蘋果花期以前日平均溫度的不同攝氏度積溫及天數進行分析建模。張艷艷等[9]使用最小二乘回歸法進行多因子分析預測建模。藏曦[10]使用不同月份的不同氣象數據進行多因子逐步回歸預測建模。同時,通過對其他果樹的分析可以發現[11-13],多因子線性回歸建模為花期預測的主流預測方法。

多元線性回歸預測建模能夠很好的表征果樹生長過程受不同氣象因子的影響。但是目前的研究更多只是在算法層面,并沒有很好的表明影響蘋果始花期的主要影響時間段。根據山西省臨汾市氣象局發布的農用氣象預報,研究分析休眠期內三個時間段的生長特性對蘋果樹的影響:是否發生凍害(12月1日至次年3月1日)、能否正常越冬(11月1日至次年3月15日)和熱量和水分需求(3月1日至3月21日)。通過機器學習中的多元回歸方法和組合方法預測始花期,從而可以得到影響始花期的主要時間段及主要影響氣象因子,同時完成對始花期的提前、精準預測,以期幫助果農提前做好農事安排和病蟲害防治,為蘋果果園清園、病蟲害防治、田間管理和施肥提供建議,從而有助于增加果樹樹勢和抵抗力,使蘋果的經濟效益最大化。

1 數據與方法

1.1 數據來源

氣象資料包含吉縣1987—2017年溫度、降水量、濕度、地溫、日照時長等氣象因子,數據來源于山西省臨汾市吉縣氣象局。

2010—2017年蘋果物候期資料由山西省臨汾市吉縣氣象局提供,觀測品種為“紅富士”。

1.2 處理方法

1.2.1時間間隔 以每年1月1日起至蘋果果樹開花始期為時間間隔,用于花期的預測。根據“中國物候觀測網”的觀測標準,植物始花期定義為觀測植株上開始出現第一個完全開放花朵的日期[14]。

1.2.2數據標準化和相關性分析 使用Z-score標準化方法,將不同量級的數據統一轉化為同一個量級,統一利用Z值進行衡量,以保證數據之間的可比性,消除由于不同量級數據所帶來的影響。

(1)

式中,x為觀測值,μ為總體平均值,σ為總體標準差。

使用皮爾遜相關系數(pearson correlation coefficient),用于度量兩個變量x和y之間的線性相關性。

(2)

式中,cov(x,y)為x和y的協方差,σx和σy分別為x和y的方差。

1.3 評價指標

均方誤差(MSE)是指參數估計值與參數真值之差平方的期望值,它可以評價數據的變化程度,MSE值越小,預測模型描述數據具有更好的精確度。

(3)

均方根誤差(RMSE)是均方誤差的算術平方根,RMSE值越小,模型越好。

(4)

平均絕對誤差(MAE)是絕對誤差的平均值,能夠很好地反映預測值誤差的實際情況。MAE值越小,模型越精準。

(5)

式中,yi表示實際值,fi表示預測值。

決定系數(R2),又稱為判定系數或擬合優度,它反映因變量的全部變異能通過回歸關系被自變量解釋的比例。表征了回歸方程在多大程度上解釋了因變量的變化,或者說方程對觀測值的擬合程度如何[15]。R2值越大越好,當預測模型不犯任何錯誤時值為1。

(6)

式中,SSR為回歸平方和,SST為總平方和。

MSE、MAE同樣也是線性回歸的損失函數,損失函數的選取受到多方因素的制約和影響,常見的影響因子有異常值、時間復雜度、求導困難度、預測值置信度等[16]。在線性回歸的時候目的就是讓損失函數越小越好。

1.4 模型建立

1.4.1相關性分析 在進行特征向量選擇時,盡可能剔除不相關或冗余的特征向量,從而減少特征向量個數,提高模型精確度,減少模型運行時間。相關性分析可以幫助完成數據的篩選,達到降維的目的。使用pandas庫中的.corr函數,分別對12月1日至次年3月1日(是否發生凍害)、11月1日至次年3月15日(能否正常越冬)和3月1日至3月21日(熱量和水分需求)三個時間段的數據進行相關性分析。同時,通過.nlargest函數設置參數k=4選擇出與時間間隔相關性最大的4個氣象數據因子(包含時間間隔),完成多元線性回歸模型中自變量的選擇。

1.4.2多元線性回歸 回歸模型應用訓練集數據進行參數估計,得到回歸模型。如果回歸分析中包含兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸。給定由d個屬性描述的示例x=(x1;x2;…;xd),其中,y=w1x1+w2x2+...+wdxd+b,一般用向量形式表示(式7)。

f(x)=wTx+b

(7)

式中,w=(w1;w2;...;wd)。

當權重w和截距b學習得到之后確定模型。選擇30%氣象因子作為特征向量進行預測,而剩余的70%為冗余向量。即選擇與時間間隔相關性最大的3個特征(不包含時間間隔)作為特征向量,分別對三個時間段進行多元線性預測建模。使用2017年數據為測試集,驗證模型準確性。剩余年份為訓練集,用于模型訓練。三個時間段所對應的預測模型選用的特征向量分別為:15 cm地溫、光照時長和10 cm地溫;15 cm地溫、10 cm地溫和5 cm地溫;最小濕度、平均相對濕度和降水量。

1.4.3組合方法 由于在是否發生凍害和能否正常越冬時間段內的氣象因子與時間間隔的正相關性因子遠多于負相關因子,故對這兩時間段的預測結果使用“合奏”的方式,對預測結果進行算術平均,將算術平均后的結果進行取整。常用的方法有截取整數部分、向上取整、向下取整和四舍五入取整。通過實驗驗證發現,通過向上取整后其結果更能擬合真實值結果。

最終結果=

(8)

1.5 模型實現

使用Python 3.5編程語言,在Jupyter notebook中運行相應代碼。

數據處理庫numpy、pandas,數據可視化庫seaborn、matplotlib,日期時間處理庫datetime,機器學習庫sklearn和數學函數庫math。

2 結果與分析

2.1 蘋果果樹的氣溫需求分析

根據臨汾市氣象局發布的農用天氣預報可知,冬季當地果樹處于休眠期的平均氣溫要求在-10~7 ℃之間,當平均氣溫低于-15 ℃時易發生凍害。以每年12月1日至次年3月1日為是否發生凍害的時間段,分析1987—2017年的日平均氣溫(圖1)發現,吉縣蘋果樹在該時段內的氣溫在-4.52~-0.54 ℃之間,滿足吉縣蘋果樹休眠期的氣溫需求(-10~7 ℃),且日平均溫度的平均值為-2.65 ℃。這就說明對于吉縣當地蘋果樹休眠期的氣溫需求可以放縮至-4.52~-0.54 ℃的范圍內。

2.2 蘋果果樹需冷量

落葉果樹自然休眠所需的有效低溫時數稱為果樹的需冷量,又稱為低溫需求量或需冷積溫[17]。

以每年11月1日至次年3月15日為能否正常越冬時間段。分析1987至2017年日平均溫度≤7.2 ℃的天數和日最高溫度≤7.2 ℃的天數,如圖1所示??梢园l現,在該時期內日平均氣溫符合≤7.2 ℃的天數占比在88%以上,而日最高溫度≤7.2 ℃的天數占比平均保持在55.62%。這就說明在該時間段內,日平均溫度<7.2 ℃占比高于88%時,吉縣蘋果樹能夠順利完成安全越冬。

圖1 前期氣溫分析Fig.1 Preliminary temperature analysis

2.3 蘋果樹需熱量和水分分析

需熱量是指從內休眠結束至盛花所需的有效熱量累積,又稱熱量單位累積量或需熱積溫[18]。當需冷量滿足后,需熱量則在一定程度上影響著果樹花芽的正常萌發以及花期的早晚。引入降水量與濕度,用于分析水分對蘋果樹花期的影響。以每年3月上中旬(3月1日至3月21日)為熱量與水分需求時間段。對2010—2017年該時間段的降水量、日最高溫度、日最小濕度、光照時長和5 cm地溫與時間間隔進行分析,結果如圖2所示??梢钥闯?3月1日至21日部分氣象數據與時間間隔的比較所示,2012年與2011年相比,當降水量和日最小濕度升高,日最高溫度、光照時長和5 cm地溫降低時,時間間隔降低;2013年與2012年相比,當降水量和日最小濕度降低,日最高溫度、光照時長和5 cm地溫升高時,時間間隔降低。說明在該時間段內,蘋果樹對于水分的需求與對熱量的需求是相對反向的。同時也很好的說明了影響時間間隔的氣象因子是多個的、復雜的。與單因子預測建模相比,使用多因子的預測建模能夠更好的表征氣象因子對植物生長的影響。

圖2 3月1日至21日部分氣象數據與時間間隔比較Fig.2 Comparison of selected meteorological data with time intervals from 1st to 21st March

2.4 蘋果始花期花期預報結果分析

2.4.1相關性分析 所有特征對結果的貢獻不一樣的[19],使用相關性分析用于對數據進行降維和特征選擇。分別對是否發生凍害(12月1日至次年3月1日)、能否正常越冬(11月1日至次年3月15日)和熱量與水分需求(3月1日至3月21日)三個時間段內標準化后的氣象數據(2010至2017年)與時間間隔進行相關性分析,結果如表1所示。

從表1 可以看出,在是否發生凍害時間段,溫度、降水量、地溫、濕度和光照時長與時間間隔都是正相關的,影響蘋果樹開花的主要因素是10、15 cm地溫和光照時長,其與時間間隔的相關性都大于等于0.5;在能否正常越冬時期,15 cm地溫是與時間間隔正相關性最大的因子,在該時期內比起對溫度的關注更應該考慮地溫;在熱量與水分需求時期,只有濕度與蘋果樹開花量正相關,且日最小濕度為主要影響因子,這說明在3月中上旬,水分對蘋果始花期的影響作用顯著。

表1 日氣象因子與時間間隔的相關性Table 1 Correlation between daily meteorological factors and time interval

2.4.2模型性能分析 通過對模型進行訓練得到權重W與截距b如表2所示。

表2 模型結果Table 2 Model results

從表3預測模型檢驗可以看出,是否發生凍害、能否正常越冬和熱量與水分需求三個時間段的決定系數分別為0.59、0.71和0.48,而通過組合方法的決定系數為0.78,這說明組合方法有近80%的對因變量的可解釋性,而能否正常越冬模型只有71%。當決定系數在0.7以上時,使用組合方法的均方誤差和平均絕對誤差值明顯低于能否正常越冬模型。均方根誤差(RMSE)實質與均方誤差一樣,只是將誤差的結果和數據同級化。四個算法模型的誤差分別為2.11、1.78、2.37和1.54 d。

表3 模型性能指標Table 3 Test of predictive models

通過熱量與水分需求模型預測結果和是否發生凍害模型、能否正常越冬模型預測結果相比。是否發生凍害與能否正常越冬時間段的預測誤差相對較低,數據之間正相關的因子遠大于負相關因子,且決定系數都高于50%。這是因為在研究過程中三個時間段的時間跨度不同。其分析天數分別為21 d(熱量與水分需求時間段)、90~91 d(是否發生凍害時間段)和135~136 d(能否正常越冬時間段),這就造成不同時間段內的氣象因子與時間間隔的相關性不同,以致于影響評價指標。通過研究分析可以得出,在進行花期預測過程中氣象因子的時間跨度選取不宜過小,且只有正相關因子才能提高預測的準確性。

從圖3可以看出,使用組合方法獲得的模型預測值與真實值在2011、2012、2013和2017年重合,在2010、2015、2016年保持1 d的誤差。是否發生凍害模型預測結果只有在2015年及以后誤差較小,而在2015年之前平均誤差2 d。能否正常越冬模型模型預測值與真實值的誤差1~3 d,沒有重合點,且大部分年份誤差為1 d。熱量與水分需求模型其預測值與真實值的平均誤差為2 d。綜上,結合衡量指標可以看出,能否正常越冬模型與組合方法模型是相對較好的兩個模型,而熱量與水分需求模型波動較大,不適合用于預測。

圖3 不同模型預測結果Fig.3 Different model prediction results

2.4.3花期預測結果 以2017年作為獨立樣本,將氣象因子帶入各預測模型中。對2017年蘋果始花期花期進行試報,結果如表4花期預測值所示。不同模型的誤差天數在1~2 d之間,花期預測模型擬合效果較好。

表4 花期預測值Table 4 Flowering forecast values

組合方法模型的決定系數高于能否正常越冬模型和是否發生凍害模型,但其在試報過程中誤差相同,這是因為得到的所有預測結果全部都是小數。而對于預測的結果,時間間隔要求是以天為單位的,這就需要對小數進行取整。在取整過程中對預測結果是采用向上取整、向下取整、四舍五入還是直接提取整數,具體哪種取整方式提出了要求,在此過程中便會降低預測的準確性。

3 討論

本研究劃分三個時間段,針對休眠期內蘋果果樹的關鍵時間節點氣象因子對始花期的影響進行分析,分析天數分別為21 d(熱量與水分需求時間段)、90~91 d(是否發生凍害時間段)和135~136 d(能否正常越冬時間段)。由于分析天數的不同造成了不同時間段內的氣象因子與時間間隔的相關性不同,影響了評價指標和模型準確性。對于三個不同時間段的分析可以看出,在預測過程中的分析天數不宜過短,這與丁錫強等[20]的研究結果相一致。對于分析天數的選取是否需要擴大,多久的分析天數才能更好的預測始花期這需要進一步的研究。

多元線性回歸中,權重w直觀表達了各屬性在預測中的重要性,因此線性模型有很好的可解釋性[21]。每個數據的價值不一樣,選擇十個氣象因子中的三個氣象因子作為特征向量參與建模,這是因為通過對是否發生凍害、能否正常越冬和熱量與水分需求的三個時間段的訓練集數據進行主成分分析后,發現三個特征向量分別可以表征88.65%、97.26%和91.60%的氣象因子信息,即30%的特征向量表征了88%以上的信息。

組合方法思想認為好的模型并不一定是從多種模型中選擇一個模型,而是可以把多個模型進行組合以得到更好的模型,包括“堆疊”和“合奏”兩種思想?!岸询B”就是用前一個預測方法得到的預測值,為后一個預測方法得到的預測誤差進行修正?!昂献唷本褪峭瑫r應用多個不同的預測方法得出多個預測值,并對這些預測值以某種方法進行平均,得到最終的預測值。采用的思想進行建模,是因為“合奏”的思想可以給出較高預測精確度的預測值,且模型簡單、泛化能力好。

預測模型以70%以上的擬合程度,實現在3月15日的精準預報。所用數據集中始花期最早出現日期為4月8日,以3月15日進行預測可以提前24 d完成預測。這與尹貞鈐等[22]的7~15 d提前預測相比,在保證預測準確性的前提下預測的提前量有了很大的提升。同時,由于預測的時間間隔是以天為單位的,在模型預測過程中不可避免使用到小數取整的過程這對預測的準確性提出了新的挑戰。

猜你喜歡
時間段間隔花期
優質蜜源植物不同播種期對花期的影響
大豆:花期結莢期巧管理
夏天曬太陽防病要注意時間段
間隔之謎
發朋友圈沒人看是一種怎樣的體驗
“三天后”是啥時候?
容顏盛放,花期未至香謝涼
漢服有禮——陌上又花期,相思又一年
上樓梯的學問
雨點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合