?

基于SSA-LSTM的日光溫室環境預測模型研究

2023-03-07 06:22祖林祿柳平增趙妍平李天華
農業機械學報 2023年2期
關鍵詞:發現者麻雀適應度

祖林祿 柳平增 趙妍平 李天華 李 輝

(1.山東農業大學機械與電子工程學院,泰安 271018;2.農業農村部黃淮海智慧農業技術重點實驗室,泰安 271018;3.山東農業大學信息科學與工程學院,泰安 271018)

0 引言

我國是世界上溫室面積最大的國家,其類型主要分為塑料大棚、日光溫室、連棟溫室等[1]。2020年底我國溫室面積為1.873×106hm2,其中日光溫室面積占比約30%[2]。適宜的溫室環境能促進溫室作物的健康高效生長,利用物聯網精準采集溫室環境數據、設計高精度的環境預測模型是實現溫室環境精準調控的關鍵和重要前提[3-5]。

溫室環境模型主要包括機理模型和數據驅動模型兩種[6-7]。其中,機理模型為根據能量守恒和質量守恒等原理構建的溫室動力學模型,如文獻[8]構建黃瓜溫室的小氣候模型描述能量和物質的傳遞過程,此模型能夠預測自然通風條件下空氣、作物、栽培基質及塑料覆蓋層的溫度,但此類模型不能計算溫室溫度和濕度的分布(空間特征);文獻[9]通過構建溫室建筑計算流體力學模型,實現溫室環境因子的多目標、高效率優化,其中溫室的結構、材料和熱環境組件是主要研究對象。這兩種機理建模過程存在大量的物理參數和變量,建模過程較為復雜。

由于溫室系統存在時間變化緩慢的特點且溫室環境的時間序列數據具有特定的變化趨勢和周期特征,溫室時間序列建??捎糜谘芯繑祿兓木唧w規律。文獻[10]利用物聯網、云服務和微信平臺相結合的方式,設計開發了基于差分時間序列模型的溫室環境監測與溫度預測系統;文獻[11]提出基于非線性自回歸動態神經網絡模型進行日光溫室溫度預測;文獻[12]分別構建人工神經網絡、非線性自回歸模型和長短期記憶網絡(Long short term memory,LSTM)模型對空氣溫度、濕度和CO2濃度進行預測,基于時間序列算法的非線性自回歸模型和LSTM模型優于傳統的人工神經網絡模型,論證了基于深度學習的預測模型用于溫室調控的可行性,此研究未詳細討論LSTM超參數調節過程,對空氣濕度的預測效果較差。文獻[13]利用LSTM和4個月的溫度數據,提前24 h預測溫室內是否會出現極端低溫,預測誤差小于0.8℃,此研究為單變量建模,溫室內其它變量也可能對溫度預測效果產生影響。

以上相關研究主要是針對溫室內空氣溫度和濕度要素的監測和預測,而多維溫室物聯網數據存在體量大、計算成本高等特點,傳統的LSTM模型在訓練過程中依靠人工經驗手動調節參數,通用性差、不確定性高,在處理高維數據時收斂速度較慢且容易陷入局部最優[14]。麻雀搜索算法(SSA)是由XUE等[15]提出,模擬了麻雀群覓食并逃避捕食者的行為而提出的群智能優化算法,其結構簡單,在收斂速度和尋優精度等方面有著明顯優勢[16]??紤]到溫室物聯網數據龐大、人工經驗手動調節參數不確定性高特點,本文提出一種基于SSA-LSTM的溫室環境預測模型,通過物聯網采集溫室不同區域的環境數據,將室內小氣候歷史環境數據按照時間序列構造輸入矩陣,輸入到SSA-LSTM模型進行訓練,以實現對日光溫室多維環境數據的精準預測。

1 實驗數據獲取與處理

1.1 實驗地點

實驗地點位于山東農業大學(泮河校區)科技產業園區番茄日光溫室(36.174°N,117.166°E),溫室為下挖式新型日光溫室,墻體采用磚加土壘基水泥加固,溫室東西長70.0 m,南北跨度9.8 m,下挖深度0.5 m,后墻高3.8 m,脊高5 m。

1.2 物聯網數據采集系統

構建溫室環境物聯網數據采集系統,實時、準確獲取環境信息,是實現溫室環境預測的前提和保障。

物聯網數據采集系統主要由CPU、感知模塊和傳輸模塊等構成,感知模塊完成對空氣溫度、相對濕度、CO2濃度、光照強度及土壤溫度和濕度的測量,采用傳感器相關參數如表1所示;整體系統架構如圖1所示。為保證對溫室環境的有效監測,將多組傳感器均勻布設在溫室內,其布設示意圖如圖2所示:以東西方向14 m、南北方向2.5 m為單位將溫室均勻劃分布設平面,分別在高度0.6、1.8、3.0 m進行傳感器布設;為保證數據及時有效處理,布置3套物聯網系統,如圖2a中1#1為第1套系統的第1個空氣溫濕度傳感器,光1為第1個光照傳感器,以此類推。傳感器現場布設及物聯網數據采集系統上位機界面如圖3所示。

表1 物聯網傳感器參數

圖1 物聯網系統架構圖

圖2 傳感器布設示意圖

圖3 物聯網數據采集系統

1.3 數據預處理

1.3.1實驗數據

通過上述物聯網數據采集系統,自動采集空氣溫度、空氣相對濕度、土壤溫度、土壤濕度、CO2濃度(體積比)和光照強度6種數據,通過GPRS網絡上傳至服務器,采樣時間為2020年8月1日至2021年7月31日,采樣間隔為30 min,部分原始數據如圖4所示(以2020年9月空氣溫度為例)。

圖4 部分原始數據

由圖4可見,實驗數據存在缺失,存在溫度跳變至零的現象。分析實驗數據可知,數據中的缺失部分主要來自兩方面,一是當天的數據記錄存在缺失,二是某些時間段的數據存在缺失。

1.3.2缺失數據處理

考慮到訓練數據、未來的測試數據中都可能存在缺失數據,而且它們的記錄方式是相同的,避免預處理不同導致數據分布不一致問題的出現,同時對它們使用了相同的填充方式。由于存在多種缺失情況,僅使用一種方式填充可能會導致填充出現缺漏,因此本文同時使用了forward fill、backward fill與均值填充相結合的方式以保證填充覆蓋率,填充前后數據對比如圖5所示(以2020年9月數據為例)。由圖5可見,填充后數據變化趨勢保持一致,填充效果較好。

圖5 填充前后數據對比

1.3.3數據歸一化

為使得不同特征的數據規范到一個統一的范圍,有利于神經網絡的反向傳播(假如不進行規范化,神經網絡可能會刻意捕捉不同批次數據的變化,而忽視了預測任務本身),采用Min-Max標準化方法對數據進行歸一化處理[17]。

2 SSA-LSTM環境預測模型

2.1 麻雀搜索算法

SSA是模擬麻雀群覓食并逃避捕食者的行為而提出的群智能優化算法[15]。在覓食過程中,位置是麻雀的唯一屬性,覓食麻雀分為發現者和跟隨者,前者搜索并發現食物,后者跟隨發現者覓食;發現者和跟隨者的身份是動態變化的,但所占整個種群數量的比重是不變的。同時,覓食過程還疊加了偵查預警機制,當意識到危險時,群體邊緣的麻雀會迅速向安全區域移動,以獲得更好的位置。

在模擬實驗中,使用虛擬麻雀進行食物的尋找,假設有n只麻雀,d維待優化問題變量,適應度為f,則種群適應度可表示為

(1)

式中Xn,d——第n只麻雀d問題變量的位置

在SSA中,發現者在種群中搜索具有豐富食物的區域,提供覓食的區域和方向,發現者迭代位置更新公式為

(2)

α——(0, 1]中的均勻隨機數

nmax——最大迭代次數

R2——預警值,取[0, 1]中的均勻隨機數

T——警戒閾值,取[0.5, 1]

Q——標準正態分布隨機數

可以看出,當R2≥T時,表示有麻雀發現了捕食者并發出了警報,此時所有麻雀都需要飛到安全位置進行覓食;當R2

跟隨者會時刻監視發現者,當它們察覺到發現者找到了更好的食物,它們會立即離開現在的位置去爭奪食物,跟隨者位置更新公式為

(3)

其中

A+=AT(AAT)-1

式中XP——發現者占據的最優位置

Xworst——最差位置

A——1行D列的矩陣,其每一維都隨機從{-1,1}中選取

L——元素均為1的1行D列的矩陣

當i>n/2時,表明第i個跟隨者沒有獲得食物,此時需要到其它地方覓食以獲得較多能量;當i≤n/2時,其取值為當前最優的麻雀的位置加上該麻雀與最優位置每一維距離隨機加減后,將總和均分到每一維上。該過程可以描述為在當前最優位置附近隨機找一個位置,且每一維距最優位置的方差將會變得更小,即不會出現在某一維上與最優位置相差較大,而其他位置相差較小,其值收斂于最優位置。

在麻雀覓食過程中,10%~20%的麻雀會進行預警行為,如果有危險發生,它們會放棄食物而移動到一個新的位置,預警者位置更新公式為

(4)

式中Xbest——全局最優位置

fg、fW——全局最佳和最差適應度

fi——當前麻雀適應度

β——符合標準正態分布的隨機數

K——麻雀移動方向,屬于[-1,1]中隨機數

ε——一個較小非零數(防止分母取值為0)

從式(4)可以看出,fi>fg表示該麻雀不在最優位置,容易受到攻擊,它將移動到最優位置附近;fi=fg表示當前麻雀處于最優位置,它會移動到自身附近的一個位置,具體移動距離取決于自身位置與最差位置之差和自身適應度與最差適應度之差的比值。

2.2 長短期記憶人工神經網絡

LSTM來源于遞歸神經網絡(Recursive neural network, RNN)[18],可以學習長期依賴信息,且在一定程度上解決梯度消失和梯度爆炸這兩個問題。

如圖6a所示,RNN是重復單一的神經網絡層,在其隱藏塊中只有一個內部操作,例如一個tanh層,作用在于幫助調節流經網絡的值,使得數值始終限制在-1~1之間。LSTM中的重復模塊則包含4個交互的層,3個Sigmoid 和1個tanh層,并以一種非常特殊的方式進行交互,如圖6b所示。

圖6 RNN和LSTM結構

LSTM擁有遺忘門、輸入門和輸出門3種類型的門結構,來去除或者增加信息到細胞狀態,其結構如圖7所示[19]。

圖7 LSTM門結構

遺忘門,決定從細胞狀態中丟棄的信息,即

ft=σ(Wf(ht-1,xt)+bf)

(5)

式中ft——遺忘門輸出值Wf——權值

σ——Sigmoid激活函數

ht-1——上一個輸出值

xt——當前輸入值bf——偏差

輸入層,用來確定被存放在細胞狀態中的新信息,包含兩方面,一是Sigmoid層稱“輸入門層”,決定將要更新的值;二是tanh層,創建一個新的候選值向量,會被加入到狀態中。公式為

it=σ(Wi(ht-1,xt)+bi)

(6)

(7)

式中it——輸入層門輸出值

Wi——輸入層權值bi——輸入層偏差

Wc——候選值權值bc——候選值偏差

細胞狀態,更新舊細胞狀態的時間,Ct-1更新為Ct,即

(8)

輸出門,確定輸出的值,即

ot=σ(Wo(ht-1,xt)+bo)

(9)

ht=ottanhCt

(10)

式中ot——輸出層門輸出值

Wo——輸出層權值bo——輸出層偏差

ht——輸出層輸出

2.3 SSA優化的LSTM溫室環境預測模型

在LSTM模型中,神經元個數、迭代次數、輸入批量和學習率等超參數選擇對模型擬合能力起著重要作用[20],而溫室環境預測模型中輸入數據是多維序的,傳統的LSTM靠人工經驗進行調參,效率低且準確性差,為使模型的性能達到最優,采用局部搜索能力極強,收斂速度較快的SSA優化算法對模型超參數進行迭代選優,算法流程圖如圖8所示,具體步驟如下:

圖8 SSA-LSTM流程圖

(1)SSA參數設置。初始化麻雀種群參數,包括麻雀種群數量、初始位置、最佳位置、全局最佳適應度等。將初始化的麻雀位置根據適應度函數評估麻雀位置并進行排序,選取前20%作為發現者,其余為跟隨者,隨機選取10%~20%的麻雀作為警戒者負責警戒和偵查。

(2)根據麻雀數目與優化參數(神經元個數、迭代次數、輸入批量和學習率)形成搜索空間矩陣并初始化相關參數,設置最大迭代次數。

(3)根據條件式(1)~(3)更新發現者、參與者、偵察者位置,并以邊界函數約束對LSTM所需超參數傳參。

(4)將返回結果通過適應度函數進行位置評估,找出最優適應度個體及最劣適應度個體。若本次迭代中麻雀最佳適應度優于全局最佳適應度則用其代替,否則不變。

(5)判斷是否滿足設定的達到誤差和最大迭代次數的停止條件。若符合,則將全局最優超參數組設為LSTM的參數;若不符合,則返回步驟(3)。

2.4 模型評價指標

為了直觀地表示SSA優化后的模型預測能力,分別使用均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)以及擬合指數Rf作為預測模型性能評價指標[21]。

3 實驗結果與分析

3.1 實驗平臺

訓練所使用的服務器環境如下:處理器為E5-2673V3*2,內存32 GB,GPU顯卡為NVIDIA GTX3090 24G*2,操作系統64位Windows 10,編程軟件為Matlab R2021a。

3.2 SSA-LSTM模型優化及訓練

為更加精準地建立溫室環境預測模型,采用多組傳感器的平均值作為模型訓練數據,實驗數據采樣時間為2020年8月1日至2021年7月31日,采樣間隔30 min,單環境參數數據約為17 520條,按9∶1的比例將其劃分為訓練集和測試集。構建輸入輸出同為6參數的多維數據預測模型,同時對溫室內6種參數進行訓練和預測。

優化訓練參數設置如下:SSA中麻雀總數為30,發現者占比20%,警戒者占比15%;隱含層神經元數m搜索范圍[100, 500],迭代次數搜索范圍[10, 200],輸入批量搜索范圍[128, 1 024],學習率搜索范圍[10-5, 10-2];最大訓練輪數設為100。

訓練過程中,利用SSA優化算法不斷地調整LSTM中神經元個數、迭代次數、輸入批量和學習率4個模型參數,預測結果的平均絕對百分比誤差作為麻雀適應度,當適應度連續3輪沒有變化時訓練停止。優化結果如表2所示,訓練16輪時達到最優適應度。

表2 SSA-LSTM優化結果

3.3 預測結果及對比分析

根據SSA優化結果設置LSTM模型參數,對日光溫室空氣溫濕度、光照強度、CO2濃度及土壤溫濕度分別進行未來21 d預測,預測結果如圖9所示。

圖9 基于SSA-LSTM的溫室環境預測結果

為了更好地驗證SSA-LSTM模型在多維溫室環境數據預測中的優越性,同時利用BP神經網絡、LSTM及 GRU模型對溫室環境預測并對比分析。在相同運算環境的輸入參數條件下,4種模型環境預測性能的對比如表3所示。

由表3可知,采用SSA-LSTM模型對溫室空氣溫濕度、土壤溫濕度、CO2濃度和光照強度6種參數進行預測,對空氣溫度預測擬合指數最高,為98.2%,平均絕對百分比誤差為2.5%,均方根誤差為0.6℃;受人工灌溉等因素影響,對土壤相對濕度預測擬合指數相對偏低,為96.8%,其MAPE為3%,RMSE為0.7%。

表3 4種模型預測性能對比

采用了SSA自動進行參數選優方式的SSA-LSTM,使模型預測性能發揮到極致,SSA-LSTM的平均MAPE降低至2.7%,相比BP、GRU、LSTM分別降低6.3、3.2、3.4個百分點;BP、GRU、LSTM和SSA-LSTM擬合指數分別為89.5%、93.5%、93.3%和97.6%,對比其它3種模型,SSA-LSTM預測擬合指數分別提升8.1、4.1、4.3個百分點,模型預測性能最佳。

4 結論

(1)針對農業物聯網數據體量大、維數爆炸、計算成本高,傳統的LSTM在訓練過程中依靠人工經驗手動調節參數,處理高維數據時收斂速度慢且容易陷入局部最優等問題,本文提出一種基于SSA優化的LSTM溫室環境預測模型,實現了溫室空氣溫濕度、土壤溫濕度、CO2濃度及光照強度6種環境數據的精準預測。

(2)與BP神經網絡、GRU及LSTM模型進行溫室環境預測對比分析。實驗結果表明:BP、GRU、LSTM和SSA-LSTM擬合指數分別為89.5%、93.5%、93.3%和97.6%,SSA-LSTM的擬合效果明顯提升。證明本研究提出的SSA-LSTM模型在溫室環境數據預測中具有較高的優越性。

猜你喜歡
發現者麻雀適應度
改進的自適應復制、交叉和突變遺傳算法
拯救受傷的小麻雀
1958年的麻雀
“發現者”卡納里斯的法律方法論
麻雀
一種基于改進適應度的多機器人協作策略
讓學生在小學數學課堂中做一個“發現者”和“創造者”
三位引力波發現者分享2017年諾貝爾物理學獎
基于空調導風板成型工藝的Kriging模型適應度研究
緊盯著窗外的麻雀
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合