?

基于CatBoost 算法的藍莓生態適宜性評估模型*

2023-05-12 02:26昌文峰
計算機與數字工程 2023年1期
關鍵詞:麻江縣藍莓特征

昌文峰 王 霄 楊 靖 覃 濤

(貴州大學電氣工程學院 貴陽 550025)

1 引言

藍莓又名越桔、越橘、藍漿果,是杜鵑花科、越橘屬植物,營養價值極高,因此也被譽為“水果皇后”。藍莓在消費市場深受大眾的喜歡[1~3],藍莓產業帶來的經濟效益使得越來越多的國家和地區開始大規模種植藍莓,而藍莓的生態適宜性也直接關乎藍莓果實的品質和產量[4~7]。因此,對藍莓的生態適宜性進行評估,合理地選取藍莓種植區域,對提升藍莓果實品質及產量、提高藍莓產業經濟效益具有重要意義。

近年來,國內外對藍莓生態適宜性的研究也越來越多。曹春根等[8]利用數理統計方法,在浙江省西南部地區調查種植在不同地點、不同海拔、不同土壤類別中的藍莓樹體生長量和果實性狀產量等,分析了藍莓在其山地種植的適宜性。董麗等[9]利用已提取數據組定量化擬合土壤pH變化對不同品種藍莓樹體生長的影響差異。秦公偉等[10]利用判斷矩陣法、線性加權求和法和層次聚類分析法對陜西省藍莓生長的潛在適生區進行了劃分研究。茍體忠等[11]采用地累積指數法和內梅羅污染指數法等方法對貴州省麻江縣藍莓種植基地土壤重金屬元素富集程度和潛在生態風險進行了評價。莫建國等[12]采用相關分析法分析了不同生育期氣象條件對藍莓品質形成的影響。Vera 等[13]確定了在智利南部的一個農場建立和管理高叢藍莓作物的農場領土單位,制定了一個農場級別的特征,并根據其接受能力對地區和地點進行了藍莓生態適宜性分類。眾多的藍莓生態適宜性的研究都是傳統數理統計方法和決策方法,該類方法具有主觀性過強的缺陷,降低生態適宜性的評價結果,進而影響到藍莓產業的發展和果農的增收。

隨著人工智能的發展,機器學習技術越來越多地應用于社會各個領域[14]。麻江縣作為貴州省藍莓種植面積最廣的區縣,采用機器學習算法對藍莓生態適宜性進行科學性和精細化的評價區劃,可為麻江縣藍莓產業發展規劃制定提供理論依據。本研究以適合在貴州黔東南州區域種植的兔眼藍莓為研究對象,確定藍莓生態適宜性指標,通過機器學習算法對麻江縣藍莓生態適宜性進行模型構建及主要影響因素分析,并采用ArcMAP 10.8 軟件對麻江縣藍莓生態適宜性地圖進行繪制。通過實驗發現,CatBoost 算法在藍莓生態適宜性評估效果比傳統機器學習模型效果更優,能為藍莓園區選址規劃和藍莓種植提供更客觀合理的科學依據,進而減少藍莓災害、提高藍莓生產率、增加果農經濟收入。

2 方法和資料

2.1 基本資料和數據來源

貴州省麻江縣DEM(數字高程模型,Digital El?evation Model)數據來自地理空間數據云的ASTER GDEM 數據,DEM 數據包括坡度、坡向、高程和ND?VI(歸一化植被指數,Normalized Difference Vegeta?tion Index)。氣象數據來源于貴州省氣象局2015年-2019 年逐月平均氣溫、降水量、≥10℃積溫(3月-9 月)等,土壤類型數據來源于中國土壤數據庫(Soil Science Database),包括土壤pH 和土壤有機碳含量等。數據基本來源見表1,研究區麻江縣概況見圖1。

表1 數據來源情況

圖1 麻江縣概況圖

2.2 理論方法

CatBoost(CB)是一種基于梯度提升決策樹(Gradient Boost Decision Tree,GBDT)改進的新型算法框架,該算法以對稱決策樹為基學習器,具有參數較少、支持類別變量和高準確性等特點,能夠高效合理地處理類別型特征;此外,CB 著重解決梯度偏差和預測偏移問題,對減少過擬合發生有良好效果,能有效提升算法準確性和泛化能力[15~17]。在傳統GBDT 算法中,處理類別型特征常用方式是利用類別特征標簽平均值進行替代,并且將標簽平均值作為節點分裂標準[18~19],用公式表示為

這種方法雖然簡單易實現,但存在一個明顯的缺點:特征往往比標簽包含更豐富的信息,若用直接用標簽平均值來代替特征,當訓練數據集和測試數據集數據結構和分布不一致時會出現條件偏移問題。

CB算法加入先驗項和權重系數,減少噪聲和低頻率類別型數據對于數據分布的影響,用公式表示為

式中:p是添加的先驗項;a是權重系數,通常大于0。

由于藍莓生態適宜性評價數據集中的特征多為類別特征,因此選用CB 算法能夠更大程度地學習到更多的信息,進而提升模型性能,圖2 為CB 算法流程圖。

圖2 CB算法流程圖

3 適宜性模型實驗分析

3.1 特征數據預處理

通過收集麻江縣龍崩上等19 個藍莓種植基地數據信息,獲取藍莓適宜性特征數據共796 例,其中藍莓適宜性良好408 例,藍莓適宜性非良好388例。藍莓生態適宜性特征10個,分別為坡度、坡向、高程、年降雨量、月均溫、≥10 ℃積溫、土壤pH、土壤有機碳含量、光照強度和歸一化植被覆蓋指數。

由于藍莓適宜性特征數據采集來源較多,因此藍莓適宜性特征集往往會存在特征數據重復、特征數據缺失、特征數據異常以及各特征數據之間量綱不統一等問題。這些問題會在一定程度上降低適宜性評估模型的預測精度,甚至會導致模型預測失敗,因此需要對特征數據集進行預處理工作,主要包括:1)刪除重復特征數據;2)補充缺失特征數據,類別特征采用眾數補充,連續特征采用平均值補充;3)對特征數據進行分桶,根據數據分布按分位點對連續特征進行分桶并標簽編碼(label encode),類別特征直接進行標簽編碼[20]。具體編碼方式如表2所示。

表2 適宜性特征編碼情況

3.2 實驗環境與參數配置

本文研究實驗環境為jupyter notebook,package主要包括python3.8、numpy、pandas、scikit-learn、im?blearn 等。采用LR、SVM、RF 和CB 算法構建四種不同的麻江縣藍莓生態適宜性評估模型。針對不同模型需對其參數優化使模型表現出更佳性能。

對LR、SVM 和RF 評估模型采用貝葉斯超參數優化方法獲取最佳參數組合[21],不同模型超參數優化結果如圖3、4、5所示。

圖3 LR模型超參數優化

圖4 SVM模型超參數優化

圖5 RF模型超參數優化

對于CB模型,由于參數過多,考慮到時間消耗和計算能力,很難利用貝葉斯優化其超參數。本文采用階梯式的網格搜索對CB 模型進行調參,即一部分參數調整至模型最佳后,基于此模型調整另外一部分參數,每部分參數采用網格搜索的方式依次進行。根據問題的特性,部分超參數需要進行特定的 限 制,主 要 對iterations、learning_rate、depth、l2_leaf_reg四個參數進行調參,具體步驟如下。

1)初始化一些基本變量,設定loss_function=Logloss、eval_metric=AUC、task_type=CPU;

2)確定learning_rate 和iterations 的數量,先設定learning_rate=0.1,early_stop=500;采用早停的方式確定iteration數量;

3)確定樹的生長深度,設定depth 參數的取值區間在[4,10],步長為1;

4)確定正則化強度,設定l2_leaf_reg 參數的取值區間在[0,10],步長為1;

5)降低學習率,最后降低學習率的同時增加數的數量,learning_rate 參數取值為[0.01,0.1],步長0.01。

通過超參數尋優,最終確定CB 模型的超參數組 合 為[loss_function:Logloss,eval_metric:AUC,task_type:CPU,learning_rate:0.03,iterations:10,depth:10,l2_leaf_reg:8]。

3.3 實驗分析

在模型評估過程中,分類問題往往需要使用不同的指標進行評估,從而完成模型訓練的迭代過程。本研究提出精確率(P)、召回率(R)、綜合評價指標(F1)[22]和AUC 作為評價指標,計算公式如下:

AUC(Area Under Curve)為ROC 曲線的線下面積大小,ROC 全稱是“受試者工作特征”(Receiver Operating Characteristic Curve)曲線。將模型的預測結果進行排序,按照順序對樣本作為正例進行預測,每次計算真正率(True Positive Rate,TPR)、假正率(False Positive Rate,FPR),分別作為橫、縱坐標軸,公式定義:

本文選取AUC 作為模型最重要的評估指標,進行對比分析。一般介于0.5~1,AUC值越大,說明模型泛化能力越好,預測表現越好。

本文選取貴州省黔東南州19 個藍莓種植基地的796 例藍莓生態適宜性數據作為數據集,將數據集前70%作為訓練集,后30%的數據作為測試集。采用LR、SVM、RF 和CB 四種算法搭建麻江縣藍莓適宜性評估模型并進行實驗對比,為避免實驗結果偶然性,提高實驗結果可靠度,本文對不同模型進行多次實驗,模型評估指標綜合對比如圖6、圖7所示。

圖6 ROC曲線對比圖

圖7 不同模型在各評估指標上的標準差

通過實驗分析得,基于CB 算法的藍莓生態適宜性評估模型在AUC指標上得分最高,值為0.897,LR、SVM 和RF 的AUC 得分分別為0.855、0.864 和0.875。進而分析可知CB 模型具有最佳的表現性能,比LR、SVM 和RF 模型高4.9%、3.8%、2.5%,并且在召回率、精確率和綜合評價指標方面都有著優秀表現。

3.4 適宜性地圖繪制

在本文所選的機器學習中,除SVM 外,評估結果具有自然概率意義,概率值為0 表示不適宜藍莓生長,概率值為1則表示適宜藍莓生長,從0~1表示藍莓生態適宜性等級遞增。因此,通過模型輸出的結果可直接劃分每個單位的生態適宜性等級。SVM模型原理上無法直接給出預測結果的概率,但本文通過5 折交叉驗證進行模型的預測,同樣可以滿足結果具有自然概率意義的要求。

將麻江縣藍莓生態適宜性劃分為5 個等級:[0~0.20) 不適宜區、[0.2~0.40) 較不適宜區、[0.40~0.60) 基本適宜區、[0.60~0.80) 較適宜區、[0.80~1]最適宜區[10]?;诓煌u估模型繪制麻江縣藍莓生態適宜性評價地圖如圖8所示。

圖8 麻江縣藍莓生態適宜性評價地圖

目前麻江縣多數藍莓種植點分布縣東南區域,市場表明該區域藍莓品質產量較好。由圖8 麻江縣藍莓生態適宜性評價地圖分析可見,區劃最適宜區和較適宜區主要分布在縣東南部的宣威鎮和龍山鎮,與實際種植區域情況基本相吻合。由此可見,采用CB 模型構建的藍莓生態適宜性評估模型結果較好,區劃結果也具有可靠性。

由于模型原理差異性,SVM模型無法給出藍莓生態適宜性特征的重要性分析。除SVM 模型外,從各模型特征重要性得分可知,高程和≥10 ℃積溫兩個特征在不同模型獲得很高的分值,說明這兩個特征對藍莓生態適宜性影響程度更高,是影響藍莓生長的重要因素。各模型特征重要性如圖9所示。

圖9 不同評估模型特征重要性

4 結語

本文通過多平臺收集藍莓生態適宜性特征數據,構建了麻江縣藍莓生態適宜性特征數據集。根據數據集特點,利用CB 算法構建藍莓生態適宜性評估模型,與其他傳統機器學習算法模型進行對比分析,依據各模型評估結果繪制麻江縣藍莓生態適宜性評價地圖。實驗結果表明,CB 算法對特征數據信息挖掘更充分,模型評估效果明顯優于傳統機器學習算法。但模型效果仍有進步空間,且單一模型效果不具備較強的魯棒性。因此,我們后續的研究方向旨在收集更豐富的藍莓適宜性特征數據,提高數據集質量以及融合多模型進行藍莓生態適宜性評估,進一步提升評估結果準確性。

猜你喜歡
麻江縣藍莓特征
麻江縣關工委開展青少年關愛幫扶活動
藍莓建園技術
藍莓姑娘
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
西海岸的藍莓名片
甜甜的藍莓果
麻江縣老年大學開展免費體檢活動
麻江縣渠道防滲改造的具體措施
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合