?

機器學習在氮循環領域的應用研究進展①

2023-09-21 08:39高志煒吳電明潘月鵬
土壤 2023年4期
關鍵詞:氮素機器算法

高志煒,吳電明,*,陳 曦,潘月鵬

機器學習在氮循環領域的應用研究進展①

高志煒1,2,3,吳電明1,2,3,4*,陳 曦1,2,3,潘月鵬4

(1 華東師范大學地理科學學院,地理信息科學教育部重點實驗室,上海 200241;2 崇明生態研究院,上海 202162;3 自然資源部超大城市自然資源時空大數據分析應用重點實驗室,上海 200241;4 中國科學院大氣物理研究所大氣邊界層物理和大氣化學國家重點實驗室,北京 100029)

氮循環是地球圈層中水–土–氣–生多介質、多界面的復雜過程,與土壤健康、糧食安全、全球變暖、空氣污染、水體質量等環境問題密切相關。近年來,得益于計算機技術的快速發展和海量、多源數據的產生,機器學習迅速成為研究氮素循環強有力的工具。本文系統梳理了機器學習的功能性概念,包括典型開發流程和學習應用場景等;總結了機器學習的典型應用算法,包括經典機器學習(如隨機森林、支持向量機等)和深度學習(如卷積神經網絡、長短期記憶網絡等);并綜述了機器學習在氮循環研究領域的應用研究進展,包括大氣、水體、土壤和植物/作物等介質的氮素代謝機制、模擬氮素循環過程及管理氮素流動等。未來基于大數據和機器學習技術的特征工程和模型融合的研究,將會給氮循環領域的數據分析與建模帶來巨大變革。同時,將機器學習與基于物理過程的模型相結合解決氮循環過程中的復雜問題,可為服務國家“雙碳”戰略以及控制全球變暖、空氣污染等環境問題提供重要支撐。

機器學習;深度學習;氮循環;硝化;反硝化;氧化亞氮

氮(N)是生命代謝必需的營養元素,參與蛋白質合成、信號調節等基礎生理功能[1]??諝庵?8% 的氣體是氮氣(N2),經由閃電作用、生物固氮、人工合成氨等途徑形成活性氮,從而進入陸地、海洋、大氣等圈層,參與氮素循環。自然生態系統一般處于“氮限制”的狀態,少量的氮沉降、施肥等氮素輸入可以促進生態系統生產力的提高[2]。但是,由于人口數量的不斷增加和對糧食產量的需求,大量的氮肥被用于提高作物、森林樹木和草場等產量,導致過量的氮素進入生態系統,超過了地球系統的行星邊界(planetary boundary layer),成為繼生物多樣性之后的又一全球性問題[3]。據估算,農田生態系統作物的氮素利用率只有20% ~ 50%[4],其余的氮素一部分被保留在土壤中,一部分通過硝態氮淋失、氣體排放等進入水體和大氣,引發了一系列的環境問題,包括土壤酸化、面源污染、大氣污染、臭氧層空洞、生物多樣性降低等[5-6]。

為了研究多介質氮素遷移轉化過程及其環境效應,國內外學者已經發展了多種模型,主要包括自下而上(bottom-up)和自上而下(top-down)兩種類型。前者包括排放清單估算、基于物理過程的模型預測等,決定其預測能力的關鍵因素在于數據量的大小、氮素循環機理的研究等,如土壤數據庫的建立、氮循環的關鍵功能基因和驅動因素的解析等[7-9];后者包括遙感定量反演等,其模型的準確度更依賴于儀器精度、大氣條件和后期數據分析等因素[10]。雖然這些方法能夠精確地定量評估氮素循環過程、驅動機制和環境影響等,對解決氮循環復合型問題起到了決定性的作用,但也存在一些缺陷,如自下而上的方法非??简炑芯空叩南闰炛R,自上而下的方法面對存在缺失值的時間序列的建模能力仍然有限[11],且兩者在擬合非線性關系的精度上也有待提高以及運行成本高昂等[12]。

機器學習(Machine Learning,ML)是近年來迅速發展起來的人工智能中的一個新興領域,為科學家研究氮素代謝、循環和利用等提供了全新的視角。機器學習已被廣泛地應用于土壤學[13]、大氣科學[14]、環境科學[15]、水文學[16]和生物信息學[17]等多學科交叉研究領域。氮素循環作為生物地球化學循環的重要組成部分,也已經涌現出大量機器學習的應用性文章。如圖1所示,關于機器學習和氮素交叉研究的論文數量呈現逐年增長的趨勢,2010年以來更是飛速發展。單一的、集成的或與基于物理過程模型混合建模的機器學習算法與氮素經典的研究手段結合被應用于生態系統氮素循環各個時空尺度的研究[18-19]。機器學習憑借更靈活的模型結構和更高的計算效率,能夠定量構建社會、經濟、環境要素到氮素濃度變化的動態響應關系中,從不斷增長的地理空間數據流中提取模式和見解,提高季節性預測的預測能力,進行跨多個時間尺度的遠程空間聯系建模,從而獲得對氮素科學問題的進一步理解?;旌辖5姆椒ㄒ彩沟脵C器學習和物理過程模型各自在已經獲得較好預測結果的情況下更進一步賦予和增添了彼此的競爭優勢[20]。機器學習還在降低研究成本,宏觀、全面、快速預測土壤中氮的流入、流出和轉化過程,了解大尺度全球氮素通量及其空間分布,大大降低全球氮素收支的不確定性等方面發揮重要作用,迅速成為研究氮素循環強有力的工具[15]。

圖1 基于Web of Science以“機器學習”和“氮”為關鍵詞搜索得到的世界各國已發表論文的數量(訪問日期2022年7月15日)

本文綜述了機器學習在氮循環領域的研究進展和應用情況,比較了其與經典研究方法的優劣,提出了未來應該關注的研究方向,以期為推動氮素循環研究、解決氮素相關的環境問題等提供科學支撐,也為政府部門決策、聯合國政府間氣候變化專門委員會(IPCC)氣候變化評估、實現聯合國可持續發展目標等提供參考和建議。

1 氮循環

氮素生物地球化學循環主要由微生物參與的氧化還原反應驅動。固氮作用、好氧硝化、厭氧反硝化、厭氧氨氧化等多種過程驅使地球上不同價態或相態的氮素保持動態平衡[21]??諝庵械亩栊訬2是可自由獲取的氮的最大庫存,但由于其三鍵結構的高度化學穩定性,很難被生物直接利用,需要經過一系列氮轉化過程,形成如銨鹽(NH4+)和硝酸鹽(NO3?)才能為生物所吸收[22]。通過生物固氮和閃電作用每年約203 Tg的N2轉化為活性氮,進入陸地和海洋生態系統[23](圖2)。大部分N2被還原為銨化合物,隨后在硝化作用下,NH4+被逐步氧化成NO3?,并通過土壤、沉積物、淡水和海水的微生物反硝化、化學作用等以N2的形式重新返回大氣,構成氮的循環過程。同時,厭氧氨氧化微生物以亞硝酸鹽(NO2?)為電子受體,將NH4+氧化為N2,也起到脫氮作用[24],因此,該過程經常和反硝化作用一起被應用到廢水處理廠的脫氮工藝中。而硝酸鹽異化還原為銨(DNRA)會與反硝化微生物競爭NO3?和有機物,將NO3?還原為NO2?和NH4+,再次將固定的氮回收利用[25]。土壤中超過90% 的氮素以有機態形式存在,難以被植物利用[26]。礦化作用將土壤中有機態氮在微生物的作用下轉化為易被植物吸收的無機氮(如NH4+、NO3?)[27],再經過氮素同化最終合成氨基酸和蛋白質,因此,該過程與作物產量和氮素利用效率等密切相關[28]。

(圖中圓環上的數字代表了三大系統的活性氮分配;各個細線箭頭旁的數字表示氮素遷移轉化的通量(N,Tg/a),其中,黑色數字代表自然通量,全部自然通量203 Tg/a被匯入生態系統活性氮庫;黃色數字代表人為排放通量,全部人為排放通量210 Tg/a;加底紋的數字代表參與水體生態系統氮素循環過程的活性氮通量。數據來源于Fowler等[23]的文獻)

在氮素轉化過程中,大量的活性氮被釋放到環境中,直接影響氣候變化、空氣污染和水體質量等。例如,硝化和反硝化作用產生的氧化亞氮(N2O)是一種重要的溫室氣體,在地球的輻射平衡和平流層臭氧(O3)循環中起著關鍵作用[29]。而通過氨揮發產生的氨氣(NH3),以及硝化和反硝化過程排放的氮氧化物(NO)和氣態亞硝酸(HONO)等是典型的空氣污染物[30],參與近地面O3和氫氧自由基(·OH)的生產和消耗、揮發性有機化合物(VOCs)的循環等過程,在自由基光化學和大氣氧化能力等方面起著關鍵作用[23]。這些短壽命活性氮氣體(NH3、NO和HONO)可以轉化為NO3?或NH4+,是形成氣溶膠的重要前體物,影響著大氣細顆粒物濃度(PM2.5)和空氣質量[31]。大氣干濕沉降可以移除空氣中的活性氮,連同氮肥(主要是銨態氮和硝態氮)的輸入,再次進入陸地或海洋生態系統的氮循環(圖2)。

2 機器學習

機器學習是實現人工智能的一種方法,是一門跨學科的學科,通過結合概率論、統計學等數學方法,從已知數據中模擬或實現,從已有數據中挖掘規則,從而實現對未知數據的“預測”[32]。機器學習發展到今日,已經積累了大量的算法。一般根據學習方式分為監督學習、非監督學習和強化學習。監督學習需要對每一個數據樣本有明確標注,常應用于分類和回歸問題,常見的算法有貝葉斯分類器、邏輯回歸、隨機森林、支持向量機、卷積神經網絡等[33]。非監督學習算法的主要任務是在不對數據做任何標注情況下發現數據的分布規律,常應用于關聯規則的學習以及聚類,常見的算法包括K-Means聚類、層次聚類、自組織映射等[33]。強化學習通過與外部環境交互獲得的反饋中學習,常見的應用場景包括動態系統以及機器人控制等,常見的算法包括Q-Learning等[34]。

機器學習模型的開發遵循收集數據、處理數據、建立模型、訓練和驗證模型以及測試模型性能的系統步驟[15](圖3)。數據處理包括①數據清洗,識別“臟數據”:對缺失數據、異常數據和重復數據進行刪除、填充和糾正等;②數理統計分析:對數據進行標準化或正態化處理;③數據挖掘:針對高維數據進行降維,或為了避免多重共線性進行特征提取。開發模型也是一項復雜的任務,首先將處理后的數據進行分組,分為訓練集、驗證集和測試集。訓練集用于模型擬合;驗證集用于調整模型的超參數,初步評估模型的能力;測試集用于評估最終模型的泛化能力和性能表現。模型的準確性通常根據不同的任務選擇不同的準則。分類任務通常采用極大似然準則,回歸任務通常采用均方誤差準則。預測問題通常屬于回歸任務,常用的指標有決定系數(2)、卡方(χ2)、平均偏差誤差(MBE)、均方誤差(MSE)、均方根誤差(RMSE)、平均百分比誤差(MPE)等[35]。

圖3 機器學習模型開發的典型工作流程

MATLAB機器學習工具箱、R的“程序包”、Python的scikit-learn以及開源的算法等為非機器學習領域的從業人員搭建了能在其專業領域應用的橋梁。氮循環領域的輸入變量主要來自于高光譜圖像數據、生物地球化學實驗室模擬、外場測量數據和文本數據等[36],非常規數據源還有智能手機等[37]。當輸入變量很少時,通過統計學方法或研究人員的先驗知識,可以篩選出變量的最佳集合,確保模型的準確性,并使模型具有可解釋性。隨著研究區的擴大,研究內容的復雜化,將會產生更高維數據集,評估所有變量的重要性將變得難以實現。雖然模型輸入變量的增多能提供更高的準確性,但同時會降低模型的可解釋性,并導致多重共線性[38]。因此,機器學習提供了特征選擇技術以消除輸入變量的多重共線性,包括粒子群優化、遺傳算法(GA)、混合GA–人工神經網絡、平行GA、人工蜂群算法等[39]。為了探索特征選擇的數據集是否穩健,可利用重復的敏感性分析觀察在不同輸入下輸出的波動范圍,從而對輸入進行取舍增減,進一步保證模型輸入數據集的優質性[40]。一旦成功地構建模型,就能將其用于特定問題的預測,但此時它們僅適用于開發它們的數據范圍或特定問題,想要實現模型的外推仍然需要新數據集的重新訓練。遷移學習提供了模型的可移植性解決方案,它可以有機地利用源域中的知識對目標域更好地建模[41]。

3 機器學習典型應用算法

機器學習方法(例如隨機森林、支持向量機和神經網絡)應用非常廣泛,其性能和適用性普遍優于更簡單的方法,例如主成分回歸、偏最小二乘回歸、多元線性回歸和K最近鄰算法等[13, 38]。本文主要介紹代表性的經典機器學習方法以及深度學習進階算法(圖4)。

圖4 機器學習各類算法性能和可解釋性之間的權衡以及各自優勢[38]

3.1 經典機器學習

3.1.1 隨機森林 隨機森林(Random Forest,RF)是Breiman開發的一種基于若干決策樹的集成學習算法?!半S機”是它的精髓,主要體現為訓練集隨機抽樣以及特征子集隨機生成。正是因為這兩個“隨機”的引入,才較好地提升了它的泛化和抗噪能力,使其不易陷入單一決策樹引發的過擬合問題。迄今為止,RF在全球生態系統中氮素轉化通量預測[42]、活性氮物種時空建模[43]、土壤/水體氮素濃度衛星反演評估[44-45]等方面都表現出了強大的應用潛力。

3.1.2 支持向量機 支持向量機(Support Vector Machine,SVM)是一種用于二元分類的廣義分類器,使用核技巧以及定義軟間隔最大化,旨在維度空間中找到一個正確分類的最優決策面[46]。相比于容易過度擬合訓練樣本和基于貪心學習的策略來搜索假設空間的人工神經網絡,SVM以結構風險最小化(SRM)原理代替經驗風險最小化(ERM)原理,大大降低了過擬合風險,并以凸優化的本質和核函數的使用有效避免局部最優和“維度災難”[47]。SVM有4種核函數類型:線性、多項式、S型(Sigmoid)和徑向基函數(RBF)。核函數及其參數的選擇影響SVM模型分析結果的準確性。RBF核,有的時候也被稱為高斯核(Gaussian Kernel),廣泛應用于土壤測繪數字制圖[48]、水質監測和廢水處理[49]、生態化學計量[50]等方面。

3.2 深度學習

深度學習或深度神經網絡是指具有多層的人工神經網絡(Artificial Neural Network,ANN)。ANN最早由Warren McCulloch和Walter Pitts提出,很多理論分析和前瞻性成果在20世紀五六十年代相繼出現。比如1958年心理學家Rosenblatt 創造的感知機(Perceptron),但由于感知機存在無法完成多種模式的訓練識別的缺陷使得研究陷入冰凍期[51]。經過多層神經網絡和反向傳播算法的提出及應用,神經網絡于20世紀80年代迎來了第二次研究熱潮[52]。隨著網絡層數的遞增,反向傳播算法容易產生梯度消失或者爆炸的問題;另一方面,其他諸如SVM等新興算法又可以在更少的硬件資源條件下達到很好的效果,因此神經網絡復歸沉寂[53]。但21世紀以來,隨著計算能力和訓練數據規模的大幅度提升,特別是云計算、高性能GPU硬件設備的廣泛應用,使得神經網絡研究再次復蘇,迎來第三次繁榮。

深度學習也是機器學習的最蓬勃發展的分支[54],并得益于計算機技術的快速發展以及海量數據的不斷積累,其在醫學、物理學、化學等領域大放異彩并啟發了地學的發展。它可以在不依賴于先驗知識的情況下完全由數據驅動,不斷從增長的地理空間數據流中提取模式和見解,從而成為地理建模的新方法[20]。在地球系統大數據背景下,深度學習算法(例如卷積神經網絡和長短期記憶網絡)結合地理信息系統(GIS)和遙感(RS)或利用谷歌地球引擎(GEE)等云計算平臺鏈接,通過編譯大量數據進行環境資源監測、土地覆蓋測繪和信息建設與預測,輔助決策者進行氮素管理。

3.2.1 卷積神經網絡 卷積神經網絡(Convolutional Neural Network,CNN)以生物視覺感知機制為靈感,是一種著名的深度學習架構,在計算機視覺領域取得了令人矚目的成就。1990 年,Le Cun等[55]發表了建立CNN現代框架的開創性論文。自2012年以來,CNN逐漸成為圖像分類、對象檢測、語義分割等視覺識別任務的主流算法[56]。

3.2.2 長短期記憶網絡 長短期記憶網絡(Long Short-Term Memory,LSTM)屬于一種特殊的循環神經網絡(RNN),擅長處理非線性時間序列數據。最初版本是由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出,用于克服RNN在學習長期依賴項時通常出現的梯度爆炸/消失問題[57]。在地球系統科學背景下,通過建立氣候和遙感協變量與目標變量(陸地、海洋和大氣)相關聯的LSTM模型,可推斷大陸或全球估計值[58]。

4 機器學習在氮循環領域的應用研究進展

機器學習的應用場景非常廣泛,包括文本處理、圖像識別、數據挖掘等[35]。近年來,在地球科學領域涌現出了各類跨學科和應用型研究。例如,Reichstein等[20]給出了機器學習的典型地學研究應用場景,包括分類問題、融合問題、預測問題、時間序列建模問題等。在氮素循環領域,機器學習已經承接室內培養試驗、田間野外試驗、大氣外場觀測、遙感觀測和分子生物學手段產生的高通量數據流,在水–土–氣–生多介質、多界面上,進行了各個研究尺度上的模型模擬,包括從單細胞、微生物純菌等微觀尺度,到培養瓶、盆栽等小尺度,以及到小區、田塊、流域等中等尺度,再到國家、洲際和全球等大尺度,建立了包含海洋固氮[59]、預測硝化速率及N2O的排放[60]等多個全球尺度時空模型,氮肥的輸入和氮沉降[61]相關的多個農業模型,改善水體富營養化的反硝化過程和厭氧氨氧化模型[62],以及識別固氮基因的分子生物學模型[63]等。

從20世紀90年代開始,隨著SVM和RNN的流行,機器學習轉變為數據驅動的方法。相比于傳統模型,機器學習具有以下優勢。一方面,機器學習無需太多先驗知識。例如,在預測硝化作用過程中,隨機梯度提升(SGB)相比于基于物理過程的WNMM(水氮管理模型)、APSIM(農業生產系統模型)等模型表現出更佳的性能[60]。在評估空氣質量的確定性方面,隨機森林(RF)方法表現出比化學和物理傳輸模型WRF-CMAQ更高的準確性[64]。另一方面,機器學習方法已被證明比以往的機械或半經驗建模方法更強大和靈活。例如,具有一個隱藏層的人工神經網絡能夠過濾去除噪聲,預測CO2通量的晝夜和季節性變化[65]。Cui等[66]提出了一個由隨機森林、梯度提升和反向傳播神經網絡組成的集成機器學習模型,實現了對未被以往氮循環模型量化的HONO估算。2010年以來,隨著深度學習的興起,數據驅動的優勢更加得到加強,傳統模型高成本化學求解的束縛被進一步掙脫。同時,對于理論和經驗知識還未達到或還未成熟的情況,機器學習還可以提供一種依賴于數據來彌補未知的映射關系的解決方法[67]。然而,盡管機器學習算法具有強大的泛化能力和非線性學習能力,但大多數算法的黑箱特點導致其不可解釋或模型的可解釋性不足,且隨著隱藏層層數的增多,可解釋性越差[68](圖4),這也催生了模型解釋領域的發展[69]。例如,Hou等[18]采用RF輔以Shapley加性解釋算法和post hoc解釋技術揭示了大氣霾污染的驅動因素。另外,將機器學習算法集成到物理過程模型框架中也可彌補可解釋性較差的短板,聯合數據同化算法融合時空上離散分布的不同來源和分辨率的直接或間接觀測信息來自動調整模型軌跡,以減少動態模型中的偏差[70]。Zhan等[71]開發的新型混合模型隨機森林時空克里格法(RF-STK),填補了每日NO2統計建模的空白,成為人體健康風險評估和解決空氣污染問題的關鍵步驟。

機器學習還為實現氮素智能管理、提高作物產量、保障土壤健康和糧食安全等提供了新的研究途徑和策略,成為精準農業系統科學決策的支持工具[72]。特別是機器學習的分支深度學習和強化學習,具有更強的表征能力或環境交互能力,與氮循環中存在的反饋控制循環相結合,使得環境氮素調節更加“智能”,并通過多系統耦合和動態調整策略找到符合目標的氮素最優配置[73]?;跈C器學習的視覺傳感技術可以有效識別葉片/冠層或土壤氮含量[44, 74]、診斷作物營養狀況[75]、自動監測缺氮脅迫[75]、確定當前季節的植物氮需求[76]、開發控釋尿素[77]、預測作物產量[78]等。氮素的有效分配將最大限度地提高作物生產力,這不僅節省了人力、物力和經濟成本,還減少氮素流失所造成的一系列生態問題[79]。同樣地,自動化和DNA測序技術的最新進展大大降低了分析微生物群落組成的成本,機器學習的回歸和分類模型則可以利用從農田土壤中收集的16S rRNA基因數據對土壤健康進行綜合評估[80]。在生物學上,Higdon等[63]用RF訓練分類模型識別具有生物固氮特征的基因,與泛基因組關聯研究(Pan-GWAS)識別的基因進行比對和協同建模,鑒定出玉米分離株中乳球菌泛基因組與生物固氮相關的基因子集。

機器學習還在與氮循環相關的河流生態學、流域面源污染控制、溪流湖泊恢復生態學等領域具有潛在的應用前景。如,基于高分辨率衛星遙感產品,利用挺水植物對氮去除或水凈化的光譜響應,引入4種機器學習方法來估算水體總氮濃度[44],可能是一種新的水質參數光學估算方法[81];基于LSTM架構,可提前幾個小時預測污水處理廠氨氮和硝氮的排放濃度[82];而Xu等[62]使用ANN模型進一步揭示了不同抗生素抑制下厭氧氨氧化脫氮過程的響應效應及潛在機制,并融合動力學建模方法對最大脫氮率進行了預測。

總體而言,各種經典穩健的機器學習方法和進階深度學習算法已經應用于地球系統科學的主要子領域,并且越來越多地被整合、用于補充和增強現有的物理過程模型,在生態系統氮素循環的多個過程中成為支持科學決策的依據,也為理解生物地球化學氮素代謝、循環和利用等提供了新的視角。

5 總結與展望

大數據正在成為21世紀的關鍵資源之一,以數據驅動發現的模型也成為生物地球化學領域的熱點議題。隨著計算機性能的突破,深度學習和強化學習的持續發展,易于使用的機器學習工具箱的出現,預示著未來10年機器學習算法針對地球科學領域的預測研究將繼續呈現持續性的增長[33]。從歷史上看,機器學習已被證明具有強大的表征和泛化能力,可以進一步認識多源、多尺度、多介質、復雜高維的時空關系,研究者可以通過訓練模型獲取、篩選、分析和可視化生物地球化學數據,模擬氮循環重要生物或非生物轉化過程,探索發現潛在轉化機制,解決氮素失衡導致的土壤(如土壤酸化)、大氣(如臭氧層空洞)和水體(如富營養化)等生態安全問題。通過將強化學習和深度學習結合,還能實現與環境交互,制定完整解決方案,自動改進算法,建立動態自動化系統。但在實際應用方面,未來還需要考慮模型的復雜性和可解釋性,對此建議根據從地球系統物理模型派生的合成數據測試機器學習方法的性能,在遵守物理定律的框架下,同時在理論薄弱的地方發揮數據驅動和經驗驅動的協同作用[20]。未來基于大數據和機器學習技術的特征工程和模型融合的研究,將會給氮循環領域的數據分析與建模帶來巨大變革,為服務國家“雙碳”戰略以及控制全球變暖、空氣污染等環境問題提供更多途徑。

[1] Maathuis F J. Physiological functions of mineral macronutrients[J]. Current Opinion in Plant Biology, 2009, 12(3): 250–258.

[2] Melillo E D. The first green revolution: Debt peonage and the making of the nitrogen fertilizer trade, 1840-1930[J]. The American Historical Review, 2012, 117(4): 1028–1060.

[3] Rockstr?m J, Steffen W, Noone K, et al. A safe operating space for humanity[J]. Nature, 2009, 461(7263): 472–475.

[4] Li S T, He P, Jin J Y. Nitrogen use efficiency in grain production and the estimated nitrogen input/output balance in China agriculture[J]. Journal of the Science of Food and Agriculture, 2013, 93(5): 1191–1197.

[5] Galloway J N, Townsend A R, Erisman J W, et al. Transformation of the nitrogen cycle: Recent trends, questions, and potential solutions[J]. Science, 2008, 320(5878): 889–892.

[6] Houlton B Z, Almaraz M, Aneja V, et al. A world of cobenefits: Solving the global nitrogen challenge[J]. Earth’s Future, 2019, 7(8): 865–872.

[7] Wu D M, Zhang J W, Wang M D, et al. Global and regional patterns of soil nitrous acid emissions and their acceleration of rural photochemical reactions[J]. Journal of Geophysical Research: Atmospheres, 2022, 127(6): e2021JD036379.

[8] Tian H Q, Yang Q C, Najjar R G, et al. Anthropogenic and climatic influences on carbon fluxes from eastern North America to the Atlantic Ocean: A process-based modeling study[J]. Journal of Geophysical Research: Biogeosciences, 2015, 120(4): 757–772.

[9] Giltrap D L, Li C S, Saggar S. DNDC: A process-based model of greenhouse gas fluxes from agricultural soils[J]. Agriculture, Ecosystems & Environment, 2010, 136(3/4): 292–300.

[10] Overpeck J T, Meehl G A, Bony S, et al. Climate data challenges in the 21st century[J]. Science, 2011, 331(6018): 700–702.

[11] Das M, Ghosh S K. A deep-learning-based forecasting ensemble to predict missing data for remote sensing analysis[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5228–5236.

[12] Lee H, Wang J F, Leblon B. Using linear regression, random forests, and support vector machine with unmanned aerial vehicle multispectral images to predict canopy nitrogen weight in corn[J]. Remote Sensing, 2020, 12(13): 2071.

[13] Padarian J, Minasny B, McBratney A B. Machine learning and soil sciences: A review aided by machine learning tools[J]. Soil, 2020, 6(1): 35–52.

[14] Zheng L M, Lin R, Wang X M, et al. The development and application of machine learning in atmospheric environment studies[J]. Remote Sensing, 2021, 13(23): 4839.

[15] Zhong S F, Zhang K, Bagheri M, et al. Machine learning: New ideas and tools in environmental science and engineering[J]. Environmental Science & Technology, 2021, 55(19): 12741–12754.

[16] Sit M, Demiray B Z, Xiang Z R, et al. A comprehensive review of deep learning applications in hydrology and water resources[J]. Water Science and Technology, 2020, 82(12): 2635–2670.

[17] Jin S T, Zeng X X, Xia F, et al. Application of deep learning methods in biological networks[J]. Briefings in Bioinformatics, 2021, 22(2): 1902–1917.

[18] Hou L L, Dai Q L, Song C B, et al. Revealing drivers of haze pollution by explainable machine learning[J]. Environmental Science & Technology Letters, 2022, 9(2): 112–119.

[19] Keller C A, Evans M J. Application of random forest regression to the calculation of gas-phase chemistry within the GEOS-Chem chemistry model v10[J]. Geoscientific Model Development, 2019, 12(3): 1209–1225.

[20] Reichstein M, Camps-Valls G, Stevens B, et al. Deep learning and process understanding for data-driven Earth system science[J]. Nature, 2019, 566(7743): 195–204.

[21] Canfield D E, Glazer A N, Falkowski P G. The evolution and future of Earth’s nitrogen cycle[J]. Science, 2010, 330(6001): 192–196.

[22] Kuypers M M M, Marchant H K, Kartal B. The microbial nitrogen-cycling network[J]. Nature Reviews Microbiology, 2018, 16(5): 263–276.

[23] Fowler D, Coyle M, Skiba U, et al. The global nitrogen cycle in the twenty-first century[J]. Philosophical Transactions of the Royal Society of London Series B, Biological Sciences, 2013, 368(1621): 20130164.

[24] Broda E. Two kinds of lithotrophs missing in nature[J]. Zeitschrift Für Allgemeine Mikrobiologie, 1977, 17(6): 491–493.

[25] Woods D D. The reduction of nitrate to ammonia bywelchii[J]. The Biochemical Journal, 1938, 32(11): 2000–2012.

[26] Matsumoto S, Ae N. Characteristics of extractable soil organic nitrogen determine using various chemical solutions and its significance for nitrogen uptake by crops[J]. Soil Science and Plant Nutrition, 2004, 50(1): 1–9.

[27] Schimel J P, Bennett J. Nitrogen mineralization: Challenges of a changing paradigm[J]. Ecology, 2004, 85(3): 591–602.

[28] Xu G H, Fan X R, Miller A J. Plant nitrogen assimilation and use efficiency[J]. Annual Review of Plant Biology, 2012, 63: 153–182.

[29] Thompson R L, Lassaletta L, Patra P K, et al. Acceleration of global N2O emissions seen from two decades of atmospheric inversion[J]. Nature Climate Change, 2019, 9(12): 993–998.

[30] 宋雅琦, 吳電明, 俞元春. 土壤活性氮氣體排放研究進展[J]. 科技導報, 2022, 40(3): 130–144.

[31] Zhang X N, Ward B B, Sigman D M. Global nitrogen cycle: Critical enzymes, organisms, and processes for nitrogen budgets and dynamics[J]. Chemical Reviews, 2020, 120(12): 5308–5351.

[32] Xu Y J, Liu X, Cao X, et al. Artificial intelligence: A powerful paradigm for scientific research[J]. The Innovation, 2021, 2(4): 100179.

[33] Bergen K J, Johnson P A, de Hoop M V, et al. Machine learning for data-driven discovery in solid Earth geoscience[J]. Science, 2019, 363(6433): eaau0323.

[34] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey[J]. Journal of Artificial Intelligence Research, 1996, 4: 237–285.

[35] Zhou Z H. Machine Learning[M]. Singapore: Springer Singapore, 2021.

[36] Salcedo-Sanz S, Ghamisi P, Piles M, et al. Machine learning information fusion in Earth observation: A comprehensive review of methods, applications and data sources[J]. Information Fusion, 2020, 63: 256–272.

[37] Yang M D, Hsu Y C, Tseng W C, et al. Assessment of grain harvest moisture content using machine learning on smartphone images for optimal harvest timing[J]. Sensors, 2021, 21(17): 5875.

[38] Liu X, Lu D W, Zhang A Q, et al. Data-driven machine learning in environmental pollution: Gains and problems[J]. Environmental Science & Technology, 2022, 56(4): 2124–2133.

[39] 周慧穎, 汪廷華, 張代俐. 多標簽特征選擇研究進展[J]. 計算機工程與應用, 2022, 58(15): 52–67.

[40] 何坤龍, 趙偉, 劉曉輝, 等. 云霧覆蓋下地表溫度重建機器學習模型的訓練集敏感性分析[J]. 遙感學報, 2021, 25(8): 1722–1734.

[41] 王惠. 遷移學習研究綜述[J]. 電腦知識與技術, 2017, 13(32): 203–205.

[42] Glenn A J, Moulin A P, Roy A K, et al. Soil nitrous oxide emissions from no-till canola production under variable rate nitrogen fertilizer management[J]. Geoderma, 2021, 385: 114857.

[43] Li R, Cui L L, Zhao Y L, et al. Long-term trends of ambient nitrate (NO3?) concentrations across China based on ensemble machine-learning models[J]. Earth System Science Data, 2021, 13(5): 2147–2163.

[44] Wang J Z, Shi T Z, Yu D L, et al. Ensemble machine-learning-based framework for estimating total nitrogen concentration in water using drone-borne hyperspectral imagery of emergent plants: A case study in an arid oasis, NW China[J]. Environmental Pollution, 2020, 266(Pt 2): 115412.

[45] Mashaba-Munghemezulu Z, Chirima G J, Munghemezulu C. Modeling the spatial distribution of soil nitrogen content at smallholder maize farms using machine learning regression and sentinel-2 data[J]. Sustainability, 2021, 13(21): 11591.

[46] Noble W S. What is a support vector machine?[J]. Nature Biotechnology, 2006, 24(12): 1565–1567.

[47] 奉國和. SVM分類核函數及參數選擇比較[J]. 計算機工程與應用. 2011, 47(3): 123–124.

[48] Zhou T, Geng Y J, Chen J, et al. High-resolution digital mapping of soil organic carbon and soil total nitrogen using DEM derivatives, Sentinel-1 and Sentinel-2 data based on machine learning algorithms[J]. Science of the Total Environment, 2020, 729: 138244.

[49] Kim Y, Oh S. Machine-learning insights into nitrate- reducing communities in a full-scale municipal wastewater treatment plant[J]. Journal of Environmental Management, 2021, 300: 113795.

[50] Qiu Z C, Ma F, Li Z W, et al. Estimation of nitrogen nutrition index in rice from UAV RGB images coupled with machine learning algorithms[J]. Computers and Electronics in Agriculture, 2021, 189: 106421.

[51] 張馳, 郭媛, 黎明. 人工神經網絡模型發展及應用綜述[J]. 計算機工程與應用. 2021, 57(11): 57–69.

[52] Werbos P J. The roots of backpropagation: From ordered derivatives to neural networks and political forecasting[M]. New York: John Wiley & Sons, 1994.

[53] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273–297.

[54] Zhang Q C, Yang L T, Chen Z K, et al. A survey on deep learning for big data[J]. Information Fusion, 2018, 42: 146–157.

[55] Le Cun Y, Boser B, Denker J S, et al. Handwritten digit recognition with a back-propagation network[J]. Advances in Neural Information Processing Systems, 1990: 396–404.

[56] Chen L Y, Li S B, Bai Q A, et al. Review of image classification algorithms based on convolutional neural networks[J]. Remote Sensing, 2021, 13(22): 4712.

[57] Sherstinsky A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D: Nonlinear Phenomena. 2020, 404: 132306.

[58] Li K L, Duan H R, Liu L F, et al. An integrated first principal and deep learning approach for modeling nitrous oxide emissions from wastewater treatment plants[J]. Environmental Science & Technology, 2022, 56(4): 2816–2826.

[59] Tang W Y, Li Z C, Cassar N. Machine learning estimates of global marine nitrogen fixation[J]. Journal of Geophysical Research: Biogeosciences, 2019, 124(3): 717–730.

[60] Pan B B, Lam S K, Wang E L, et al. New approach for predicting nitrification and its fraction of N2O emissions in global terrestrial ecosystems[J]. Environmental Research Letters, 2021, 16(3): 034053.

[61] Lu X C, Yuan D H, Chen Y A, et al. Estimations of long-term nss-SO42–and NO3–wet depositions over East Asia by use of ensemble machine-learning method[J]. Environmental Science & Technology, 2020, 54(18): 11118–11126.

[62] Xu X X, Liu S, Zeng M, et al. Deciphering response effect and underlying mechanism of anammox-based nitrogen removal process under exposures to different antibiotics via big data analysis[J]. Bioresource Technology, 2022, 347: 126674.

[63] Higdon S M, Huang B C, Bennett A B, et al. Identification of nitrogen fixation genes inisolated from maize using population genomics and machine learning[J]. Microorganisms, 2020, 8(12): 2043.

[64] Vu T V, Shi Z B, Cheng J, et al. Assessing the impact of clean air action on air quality trends in Beijing using a machine learning technique[J]. Atmospheric Chemistry and Physics, 2019, 19(17): 11303–11314.

[65] Papale D, Valentini R. A new assessment of European forests carbon exchanges by eddy fluxes and artificial neural network spatialization[J]. Global Change Biology, 2003, 9(4): 525–535.

[66] Cui L L, Wang S X. Mapping the daily nitrous acid (HONO) concentrations across China during 2006-2017 through ensemble machine-learning algorithm[J]. Science of the Total Environment, 2021, 785: 147325.

[67] Taki R, Wagner-Riddle C, Parkin G, et al. Comparison of two gap-filling techniques for nitrous oxide fluxes from agricultural soil[J]. Canadian Journal of Soil Science, 2019, 99(1): 12–24.

[68] Zdeborová L. Understanding deep learning is also a job for physicists[J]. Nature Physics, 2020, 16(6): 602–604.

[69] Toms B A, Barnes E A, Ebert-Uphoff I. Physically interpretable neural networks for the geosciences: Applications to earth system variability[J]. Journal of Advances in Modeling Earth Systems, 2020, 12(9): e2002M-e2019M.

[70] Ivatt P D, Evans M J. Improving the prediction of an atmospheric chemistry transport model using gradient- boosted regression trees[J]. Atmospheric Chemistry and Physics, 2020, 20(13): 8063–8082.

[71] Zhan Y, Luo Y Z, Deng X F, et al. Satellite-based estimates of daily NO2exposure in China using hybrid random forest and spatiotemporal kriging model[J]. Environmental Science & Technology, 2018, 52(7): 4180–4189.

[72] Ghahramani Z. Probabilistic machine learning and artificial intelligence[J]. Nature, 2015, 521(7553): 452–459.

[73] Irrgang C, Boers N, Sonnewald M, et al. Towards neural Earth system modelling by integrating artificial intelligence in Earth system science[J]. Nature Machine Intelligence, 2021, 3(8): 667–674.

[74] Patel A K, Ghosh J K, Pande S, et al. Deep-learning-based approach for estimation of fractional abundance of nitrogen in soil from hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 6495–6511.

[75] Barbedo J G A. Detection of nutrition deficiencies in plants using proximal images and machine learning: A review[J]. Computers and Electronics in Agriculture, 2019, 162: 482–492.

[76] Qin Z S, Myers D B, Ransom C J, et al. Application of machine learning methodologies for predicting corn economic optimal nitrogen rate[J]. Agronomy Journal, 2018, 110(6): 2596–2607.

[77] Jiang Z W, Yang S H, Chen X, et al. Controlled release urea improves rice production and reduces environmental pollution: A research based on meta-analysis and machine learning[J]. Environmental Science and Pollution Research International, 2022, 29(3): 3587–3599.

[78] Chlingaryan A, Sukkarieh S, Whelan B. Machine learning approaches for crop yield prediction and nitrogen status estimation in precision agriculture: A review[J]. Computers and Electronics in Agriculture, 2018, 151: 61–69.

[79] Yang Y, Shang X, Chen Z, et al. A support vector regression model to predict nitrate-nitrogen isotopic composition using hydro-chemical variables[J]. Journal of Environmental Management, 2021, 290: 112674.

[80] Wilhelm R C, van Es H M, Buckley D H. Predicting measures of soil health using the microbiome and supervised machine learning[J]. Soil Biology and Biochemistry, 2022, 164: 108472.

[81] Niu C, Tan K, Jia X P, et al. Deep learning based regression for optically inactive inland water quality parameter estimation using airborne hyperspectral imagery[J]. Environmental Pollution, 2021, 286: 117534.

[82] Farhi N, Kohen E, Mamane H, et al. Prediction of wastewater treatment quality using LSTM neural network[J]. Environmental Technology & Innovation, 2021, 23: 101632.

Machine Learning in Nitrogen Cycle Research: A review

GAO Zhiwei1,2,3, WU Dianming1,2,3,4*, CHEN Xi1,2,3, PAN Yuepeng4

(1 School of Geographical Sciences, East China Normal University, Key Laboratory of Geographic Information Sciences, Ministry of Education, Shanghai 200241, China; 2 Institute of Eco-Chongming (IEC), Shanghai 202162, China; 3 Key Laboratory of Spatial-temporal Big Data Analysis and Application of Natural Resources in Megacities, Ministry of Natural Resources, Shanghai 200241, China; 4 State Key Laboratory of Atmospheric Boundary Physics and Atmospheric Chemistry, Institute of Atmospheric Physics, Chinese Academy of Sciences, Beijing 100029, China)

Nitrogen cycle is a complex process of multi-media and multi-interface between water-soil-atmosphere-biology in the Earth's sphere, which is closely related to environmental problems such as soil health, food security, global warming, air pollution and water quality. With the rapid development of computer technology and the generation of massive and multi-source data in recent years, machine learning (ML) has rapidly become a powerful tool to study nitrogen cycle. This paper first introduces the functional concepts of ML, including typical development process and learning application scenarios. Then typical application algorithms of ML are summarized, including classical ML (such as random forest, support vector machine, etc.) and deep learning (such as convolutional neural network, long-term and short-term memory network, etc.). In addition, the application research progress of ML in the field of nitrogepn cycle research are reviewed, including nitrogen metabolism mechanism, simulating nitrogen cycle process and managing nitrogen flow in atmosphere, water, soil and plant/crop. In the future, the research of feature engineering and model fusion based on big data and ML technology will bring great changes to data analysis and modeling in the field of nitrogen cycle. Meanwhile, combine ML with process-based models to solve complex problems in the nitrogen cycle, which will provide important support for serving the national “double carbon” strategy and controlling global warming, air pollution and other environmental issues.

Machine learning (ML); Deep learning; Nitrogen cycle; Nitrification; Denitrification; Nitrous oxide

S154.1;TP181

A

10.13758/j.cnki.tr.2023.04.001

高志煒, 吳電明, 陳曦, 等. 機器學習在氮循環領域的應用研究進展. 土壤, 2023, 55(4): 689–698.

上海市2022年度科技創新行動計劃長三角科技創新共同體領域項目(22002400300),LAPC國家重點實驗室開放課題(LAPC-KF-2022-09)和中央引導地方科技發展資金項目(2021ZY0002)資助。

(dmwu@geo.ecnu.edu.cn)

高志煒(1999—),女,山東德州人,碩士研究生,主要從事城市環境氮循環研究。E-mail:51213901022@stu.ecnu.edu.cn

猜你喜歡
氮素機器算法
機器狗
機器狗
基于MapReduce的改進Eclat算法
Travellng thg World Full—time for Rree
進位加法的兩種算法
未來機器城
一種改進的整周模糊度去相關算法
楸樹無性系苗期氮素分配和氮素效率差異
基于光譜分析的玉米氮素營養診斷
氮素運籌對玉米干物質積累、氮素吸收分配及產量的影響
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合