周安發,金 群,王 韋
(1. 湖北省測繪成果檔案館,湖北·武漢 430072;2. 湖北省自然資源廳信息中心,湖北·武漢 430070;3. 湖北省地圖院,湖北·武漢 430072)
自然資源業務審批既要滿足各部門業務的關聯聯動,又要便捷易操作,信息化程度的高低直接關系到審批辦件的效率[1-2]。近幾年來,湖北省自然資源廳先后承擔了湖北省自然資源“一張圖”修改為“湖北省不動產登記信息管理基礎平臺”國土空間基礎信息平臺、自然資源政務云平臺等省級信息化工作,形成了較為完善的應用支撐體系,建立了涵蓋土地、地質、礦產、基礎測繪等數據庫,形成了自然資源“一張圖”,部分行政許可和審查事項實現了電子化申報和全流程網上辦理,并初步構建了國土資源綜合信息監管體系,實現了部分業務的動態監管[3-4],較好支撐了各類業務管理和監管決策工作。當前,對自然資源業務審查和審批的建設研究多以系統建設[5-7]和數據指標關聯研究為主[8-9],對審查和審批過程中涉及空間圖形自動分析結果提取及分析效率的研究較少。如何利用大數據、GIS空間分析、人工智能等技術,開展審批項目地塊屬性的關聯性和規律性研究,實現最優地理空間信息分析調度方法,對維護系統穩定和提高業務審批效率具有重要意義。因此,本文提出多場景下地理空間分析任務智能調度技術,以提高自然資源業務審批空間分析能力。
針對湖北省自然資源業務審批存在的地塊大小不均、圖層多樣、坐標點數目差異性大等特點,建立一種多場景條件下的復合式智能分析機制,解決單一空間分析方式存在的問題,減少業務空間審查平均分析時間,提高空間審查系統的分析效率??傮w技術流程如圖1。
圖1 總體技術流程Fig.1 Overall technical process
研究內容包括以下兩個方面:
(1)建立湖北省自然資源業務審批多場景分析樣本庫,針對多個審批項目分別進行頁面分析、地理處理服務、要素分析中間件三種分析模式下耗時計算,最后采用人工標注方式建立樣本庫,利用分層采樣方式建立訓練集和測試集。
(2)開展基于梯度增強決策樹算法的多場景地理空間分析任務分類技術研究,以CART TREE為弱分類器,通過多次迭代訓練,根據湖北省各類建設用地審批、礦業權審批項目特點,實現空間審查過程最優分析方法的自動調度過程。
地理空間分析方法包括頁面分析、地理處理服務分析和要素中間件分析三種方法,不同分析方法具有各自特點。頁面分析簡單快速,消耗系統資源少,對小型地塊分析迅速,排隊等待時間較少,但對復雜型超大地塊的分析時間過慢,分析效率降低;地理處理服務數據標準統一、覆蓋規則,但靈活性適應性較差,消耗資源大,當業務量大時,容易對整套系統產生阻塞效應;要素中間件分析對超大型超復雜型項目分析速度較快,缺點是系統啟動時間慢、響應時間慢。根據自然資源業務審批項目多地塊、多圖層、多界址點等不同分析應用場景特點,建立頁面分析、地理處理服務、要素分析中間件三種不同的空間分析服務,以審批效率和審批時長為優化目標,實現多場景境下空間分析模型的智能化匹配和調度。
頁面分析使用地理信息軟件提供的各種基礎的空間計算服務,通過組合后封裝為空間分析服務。頁面分析的優點在于體量較輕,可以部署在任何一臺服務器上,由于其使用的是基礎的空間計算服務,從軟件層面上更容易處理服務器的負載均衡,如可以對請求做排隊處理,或者多線程處理。其對簡單圖形處理的速度非???,消耗資源較少。適合處理簡單小型項目,少排隊等待時間。頁面分析原理如圖2。
圖2 頁面分析原理圖Fig.2 Web page analysis principle diagram
地理處理服務是采用地理信息軟件建立簡單的輔助分析處理模型,并發布成服務,如土地規劃分析模型,基本農田壓覆分析模型等。地理處理服務的優點是處理大型項目空間或者復雜型項目分析時較快,缺點是過于依賴地理信息軟件,并且分析規則組合單一,也比較消耗系統資源。當處理并發業務過多時必須依靠地理信息軟件服務器自身的負載均衡來減輕服務器的計算壓力,適合處理中型規模的項目。當自然資源業務繁忙時,很容易造成系統阻塞,而導致業務排隊積壓。地理處理分析示意如圖3。
圖3 地理處理分析示意圖Fig.3 Geoprocessing analysis of schematic diagram
要素中間件分析是使用中間件將固定的圖層和分析方案封裝成定制模型,提供完整的分析結果,分析的優點是對超大型超復雜型項目進行分析時速度較快,缺點是系統啟動時間較慢,對小型項目分析時間反而速度沒有前兩種方案快。另外要素分析中間件的消費系統資源比較大,對項目的并行處理不強,不能同時展開多個項目的分析,必須排隊處理,處理方式不靈活。要素分析中間件示意如圖4。
圖4 要素分析中間件Fig.4 Element Analysis Middleware
湖北省自然資源業務審批類項目多樣,包括小型建設項目,城市批次類建設項目,跨城域鐵路公路類建設項目,水利工程,風電項目等,各種項目的面積、地塊數及界址點數目相差很大,從幾百平方米到幾十平方公里,從一個地塊到數千個地塊,坐標點數從數個到數十萬個不等,不同審批項目其分析耗時和項目本身屬性有具備強相關性,因此,在進行空間分析任務智能調度研究之前,需針對不同空間分析方法建立多場景分析樣本庫,樣本庫采用日志文件自動抓取后,結合人工標注方式產生。
審批過程包括圖層加載、空間疊加分析計算、分析結果匯總(入庫)等,通過對審批過程中的日志文件進行分析,能夠獲得不同場景下的分析耗時分布圖。通過對審批日志的自動分析,共抽取9684個審批項目分別進行頁面分析、地理處理服務、要素分析中間件三種分析模式下耗時統計,結合人工標注結合方式建立樣本庫,利用分層采樣方式建立訓練集和測試集,其中訓練集樣本為6456個,測試集樣本為3228個。
圖5和表1為針對地塊、面積、坐標點數目、分析耗時等不同屬性條件下建立的分析樣本庫。
圖5 不同場景項目圖形Fig.5 Different scene project graphics
表1 項目信息及分析情況Table 1 Project information and analysis
在已生成的空間分析樣本庫基礎上,采用梯度提升決策樹方法,針對審批項目的地塊大小、地塊數目以及坐標點數目的屬性值,對樣本數據進行多次迭代計算形成決策樹,形成多環境下的針對頁面分析、地理處理服務分析和要素中間件三種不同分析模式下的審批項目智能化匹配調度機制。
梯度提升決策樹通過構建并結合多個機器學習器來完成任務[10-11],本文以CART樹為基本分類器,在基本分類器生成過程中,窮舉以地塊數、地塊大小和坐標數目為節點的閾值,得到以(大于和小于)該屬性值兩個分支的最大熵,并以此為依據得到新的節點,直至所有樣本被分配至唯一葉節點,完成本次一次基本決策樹的生成,然后將每次迭代計算過程得到弱分類器加權求和,得到一個以梯度方向損失函數減少為優化策略的強分類器,最終實現三分類決策樹的生成。梯度提升決策樹計算原理如圖6。
圖6 梯度提升決策樹計算原理圖Fig.6 Calculation principle diagram of gradient boosting decision tree
本文采用優化后的梯度提升學習算法—XGBoost,該算法是一個優化的分布式梯度提升算法庫,其特點是針對傳統的梯度增強算法,在并行計算、防止過擬合、提高學習率等方面進行了優化。XGBoost是對梯度提升算法的改進,求解損失函數極值時使用了牛頓法,將損失函數泰勒展開到二階,另外損失函數中加入了正則化項。訓練時的目標函數由兩部分構成,第一部分為梯度提升算法損失,第二部分為正則化項。損失函數定義為:
其中:n為訓練函數樣本數,K為樹的總個數,fk表示第K顆樹,l是對單個樣本的損失,假設它為凸函數,為模型對訓練樣本的預測值,為訓練樣本的真實標簽值。正則化項定義了模型的復雜程度:
其中:λ為設置的參數,ω為決策樹所有葉子節點值形成的向量,T為葉子節點數。
經1000次迭代計算后生成的決策樹結構如圖7。
圖7 多場景下地理空間分析任務智能調度決策樹Fig.7 Intelligent scheduling decision tree for geospatial analysis tasks in multiple scenarios
經過對生成決策樹模型進行評估,其查準率為87.4%,查全率為82.1%,表2為多場景下地理空間分析任務智能調度體系應用效果采樣匯總,圖8為在湖北省自然資源政務云平臺中“一張圖”訪問圖層統計與圖層調用耗時分析。
圖8 省市重點訪問圖層統計與圖層調用耗時分析Fig.8 Key access layer statistics and layer call time-consuming analysis of Provincial and municipal
經在湖北省自然資源政務云平臺中測試應用,取得如下應用效果:
(1)系統穩定性增強,計算效率顯著提升:目前整個平臺共有地圖服務1099層,其中各地市州地圖服務中現狀類服務和規劃類服務使用頻率最高,此兩類圖層分析服務平均每日使用達到610次,所有圖層分析使用平均每日達到1300多次,系統穩定性明顯增強,計算資源使用率得到顯著提升。
表2 空間智能分析結果采樣表Table 2 Sampling table of spatial intelligent analysis results
(2)空間分析速度得到極大提升:在自然資源行政審批的空間審查工作中,單個圖層的平均分析時長由原來的17.3秒縮短至3.5秒以下;針對面積、地塊數及界址點數目相差很大的各種項目,審批分析耗時由原來的幾十秒上百秒縮短至10秒左右,空間分析速度得到了極大的提升。
本文通過歸納業務審查和審批涉及的空間分析方法,探索采用集成學習技術對業務審批樣本數據進行監督學習,形成梯度增強決策樹模型,自動將業務根據復雜度進行分類,進而快速選擇相應的空間分析方法,并使用新生成樣本數據持續學習完善模型,提升業務審查和審批速度。
(1)針對湖北全省域自然資源特性多樣、項目地理特征復雜及利用不均衡等特點,結合審批日志自動抽取與人工標注方式,建立了集頁面分析、地理處理服務及要素分析中間件一體的湖北省地理空間信息分析樣本庫,含訓練樣本6456個、測試樣本3228個,為多地塊、多圖層、多界址點的地理空間要素精準適配分析與應用提供統計學依據。
(2)研究了基于梯度增強決策樹集成學習技術的地理空間信息分析任務分類方法,建立了梯度增強決策分類樹模型,通過對樣本訓練學習,實現了項目空間特征的自動分類識別與最佳分析方案的精準匹配,空間分析審查平均耗時大大縮短,計算資源利用率和業務審批效率提升顯著。