?

IPCLRC 約束的時序地表覆蓋數據不一致探測

2024-01-29 14:43呂嘉程陳斐仲尹文譚竟
地理信息世界 2023年4期
關鍵詞:置信區間時序準則

呂嘉程,陳斐,仲尹文,譚竟

東華理工大學 測繪與空間信息工程學院,南昌 330013

1 引 言

地表覆蓋是地球表面各種物質類型及其自然屬性與特征的綜合體(陳軍等,2011;段艷慧等,2023;梁錦濤等,2023)。對于研究全球變化、評價可持續發展及建立具有預測功能的模型來說,建立一個準確的、長時間序列的全球地表覆蓋數據具有重大的現實意義(張肖,2020;王梓璇等,2021;Wang 等,2022)。數據不一致是數據對象之間存在矛盾或沖突(簡燦良等,2013)。時序地表覆蓋數據在生產過程中,因原始影像、分類方法、分類人員等方面的差異,同一地區在不同時期地表覆蓋數據產品上存在屬性分類不合理的情況,稱為時序地表覆蓋數據分類屬性不一致性(Liu 等,2018;張敬怡,2023)。時序地表覆蓋數據不一致探測是要找到這些不合理從而進行產品修正、評價等以提高產品精度和應用范圍(簡燦良,2013;孫群等,2022)。提供高品質的時空信息,利于高水平的時空賦能(陳軍等,2023)。當前存在的許多地表覆蓋產品精度普遍較低,一致性和連續性也不盡如人意(Giri 等,2005)。為保證數據質量,土地覆蓋數據核對主要靠專家經驗判讀,費時費力,迫切需要自動快速的方法(Kang 等,2019)。

目前,地表覆蓋數據不一致性探測方法主要有四類。一是結合類方法?;谕負潢P系可信度的更新期錯分目標初判與多重約束后驗判斷結合的地表覆蓋不一致性探測體系,以GlobeLand30 中耕地為例得到探測總體有效性達88.2%(康順,2019);從變化圖斑中結合局部光譜特征證據、預期類別變化證據及D-S 證據設計證據決策分類規則提升產品一致性(衛玄燁,2020);耦合生態地理分區專家知識和馬爾可夫鏈來提高地表覆蓋分類產品精度,使GlobeLand30 數據精度提高10%以上(剌怡璇,2020)。此類方法主要以前一期數據為參考提升更新期或單期數據的一致性和精度,而沒有使用時間序列變化規則來提高時序數據的地類時序變化一致性。二是基于統計學的方法。根據數據集的分布特性選擇擬合的概率模型,然后根據模型的不一致性確定異常(Domański,2020);指出可基于掃描統計的算法,用于時序數據的異常探測(鄧敏等,2016);針對分類誤差和偏移,提出引入土地覆蓋轉移概率矩陣和空間因子的隱馬爾可夫模型,提高實驗區產品總體精度(2%~4%)和時空一致性(張敬怡,2023)。此類方法主要用統計原理發現異常,或使用轉移概率矩陣來計算分類概率,缺少邏輯規則的定性判定。三是邏輯規則法?;谏鷳B地理知識庫的方法識別不一致錯分(陳旭,2017);根據研究區的生態規律,引入土地覆蓋類型邏輯編碼,用改進的分層制圖策略使研究區的地表覆蓋不合邏輯的像素數量減少13%~35%(Yang 等,2016);針對GlobeLand30 三期數據之間及GlobeLand30 數據與其他數據間的不一致性,對不同類型的不一致現象分別建立推理規則集進行修正,使各期數據間類別不同像素比例下降4%左右(孟慶臻,2023)。此類知識規則能較好地發現與已知規則矛盾的數據,但不能判定未知的小概率錯誤變化。四是特征指數法?;谛螤钪笖档牡乇砀采w空間匹配不一致錯分圖斑過濾方法,在實驗區準確性達到98.2%(周治武和鞏垠熙,2021);針對地表受季節影響易變化區域,在融合的多時相遙感影像上選擇樣本提取特征進行隨機森林分類來降低數據的偽變化(孟慶臻,2023);利用光譜特征構建多時相光譜庫,對遙感影像進行地表覆蓋自動隨機森林分類(王穎潔和郭詩韻,2022);運用卷積神經網絡提取影像特征,提高遙感影像的地表覆蓋分類精度(朱宏等,2020)。此類方法根據地物特征確定地物類型能較準確地分類,但沒有考慮地物的變化規律和特征混淆問題。

綜上所述,目前的地表覆蓋數據不一致性研究多是針對單期或者更新期在空間方面的不一致性探測,在具有多期的時序地表覆蓋數據中進行時間連續性不一致探測的研究較少,因此,本文提出一種基于時序數據屬性變化關系的改進拉依達準則與地類時序轉換邏輯規則相結合的改進拉依達邏輯規則結合法(improved Pauta criterion logic rule combination method,IPCLRC),用于時序地表覆蓋數據不一致性探測。邏輯規則可以過濾出與常識矛盾的不一致目標,改進拉依達準則可篩選出地表覆蓋數據中可信度低的變化。

2 研究技術路線

在生產過程中,因原始影像、分類方法、分類人員等方面的差異,同一地區在不同時期地表覆蓋數據產品上存在屬性分類不合理的情況。如圖 1 中淺藍色線為輪廓的圖斑在三期數據中是水體變耕地再變回水體,而對照遙感影像可發現該圖斑并無變化,類似的情況在時序地表覆蓋數據中普遍存在,這嚴重影響數據的質量與使用,本文目的是找到這些地類屬性時序變化與現實情況不一致的錯分數據。

圖1 時序地表覆蓋數據不一致錯分示例Fig.1 Examples of inconsistent classification of temporal surface cover data

本文提出的IPCLRC,是為了探測到時序地表覆蓋數據屬性變化存在的邏輯不一致和由各種不明原因導致的隨機性錯分。為驗證可行性和合理性,以典型城市為研究區進行實驗,技術路線如圖 2 所示,主要包括四部分:①利用時序地表覆蓋數據統計各地類屬性時序變化頻數的特征,抽樣計算易推理的地物變化規律類型的錯分率;②根據拉依達準則和改進拉依達準則的置信區間提取約束規則,根據錯分率確定邏輯規則;③將改進拉依達準則提取的規則與提取的邏輯規則結合,形成IPCLRC 約束規則;④將IPCLRC 和其各相關組分的規則用于探測與分析。

圖2 不一致探測技術路線Fig.2 Inconsistent detection of technical route

3 研究方法

3.1 邏輯規則

全球生態地理分區由于其全球性、分區地類穩定性、地物變化規律性和信息量大等特點,可以用來構建知識庫輔助變化檢測(陳旭,2017)。邏輯規則法是根據時序屬性變化的特點,找出常見和罕見的地類變化類型作為規則進行不一致性探測,常見的為允許類型,罕見的為限制類型。時序地表覆蓋中,邏輯罕見的連續變化有A—B—A 型(某地塊屬性由A 變為B 后變回A)、A—B—C 型(某地塊屬性由A 變為B 后變為C)。另外,推理篩選易理解的地物變化規律,再通過抽樣驗證,并用判定為錯分的面積除以驗證總面積作為錯分率。從中發現非連續變化的水體變耕地、人造變水體、林地變耕地錯分率高,因此納入限制類型;耕地變人造、耕地變草地、林地變人造錯分率低,納入允許類型。本研究選用的邏輯規則定義,如表 1 所示。

表 1 邏輯規則表Tab.1 Logic rules table

3.2 改進拉依達準則

時序地表覆蓋變化復雜多樣,難以判斷哪種時序屬性關系是合法關系或非法關系。本文基于Gadish(2001)提出的置信區間統計法構建不一致性判斷規則,該方法可探測到邏輯常識之外未知的不一致性。通過時序地表覆蓋數據集的屬性變化關系發生頻數,設置置信區間獲取地表覆蓋目標時序屬性關系規則;計算每一種初始屬性下時序屬性變化關系發生頻數,形成升序圖(圖 3)。通過關系發生頻數的加權均值、標準差,依據拉依達準則kσ構建置信區間,本文k根據最大頻數占比所對應的正態分布概率表決定,σ為標準偏差。由某一屬性變化關系發生頻數與置信區間的集合代數判斷,構建基于屬性變化關系約束的不一致性判斷規則。拉依達準則是依據正態分布設立,以加權均值avg 為中心構建置信區間,而屬性變化關系發生頻數分布更像是正態分布的一半或對折,因此本文提出改進拉依達準則:以屬性變化關系發生頻數的最大值max 代替加權均值,在原來左右兩個方向上的延伸變為左邊方向上2 倍的kσ延伸。拉依達準則置信區間:

改進后變為

圖3 濕地時序屬性變化頻數升序圖Fig.3 Ascending order diagram of the wetland temporal attribute change frequency

3.3 IPCLRC

IPCLRC 結合邏輯規則和改進拉依達準則,是以邏輯規則為強規則,改進拉依達準則構建置信區間提取的規則為弱規則,當兩種規則發生沖突時,保留強規則,刪除弱規則。首先,如表 2 中在基于改進拉依達準則置信區間外的弱限制規則A、B 和C 上,添加強邏輯限制規則B 和D,得到限制規則A、B、C 和D;其次,去掉強邏輯允許規則A,得到IPCLRC 限制規則B、C 和D;最后,用IPCLRC規則進行探測。

表 2 結合法原理Tab.2 Principle of the binding method

4 實驗與分析

4.1 研究區域與數據源

合肥市是2000~2020 年我國GDP 增速最快的地級市(孫斌棟和鄭濤,2023)。雄安新區為國家級新區,隨著城市的擴張與發展,地表覆蓋變化劇烈,適合用于時序地表覆蓋數據不一致性驗證研究。研究數據為國家基礎地理信息中心研制的GlobeLand30 數據,該數據從2000 年開始,每隔10 年更新一期,因此,以2000 年的合肥市行政區劃為準,雄安新區以最早劃分的行政區劃為準。

所有數據在ArcMap 中以2010 年GlobeLand30數據為基準進行幾何校正、裁剪、鑲嵌。Landsat7 ETM SLC-on 產品在同年份中選擇時間錯開的多景進行真彩色合成,盡量消除季節和云層對地類判斷的影響。為了使地表覆蓋數據便于操作與統計時空屬性關系,基于像元將所有期GlobeLand30 數據的類別信息融合到一張地圖中得到時序地表覆蓋柵格圖:將原始GlobeLand30 數據中的10,20,…,90,100 重分類為1,2,…,9,0(1 耕地,2 林地,3 草地,4 灌木,5 濕地,6 水體,7 凍原,8人造覆蓋,9 裸地,0 永久冰雪),用柵格計算將單期代表類別信息的字段A(0,1,2,…)相加形成復合多期屬性的新字段ABC(如123,按位序代表對應期的屬性)。將時序地表覆蓋柵格圖轉換成面數據,便于在ArcMap 中篩選定位、抽樣驗證和統計。

4.2 驗證方法與評價指標

1)驗證方法

驗證方法以參照谷歌高清歷史影像為主,谷歌地圖可以較清晰地展現地表覆蓋情況(Tsai 等,2018)。以相同年份Landsat7 ETM SLC-on 真彩色合成影像和30 m 分辨率數字高程模型數據為輔的方式,在ArcMap 中對時序地表覆蓋數據圖斑進行目視判讀。將屬性信息與各時期的遙感影像進行比對:當驗證圖斑存在某一時期錯誤的面積超過該圖斑面積的一半時,判定為錯誤;否則為正確。

2)探測準確率計算

由于數據量大難以全部進行目視判斷,因此,本文在探測到的每一種的地類時序變化中,采用隨機抽樣的方式抽取10 個以上圖斑進行驗證,不足的以實際數量為準。準確率表示所有的預測樣本中,預測正確的比例,單個地類時序變化探測準確率為dpi,某種方法的探測準確率用P表示:

式中,S1為抽樣驗證結果是正確的圖斑面積,m2;S為抽樣驗證的圖斑面積,m2;ni為單個地類時序變化種類的柵格總數量;a為某種方法探測正確的柵格總數;A為某種方法探測的柵格總數。

3)探測率計算

探測率是探測到的不一致目標面積與所有不一致目標面積的比值,用來反應探測方法的探測能力,用Q表示:

式中,N為研究區地表覆蓋數據的柵格總數;F為研究區的錯分率;S2為單個樣本錯分面積,m2;S3為樣本總面積,m2。

4)精度提升率計算

精度提升率是探測方法探測到的不一致目標面積與探測范圍總面積的比值,用Ac 表示:

4.3 結果與分析

4.3.1 改進拉依達準則

為分析改進拉依達準則對地表覆蓋屬性數據擬合的合理性,分別用改進前、后的準則計算研究區地表覆蓋初始屬性下變化的置信區間,對比兩者差距。由表 3 可知,改進后的置信區間更合理,且包括的時序屬性變化種類更多,解決了原始置信區間覆蓋不到最大頻數的問題。

表 3 初始屬性的變化集置信區間Tab.3 Change-set confidence intervals for the initial attributes

4.3.2 準確率分析

在研究區分別用拉依達準則、改進拉依達準則、邏輯規則、IPCLRC 和兩種邏輯規則中的連續性規則進行探測,進行目視驗證后計算得到準確率。驗證情況如表 4 所示,其中,沒有驗證到的類型是因為其圖斑面積太小達不到驗證的最小面積。

表 4 探測驗證情況表Tab.4 Table of the probe validation

探測到的各變化類型統計,如圖 4 所示。IPCLRC 探測到的大部分變化類型準確率較高,其中,水體與耕地、耕地與林地占比較大。由探測結果(表 5)中準確率P可知,基于改進拉依達準則的探測準確率比改進前的有所提高;邏輯規則中的連續變化規則A—B—A 和A—B—C 型探測準確率高達99%,邏輯規則總體準確率最高,達到95%左右;IPCLRC 的準確率超過90%。

表 5 探測結果Tab.5 Detection results

圖4 IPCLRC 探測到的不一致性變化類型統計Fig.4 Statistics of inconsistent changes types detected by the IPCLRC

4.3.3 探測率分析

探測率反應探測正確的結果在研究區所需探測目標的占比情況。為計算探測率,首先,在研究區用五點法均勻布設采樣點,目視驗證樣本后抽樣計算研究區的錯分率,錯分率計算采樣點如圖 5 所示。然后,計算拉依達準則、改進拉依達準則、邏輯規則、IPCLRC 四種規則和兩種邏輯規則中連續性規則的探測率,如表5 所示。

由表 5 中探測率Q可知,在雄安新區拉依達準則和改進拉依達準則的探測率接近且較低,邏輯規則的較高,IPCLRC 的最高;在合肥市拉依達準則的探測率最高,IPCLRC 的和改進拉依達準則的次之,邏輯規則的最低。在雄安新區拉依達準則和改進拉依達準則的探測率接近,是因為其地類變化種類較合肥市少,且改進前、后置信區間覆蓋的地類變化也相似。在雄安新區拉依達類準則比邏輯規則的探測率低而在合肥市相反,是因為雄安新區主要變化類型中耕地與人造交界處易錯分的耕地變人造,和季節性洪旱導致易錯分的水體變耕地兩者頻數高,在拉依達類準則的置信區間內,這說明拉依達類準則易受主要時序地表覆蓋變化的類型和數量的影響。改進拉依達準則追求了更高的準確率而舍棄了部分準確率較低的時序變化類型,從而比改進前的探測率略低。綜合來說,IPCLRC 在兩地均有較高的探測率。四種規則探測結果舉例對比,如表 6 所示。

表 6 探測結果對比Tab.6 Comparison of detection results

圖5 錯分率計算采樣Fig.5 Sampling plots for misclassification

4.3.4 精度提升分析

將現有探測結果用于地表覆蓋數據的修正和改進,在已有抽樣驗證的基礎上計算對地表覆蓋數據精度的提升率,如表 5 中Ac 所示,對IPCLRC探測后的結果進行修正,可使雄安新區和合肥市的地表覆蓋數據精度分別提高2.8%、4.55%。IPCLRC的提升率差距主要體現在改進拉依達準則部分,雄安新區為1.79%,較合肥市的4.35%低。這主要是因為雄安新區的地表覆蓋類型較少,且主要為易因季節性洪澇而錯分為水體的耕地。

5 結 論

本文針對時序屬性關系,以GlobeLand30 時序數據集為例,選取雄安新區和合肥市為研究區,用IPCLRC 和相關規則(拉依達準則、改進拉依達準則、邏輯規則)進行了時序地表覆蓋數據不一致探測,并利用谷歌高清影像等參考數據對探測結果進行了隨機抽樣驗證。結果表明:①改進拉依達準則用于時序地表覆蓋屬性不一致探測,改進后置信區間更合理,準確率更高;②實驗證明邏輯規則準確率最高,其中,連續變化的A—B—C、A—B—A型兩種規則的準確率接近100%;③提出的IPCLRC兼顧邏輯的確定性和隨機誤差的未知性,具有較高準確率和探測率;④對IPCLRC 探測到的結果進行修正,可使雄安新區和合肥市的地表覆蓋數據精度分別提高2.8%、4.55%。本研究對自動快速提升時序地表覆蓋數據質量領域具有一定的參考價值。

針對更長時間序列和其他版本的時序地表覆蓋數據可推廣使用IPCLRC,在推廣時需要重新確定適合的置信度和適合當地生態規律的邏輯規則。隨著時序的增長,本方法的探測效果可能會逐漸變差,該問題可通過將長序列拆分的方式解決。另外,在今后還可以嘗試將本方法與其他方法(拓撲不一致探測、多源地表覆蓋數據互驗證等)組合來研究如何提高數據的一致性和精度。

猜你喜歡
置信區間時序準則
基于時序Sentinel-2數據的馬鈴薯遙感識別研究
定數截尾場合三參數pareto分布參數的最優置信區間
基于Sentinel-2時序NDVI的麥冬識別研究
p-范分布中參數的置信區間
多個偏正態總體共同位置參數的Bootstrap置信區間
具非線性中立項的二階延遲微分方程的Philos型準則
列車定位中置信區間的確定方法
一種毫米波放大器時序直流電源的設計
基于Canny振蕩抑制準則的改進匹配濾波器
一圖讀懂《中國共產黨廉潔自律準則》
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合