?

土地利用分類粒子群優化概率神經網絡半監督算法

2022-03-14 07:57王春陽湯子夢吳喜芳李長春張合兵
農業機械學報 2022年2期
關鍵詞:訓練樣本新鄉市土地利用

王春陽 湯子夢 吳喜芳 李長春 張合兵

(1.河南理工大學測繪與國土信息工程學院, 焦作 454003; 2.河南理工大學計算機科學與技術學院, 焦作 454003)

0 引言

土地資源是人們賴以生存和發展的基礎,隨著全球環境氣候不斷變化,溫室效應日益加劇,人類發展過程中對土地的利用以及引起的土地覆蓋變化被認為是全球環境變化的重要組成部分[1]。土地利用分類圖是研究土地變化的前提,為生態服務和制定土地政策提供了依據[2]。伴隨著計算機技術的發展,土地利用/覆蓋變化的研究方法日新月異,傳統分類方法成本高,工程量大,且效果不佳[3],機器學習如人工神經網絡[4]、支持向量機[5]、決策樹[6]等是通過學習來獲取經驗并改進自身性能的方法,受人為因素影響較小,分類精度較高,被廣泛應用在遙感影像的分類中[7]。

機器學習的發展可以追溯到1990年,WARREN等[8]首次提出了神經網絡結構模型,為機器學習的提出和發展奠定了基礎,隨后MITCHELL等[9]提出了機器學習的概念。運用機器學習算法對遙感影像進行分類,既提高了分類精度,又節約了成本,因此成為學者們研究的熱點[10-13]。在許多數據挖掘和機器學習的任務中,存在大量未標記的樣本和有限的標記樣本[14],馬永建等[15]將植被指數NDVI值和紋理特征灰度共生矩陣能量值作為特征波段,基于U-Net模型實現了對GF-1號遙感影像荒漠地區耕地的提取,相比于傳統方法,分類精度得到了提高;王笑影等[16]基于R語言和隨機森林對Landsat 8 OLI影像進行土地覆蓋的監督分類研究,該方法簡單實用但僅用于中小區域土地的快速分類的情景;陳磊士等[17]以Landsat 8和Sentinel-1A融合后的數據為實驗數據,分別采用卷積神經網絡和BP神經網絡算法分類,結果發現卷積神經網絡具有較好的分類結果;趙亞杰等[18]運用隨機森林算法對Sentinel-2和Landsat影像進行土地利用分類,實現了對地物的精細提??;陳義菁等[19]運用支持向量機算法實現了對Landsat影像的分類,對探究影響土地利用分類的變化提供了依據。大多數學者提出的機器學習算法雖然有較好的分類精度,但樣本需求量大、成本高,受人為因素影響干擾較大。半監督學習具有僅使用少量標記樣本就可以達到分類效果的特點,成為近年來研究的熱點話題。半監督機器學習算法適用于小樣本類型,它是同時使用標記和未標記的樣本來擬合模型。在某些情況下,添加未標記的數據可能使模型的準確性提高,在其他情況下可能會使準確率降低[20]。

為了最大化有限使用在半監督機器學習算法中可用的監督數據,本文提出基于粒子群算法優化的半監督概率神經網絡框架,將其運用在中分辨率的Landsat影像中,獲得新鄉市土地利用分類圖。以新鄉市1996年、2004年、2013年、2020年4期遙感影像為例,解譯出不同時期的土地利用動態,通過監測近14年內的土地利用/覆蓋變化,分析新鄉市1996—2020年的土地利用轉移矩陣,為新鄉市人地關系研究和土地資源管理提供參考[21],以期實現新鄉市各種土地利用資源與經濟增長、社會穩定、生態和諧共同發展。

1 研究方法和數據來源

1.1 研究區概況

新鄉市地理位置示意圖如圖1所示,新鄉市位于河南省的北部,地處北緯34°53′~35°50′,東經113°23′~114°59′,南臨黃河,與鄭州市、開封市隔河相望;北依太行山,與鶴壁市、安陽市毗鄰;西連焦作市,與晉東南接壤;東接濮陽市,與魯西相連,是國家重要的綜合交通樞紐,也是豫北的經濟、交通、教育、商貿物流中心;年平均氣溫14℃[22],7月最熱,平均氣溫27.3℃;1月最冷,平均氣溫0.2℃,年平均降水量656.3 mm,6—9月降水量最大,且多暴雨。新鄉市自然條件和土地耕作條件好,是中國糧棉生產區、國家優質小麥生產基地和河南省畜牧生產加工基地,是農業大市[23]。截至2020年11月,新鄉市的常住人口625.29萬人,全市的農林牧業產值、糧食產量、居民消費水平大幅度提高。

圖1 新鄉市地理位置示意圖Fig.1 Geographical location map of Xinxiang City

1.2 數據來源與預處理

根據新鄉市的地理位置特點及獲取遙感影像需滿足的實驗需求,本研究所使用的4期影像數據均來源于美國地質調查局(USGS)網站(https:∥earthexplorer.usgs.gov/),由于受到Landsat數據影像品質的影響,無法下載到同一個月份的影像。為了保證實驗結果的可靠性,選取了時間上相對較接近的影像數據(6、7、8月)。選取1996年、2004年、2013年、2020年的6月或7月或8月的影像,所選的影像云量均在5%以下,該時期的影像品質較高便于土地利用/覆蓋變化的研究。新鄉市面積較大,覆蓋研究區需要由行列號為123-36、124-35、124-36的3景影像拼接而成,空間分辨率為30 m,本次研究使用的數據分別為:1996年7月獲取的Landsat TM數據,2004年6月獲取的Landsat TM數據,2013年7月獲取的Landsat OLI數據和2020年8月獲取的Landsat OLI數據。

首先結合《全國遙感監測覆蓋分類體系》建立的參考框架,綜合考慮新鄉市土地利用類型的特點,將研究區土地利用/覆蓋類型確定為耕地、林地、水體、建設用地、草地、其他用地6類[24],遙感影像的解譯如表1所示。具體的實驗步驟為:首先使用ENVI 5.3軟件對遙感影像進行輻射定標、大氣校正、裁剪、拼接等預處理工作[25],使遙感影像的圖像更加清晰、更加突出物體的標識;其次基于預處理后的遙感影像使用ENVI 5.3軟件進行6類樣本點的選取,將樣本點和原始影像均轉換為算法所需的.mat格式;然后基于Matlab 2019a平臺運用粒子群優化概率神經網絡的半監督算法、概率神經網絡半監督算法進行分類,進行對比的隨機森林法和最大似然法,則采用ENVI 5.3軟件完成分類,并用ArcGIS軟件制作新鄉市的土地利用分類圖;最后對新鄉市1996—2020年土地利用的時空變化進行分析。實驗流程如圖2所示。

表1 新鄉市土地利用分類及遙感解譯特征Tab.1 Land use classification and remote sensing interpretation signs in Xinxiang City

圖2 實驗流程圖Fig.2 Experimental flow chart

2 實驗方法

針對遙感影像分類中需要大量標記樣本和分類精度較低的問題,提出了一種以半監督為主體,將粒子群優化與概率神經網絡框架相融合的一種分類算法。首先,利用粒子群優化算法生成最優參數;其次,利用上述最優參數的概率神經網絡分類器,根據標注的訓練樣本計算每個像素的類別概率,預測每個像素的類別;然后利用香農熵篩選高置信度的無標記樣本,并將其添加到原始訓練集中進行新一輪的預測,自我訓練使用模型自己對未標記數據的預測結果,將其添加到已標記的數據集中,選擇置信度高的預測樣本將其添加到已標記的數據集中,不斷地重新訓練這個模型,直到沒有更多可信的預測結果為止。這種算法可以滿足訓練樣本較少的情況,將大量無標記的樣本轉換為有標記的樣本,同時使用標記樣本和未標記樣本數據來擬合出能夠真實反映類別信息的分類器,分類成本較低,分類精度不斷提高。本研究首先選取樣本總數的5%作為訓練樣本加入到訓練樣本集中,依次增加樣本數的10%進行迭代,算法流程如圖3所示。

圖3 實驗算法流程圖Fig.3 Flow chart of experimental algorithm

2.1 粒子群優化的概率神經網絡

2.1.1概率神經網絡分類器

概率神經網絡(Probabilistic neural network, PNN)是SPECHT[26]在1988年提出的一種神經網絡模型。這種模型是以指數替代神經網絡常用的S型激活函數,進而構造出能夠計算非線性判別邊界的概率神經網絡,該判定界面接近于貝葉斯的最佳判定面。概率神經網絡主要用于分類和識別領域,其中在分類方面應用最廣泛,這種網絡模型已經被廣泛應用在非線性濾波、模式分類、聯想記憶和概率密度估計中[27]。這種模型分類錯誤率較低,風險比較小,但將其應用到Landsat遙感影像方面的研究較少。本研究將概率神經網絡模型應用在遙感影像中,并對遙感影像數據中的地物信息進行分類,運用粒子群優化算法選取最優分類參數,使分類精度達到理想的結果。

概率神經網絡的結構模型大致分為輸入層、樣本層、求和層和競爭層。在輸入層中,網絡計算輸入向量與所有訓練樣本向量之間的距離;樣本層里神經元的數量是訓練樣本的數量;求和層是將樣本層的輸出按類相加,相當于n個加法器;競爭層的神經元數量為1,最后的結果也是由競爭層輸出,輸出的結果只有1個1,其他的結果都是0。

2.1.2粒子群優化算法

粒子群優化算法具有快捷、收斂速度較快等優勢[28],但作為一種仿生算法,粒子群優化算法數學理論基礎尚不完善,因而需要在理論基礎上進一步研究和討論。

在粒子群算法中,每一個粒子群代表一個可能的解,整個種群通過競爭和協作實現多維空間中對最優解的探索[29]。在D維空間中,每個粒子被視作一個解,由當前位置X=(xi1,xi2,…,xiD)和當前速度Vi=(vi1,vi2,…,viD)組成,對于全局粒子群算法,粒子群Xi依據其歷史最優值Pi=(pi1,pi2,…,piD)和全局最優值Pg=(pg1,pg2,…,pgD)迭代更新。每個粒子更新位置和速度可以表示為

(1)

(2)

式中t——當前進化的次數

c1、c2——正加速度常數

r1、r2——[0,1]之間的隨機數

ω——慣性權重

2.1.3粒子群優化概率神經網絡過程

概率神經網絡的相關結構和對應神經元的數目由訓練樣本數據的數量和類別確定,網絡模型的性能取決于網絡的參數,而粒子群算法計算簡單、收斂速度快,通過迭代獲得最優解,可有效選取概率神經網絡的最優參數。首先隨機初始化粒子的位置和速度,構建網絡,通過適應度函數f(xi)計算各個粒子的適應度,從而選取出個體的局部最優位置和全局最優位置,然后進行迭代,將得出的每個粒子的適應度與局部最佳位置的適應度相比,若當前適應度更大,則用當前粒子的位置作為全局最佳位置,不斷進行迭代,更新個體的極值和群體極值。若滿足條件則迭代終止,輸出最優解;若未滿足條件,則不斷重復上述步驟直到滿足條件為止。本文使用粒子群優化算法對概率神經網絡的spread參數進行優化,利用粒子群的粒子間協同合作與知識共享對spread速度和位置進行準確定位,找到最佳的輸入值,有效提高了概率神經網絡分類模型的性能,從而最終能夠得到最佳的土地分類結果,流程如圖4所示。

圖4 粒子群優化概率神經網絡流程圖Fig.4 Flow chart of probabilistic neural network for particle swarm optimization

2.2 自訓練半監督機器學習算法

YAROSKY首先提出了自訓練半監督算法[30],該算法是先用有標記的樣本去訓練一個分類器,本文所采用的分類器是概率神經網絡,然后利用分類器對無標記的樣本進行概率預測,根據獲得的置信度,選擇一些高置信度且無標記的樣本加入到原始訓練集中作為新的訓練樣本集,重復這個過程直到完成給定的迭代次數。本文算法在多次迭代的分類精度中選擇了一個最大精度,避免迭代次數過多出現過度擬合現象。若有原始已標記樣本集L={(x1,y1),(x2,y2),…,(xm,ym)},無標記樣本集U={(xm+1),(xm+2),…,(xn)},迭代的次數為K,算法流程為:

(1)利用已標記樣本集L訓練得到模型p。

(2)利用分類器p對無標記樣本集U進行標記,選擇置信度較高的m個樣本,記作L′,并將其從無標記樣本中刪除。

(3)利用L∪L′對選擇的分類器進行反復訓練。

(4)重復步驟(2)和步驟(3),直到迭代條件滿足時為止。

3 實驗結果分析

3.1 分類算法結果分析

選取新鄉市1996年、2004年、2013年和2020年的Landsat影像作為實驗數據,運用粒子群優化概率神經網絡的半監督算法分類時,選取5%的訓練樣本,迭代3次每次增加總樣本的10%擴充訓練樣本集,最后訓練樣本集總數為總樣本的35%,剩下的用來檢驗分類精度。新鄉市各年份各類別輸入的樣本總數和訓練樣本總數如表2~5所示。獲得各年份的土地利用分類圖,分類總體精度達到97%,Kappa系數均達到0.8。為了對比算法的分類精度,與隨機森林、最大似然法和概率神經網絡半監督算法進行了對比實驗,各算法的分類結果如圖5所示。

表2 新鄉市1996年總樣本、訓練樣本和驗證樣本數Tab.2 Total samples, training samples and verified samples in Xinxiang City in 1996

表3 新鄉市2004年總樣本、訓練樣本和驗證樣本數Tab.3 Total samples, training samples and verified samples in Xinxiang City in 2004

由圖5可知,隨機森林法和最大似然法在進行林地與其他用地的分類時,錯分、漏分現象較為嚴重,較為明顯的地方在圖中已用紅色區域圈出,概率神經網絡算法分類效果較其他2種算法好。在較難區分的林地和草地中,本文算法可將2種地物區分出來,而隨機森林法和最大似然法將2種地物歸為1種地物來劃分,概率神經網絡算法將1996年的部分林地劃分為草地,如圖5b所示,最大似然法也未能將2020年林地準確區分出來,如圖5o所示;在進行水體分類時,最大似然法和概率神經網絡算法未能將2004年的水體準確區分出來,如圖5f、5g所示;對于耕地和建筑物分類效果不能滿足要求;對其他用地進行分類時,2013年分類錯分最為明顯,如圖5k、5l所示,2種算法將新鄉市西北部的區域幾乎都認為是其他用地,分類效果較差。在精度評定方面本文選取總體精度和Kappa系數2個評價指標,從表6可以看出,和其他3種算法相比,本研究提出的半監督算法精度提高了1.25~6.57個百分點,Kappa系數也達到0.8以上,有效提高了分類總體精度,彌補了其他算法錯分漏分的情況。

表4 新鄉市2013年總樣本、訓練樣本和驗證樣本數Tab.4 Total samples, training samples and verified samples in Xinxiang City in 2013

表5 新鄉市2020年總樣本、訓練樣本和驗證樣本數Tab.5 Total samples, training samples and verified samples in Xinxiang City in 2020

除此之外,本研究提出的算法因融合了半監督,所以適應訓練樣本少的情況,為了使實驗結果對比更清晰,選擇了一個小區域進行對比實驗,各年份所選的區域如圖6所示。分別選取了樣本數的5%、10%,每次迭代過程中都會新加入5%的訓練樣本到測試集中作為訓練樣本集,在對比分析不同樣本數的分類精度時發現,當選取訓練樣本數為總數的5%時,1996年、2004年、2013年、2020年分類精度依次為95.15%、95.93%、98.13%、95.57%;當選取樣本數為10%時,分類精度依次為94.08%、95.45%、97.62%、95.97%。2種樣本數量的分類精度均保持在理想狀態,對比可以發現當選取的樣本數量為5%時,各地物分類的精度也很高,和樣本數量為10%在分類效果和分類精度上幾乎沒有差別,在較難區分的草地和林地,分類效果也較好,因此當訓練樣本較少時,本研究提出的算法仍然滿足精度要求,各年份的土地利用分類如圖7所示。

表6 新鄉市土地利用/覆蓋變化總體精度評價Tab.6 Overall accuracy evaluation of land use/coverage change in Xinxiang City

圖6 各年份研究區位置圖Fig.6 Location map of study area for each year

圖7 不同樣本數的土地利用分類圖Fig.7 Land use classification maps for different sample numbers

3.2 土地利用變化時空特征

3.2.1土地利用時間變化特征

利用本文方法獲得新鄉市4年的土地利用分類圖,然后利用ArcGIS平臺的空間分析和統計功能,根據土地利用分類圖,獲得每一類的土地利用面積,分析土地利用變化的原因。新鄉市各土地利用類型面積如表7所示。

從表7可以看出,在1996—2020年期間,耕地面積總體呈增加趨勢,從1996年的4 377.86 km2增加到4 810.95 km2,增加了9.9%;建設用地面積從1996年到2020年增加了近38%;其他用地的面積相對減少,由1996年的729.40 km2減少到354.16 km2,面積減少了52%;草地面積由1996年的974.30 km2減少到465.21 km2,減少了52%;水體的面積幾乎沒有大的波動。由此看出,近14年來由于新鄉市經濟飛速發展,社會基礎設施的不斷增加、生活水平的不斷改善、人口的不斷增多導致對住房和工業的需求增多,從而導致建筑面積的不斷擴張,其他用地面積不斷減少。除此之外,由于人口數量的急劇增加,導致對糧食新的需求不斷增加,耕地面積不斷增加,草地面積急劇減少。

表7 新鄉市各年份土地利用類型面積Tab.7 Area statistics of various land use types in Xinxiang City km2

土地利用轉移矩陣是定量研究土地利用類型間相互轉換的數量和方向的主要方法,它能夠具體反映土地利用變化的結構特征和各類型間的轉移方向。以新鄉市1996年和2020年的土地利用數據為基礎,利用ArcGIS軟件進行疊加分析,獲得土地利用轉移數據,并利用Excel制作轉移矩陣,如表8所示。結果表明,新鄉市土地利用的主要變化趨勢為耕地和建設用地面積在增加,其中耕地轉換為建設用地的面積最大。具體的流向為:草地主要流轉為耕地和建設用地;耕地主要流轉為建設用地和其他用地;建設用地主要流轉為耕地;林地主要流轉為草地;水體部分被開發為建設用地,部分作為耕地;其他用地轉換為耕地、草地和建設用地。

表8 1996—2020年新鄉市土地利用轉移矩陣Tab.8 Land use transfer matrix of Xinxiang City from 1996 to 2020 km2

3.2.2土地利用空間變化特征

由于耕地和建設用地是新鄉市主要的2種土地利用類型,所以選取這2種土地利用類型來分析新鄉市土地利用空間變化特征。1996—2020年間,新鄉市土地利用變化總體上表現為耕地的增加和建設用地的擴張。新鄉市1996—2020年建設用地和耕地空間分布如圖8所示。

耕地是新鄉市占比較大的土地利用類型,主要分布在地勢比較平坦的東西部地區和南部的臨黃河地區,西北部輝縣山地較多、中部地區人口較多建筑用地分布較為密集,因此這2個區域耕地面積較少??傮w來看,1996—2020年新鄉市耕地面積總體呈增加趨勢,增加了433.21 km2。從不同時期來看,1996—2004年耕地面積減少,如新鄉市東南部地區長垣市。2004—2020年耕地面積有所增加,因為2005年新鄉市進行了行政區劃的調整,對農田實施了保護措施,耕地面積減少的趨勢得到了改善。此外,國土資源部頒布的《國土資源部辦公廳關于印發市縣鄉及土地利用總體規劃編制指導意見的通知》和河南省頒布的《批轉省國土資源廳關于做好土地利用總體規劃修編工作指導意見的通知》這些政策,推進新鄉市進行復墾和開發,這也是新鄉市耕地面積不斷增加的原因之一。

新鄉市的建設用地主要集中在中心市區新鄉縣,并不斷向外擴張。輝縣市西北部緊鄰太行山脈,山地丘陵面積較多,因此建設用地分布較少但卻是林地的主要分布區域;新鄉市南部的延津縣和封丘縣的建設用地變化不太明顯;新鄉市東南部的長垣市是重要的工業區,近年來建設用地面積也在不斷增加。此外,新鄉市是河南省中原地區的重要工業基地,工業生產總值較高,工業廠房的建設也在不斷加快,進而導致建設用地增加。此外,人口的增長、城市化進程的加快、城市擴張均成為新鄉市建設用地面積不斷增加的原因。

4 結論

(1)提出了一種基于粒子群優化概率神經網絡的半監督融合算法,該算法使用粒子群優化概率神經網絡分類器,使得分類器的性能更加優越,還融合了半監督適合小樣本的優勢。該算法在分類時可以使用少量的標記樣本,解決了傳統分類方法對標記樣本數量要求高、分類精度低、成本高、錯分漏分嚴重的問題,相比于其他3種傳統算法,分類精度提高了1.25~6.57個百分點。由此得出,本研究提出的機器學習算法應用在Landsat影像的復雜地形區土地利用/土地覆蓋分類中有速度快、準確率高、外界因素影響較小等優勢,表現出了較強的適應性,運用機器學習算法獲得土地利用/覆蓋信息,并制定合理的政策成為未來研究的熱點。

(2)對新鄉市近年來土地利用現狀進行分析,有利于解決新鄉市目前存在的土地問題并為未來的土地利用決策提供依據。新鄉市1996—2020年間耕地面積和建設用地面積分別增加了433.21 km2和537.11 km2;其他用地面積和草地面積均呈現出減少的趨勢,水體面積變化小,14年間僅減少了3.45 km2;在土地流轉方面,草地流轉為耕地和建設用地的面積最大,變化最明顯,水體的轉換情況不是很突出,其他用地多轉為草地和建設用地,耕地多轉為建設用地。1996—2020年新鄉市土地利用變化主要受到城市化水平的提高,經濟的增長以及國家的方針和地方的政策等多方面的共同影響。研究揭示了新鄉市的近14年的土地利用變化特征,為該地區進一步合理開發和利用土地提供理論依據。

猜你喜歡
訓練樣本新鄉市土地利用
城市土地利用變化模型研究進展與展望*
五臺縣土地利用變化研究
基于“風險—效應”的土地利用空間沖突識別與測度
土地利用變化與大氣污染物的相關性研究
新鄉市關工委慰問 鳳泉區優秀基層“五老”代表
書法(大篆)
人工智能
新鄉市知識產權局行政訴訟案再審勝訴
新鄉市醫療糾紛人民調解委員會成立
基于小波神經網絡的網絡流量預測研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合