?

基于自然語言處理和機器學習的產業用地性質的識別

2024-03-17 14:50史晟愷
科技資訊 2024年2期
關鍵詞:自然語言處理機器學習圖斑

史晟愷

摘?要:在產業用地信息梳理的過程中,首先需要確定地塊的底數,其中圖斑所在土地的用地性質是關鍵信息。由于一些早期的紙質信息對相關信息的關鍵字缺少明確標識,所以只能浪費很多人力和時間去閱讀這些紙質內容或者掃描文件中的數據,最后進行人工判斷、總結?,F基于自然語言處理和機器學習,通過引入重要詞權重構建改進型樸素貝葉斯模型,對需要的土地信息進行識別,并和實際正確的信息比較。結果表明:通過機器學習對字典的構建后,運用自然語言處理技術對產業用地關鍵信息識別的準確度和效率有較大提升。

關鍵詞:圖斑?用地性質?自然語言處理?機器學習

中圖分類號:?TP391.1

Identification?of?Industrial?Land?Usage?Based?on?Natural?Language?Processing?and?Machine?Learning

SHI?Shengkai

(Shanghai?Surveying?and?Mapping?Institute,?Shanghai,?200063?China)

Abstract:In?the?process?of?combing?industrial?land?information,?it?is?first?necessary?to?determine?the?base?number?of?land?plots,?among?which?the?land?usage?of?the?land?where?patter?spots?are?located?is?key?information.?Due?to?the?lack?of?the?clear?identification?of?the?keywords?of?relevant?information?in?some?early?paper?information,?a?lot?of?manpower?and?time?are?only?wasted?to?read?these?paper?contents?or?scan?the?data?in?documents,?and?finally?manual?judgments?and?summaries?are?made.?Now,?based?on?natural?language?processing?and?machine?learning,?an?improved?naive?Bayes?model?is?constructed?by?introducing?important?word?weights?to?identify?the?required?land?information?and?compare?it?with?actual?correct?information.?The?results?show?that?after?constructing?the?dictionary?through?machine?learning,?the?use?of?natural?language?processing?technology?greatly?improves?the?accuracy?and?efficiency?of?the?key?information?recognition?of?industrial?land.

Key?Words:Pattern?spot;?Land?usage;?Natural?language?processing;?Machine?learning

1.?引言

1.1?研究背景

隨著智慧城市理念的發展,以數字化形式運營城市是未來的趨勢。為推進產業用地的高質量利用,保障產業高質量發展,提高土地利用經濟密度和產出效益,需要對土地的現有情況進行梳理,并摸清數據。這些工作需要進行文檔數據的整理歸納和現場實地踏勘。在調查過程中,對于歷史久遠的土地批文信息的識別有一定的困難,而最大的問題就是缺少明確的標識,導致人工識別精準性不高、效率低下。

近年,大數據在城市運營領域和土地規劃管理方面的應用與研究越來越多??紤]到不同數據之間的保密性以及存儲邏輯不同,數據共享難度以及直接使用會比較難等一系列問題,這里往往需要人工對一些紙質數據進行重新錄入[1],最后根據項目需要再加工處理。人工環節越多,效率和出錯率就會提高。為避免這些問題,需要盡可能讓機器按照邏輯完成。

1.2?研究目的與方法

自然語言是指讓計算機代替人類進行自動化的語言文字的相關處理,具有自動閱讀和自動寫作兩種功能。同時也具有自動化的審批、核對糾錯、搜索、推薦、比對、分析、評判等功能,對人工密集的閱讀效率提升很有幫助[2]。

針對產業用地調查過程中的非結構化數據,可以通過使用自然語言處理的方法,自動提取文字并識別土地的批準用地性質。針對使用權出讓合同、不動產登記系統以及政府會議紀要等非結構化文本數據,利用樸素貝葉斯算法[3],識別實際土地的使用情況,幫助政府了解未來土地管理工作的基礎信息。該研究利用上海市某區本土的命名方式和文字表述構建字典,目前僅能識別該地區的土地性質。

2.?準備工作

2.1?硬件設備準備

機器學習對于電腦的配置要求較高,而用于圖片識別的光學字符識別(OCR)軟件也對機器有一定的要求,但是調查產業用地項目的圖片和文字材料邏輯簡單、圖片清晰,可以適當降低硬件配置也能滿足要求。本文在研究中所用的電腦配置為:英特爾i7處理器、32GB內存、NVIDIA?GTX1070獨立顯卡、512GB固態硬盤,機載系統為WIN10專業版。

2.2?基礎數據準備

利用自然語言對文本進行文字或者語意理解都需要有關鍵字標注,所選的關鍵詞越多就越有代表性,最后的展示結果也會越正確[4],而關鍵詞是取決于我們所準備的基礎數據的特性和分類方式的?;A數據的特性和分類方式如下。

(1)土地出讓合同、農轉用批文、不動產權證等涉及批準信息的材料電子版,均為JPG或者PDF格式,主要包括數碼照片和電子掃描件兩種。

(2)用地性質分類數據:用地性質小項以及其對應大項名稱整合。比如商鋪、門面房等均屬于商業,交通用地、停車場均屬于公共設施用地。

3.?作業流程

3.1?數據預處理

數據預處理包括:剔除標點符號、英文字母和數字等內容。

3.2?字典構建

根據用地性質對應的行業,由日常經驗結合現有的基礎數據信息,從高到低初步排列出有語義詞匯組成的熱詞,并添加進語義字典,建立初始字典[5]?;咀值錁嬙烊绫?所示。

這部分工作內容較為復雜且按照經驗判斷容易出錯,初始字典的好壞雖然不容易影響結果,但是對機器學習的效率會有很大的影響。

3.3?特征工程處理

首先,利用OCR提取房產證、出讓合同、交易合同以及其他文件上的文字信息。其次,采用隱馬爾可夫模型、維特比(Viterbi)算法和Jieba分詞引擎進行中文分詞;采用詞頻—逆文本頻率算法統計各個批準文件樣本中在字典內和不在字典內的詞匯出現頻率;再次進行人工篩查,剔除出現頻率高但是對土地性質無幫助的詞匯,并將其增補進無語義字典,同時根據構建字典的原則,將剩余的詞匯作為特征詞按序組成新的字典。最后,采用詞頻—逆文本頻率算法重新統計各個批準文件里特征詞的出現頻率[6]。

特征詞正向詞頻如下:

式(1)中:為第i個特征詞在第j個土地性質名稱中的詞頻;為第i個特征詞在第j個土地性質名稱里的出現次數;k為第j個土地性質名稱有k個特征詞。

特征詞逆向文本頻率計算如下:

式(2)中:D為土地所有用地性質總和;為土地第j個用地性質;為包含第i個特征詞的土地性質的總和[7]。

3.4?模型訓練

首先從PDF或者JPG等文件中提取文件里出現的高頻詞和動名詞信息,通過人工標注擴展模型,再使用機器學習去不斷訓練模型,從而對文件中所示內容進行判斷,即判斷該文件對應的土地屬于什么性質。最后通過人工判讀,確定經過機器學習后得出的結論正確與否[8]。

土地性質有實際使用性質和房產證規定的使用性質,產業用地調查的對象主要是工業用地或者歷史上出現過工業性質的土地,所以如果批準用途為非工業的其他用途,則不在本次調查項目的范圍內。對于那些批準用途是工業,但是實際并未滿足一定效用的工業生產的企業,則會在系統上用紅色字體標注。而這部分內容在中臺數據中,是通過企業經營許可證等工商注冊信息和它的房產證或者出讓合同的性質做對比得出的結論。實際上,后期還需要去現場核實,但是這不在材料判讀里。

3.5?數據分析

土地性質識別的總體準確率A計算如下:

式(3)中:n?為所有樣本個數;?為識別正確的樣本個數。

某個土地性質識別的召回率計算如下:

式(4)中:?為識別正確的第i類性質土地樣本的個數;?為實際第i個性質的土地中所有樣本個數。

某個土地性質識別的精確率計算如下:

式(5)中:為識別正確的第i類性質土地樣本的個數;?為識別成第i類性質土地的樣本個數。

土地性質識別的值計算如下:

4.?實驗結果

4.1?樣本整體預測情況

由于樣本邏輯較為簡單,測試樣本645個,經過對比預測完全正確的樣本是589個(實際是590,有一個是相關紙質數據自身出現錯別字導致丟失),整體準確率為91%。樣本多為電子圖片格式(如圖1所示),既沒有紙質文件那種符合閱讀的方式,也沒有電子文檔便于編輯,所以需要人工仔細整理。由于沒有設置“無法判斷”這個選項,所以導致機器判讀會根據有限的數據強行找出字典里匹配最接近的土地性質,從而使準確率低于實際的人工判讀。如果把人工判讀的無法判斷不計算為正確的話,機器判讀的準確率和人工判讀接近,但是從時間方面看,一臺機器一個下午完成了三個人一天的工作量,在保證準確率的前提下,大大縮短了翻閱資料的時間。

4.2?分類樣本預測情況

通過對涉及批準信息的材料和字典比對,得出最終可能的預測結果,再和真實值進行比較,得到各類土地性質樣本準確率、召回率和?值,如表2所示。從表中可以看出,對于工業和住宅的土地判斷十分準確,值高達0.97和0.98,可靠性極強??蒲薪逃龝霈F少量漏選,但是整體的正確率和值都接近0.9。市政設施用地和商業用地稍差一些

樣本中商業用地和市政設施用地的信息來源大多是土地出讓合同,這部分內容基本涉及出讓時間和出讓金額等交易信息,土地的性質未必在出讓合同里有明確表示,所以無法利用如商場、商業、學校等直接定性的詞語進行辨別,只能通過條款中的語意分辨。而這部分語義較難區分商業和科研教育,而且土地出讓合同樣本有時候復印不全,導致無法完全通讀樣本材料。但是產業用調查項目的調查對象是原本土地性質就是工業的這部分圖斑,所以這部分錯誤因為項目特性可以相應被剔除。

4.3?字典建立

通過機器學習的方法,不斷完善初始字典,把相關性低的詞語進行排除,留下關聯度高的詞語(如圖2所示)。最終得出所需要的字典,并建立了初步的知識圖譜。如果未來有更多不同的數據或者留有更多的學習時間,會收斂出不同的結果。

4.4?項目結果

按照圖版底數清楚、情況分析明確、措施要求到位,采取人工比對與機器判讀相結合的方式,在內業過程中反復核對圖斑的信息,最后對項目中產業用地的各個地塊逐一到現場踏勘確認,確保結果的準確性。在實際項目9000多幅圖斑中,機器學習判定出的結果正確率和準確率均超過95%。目前最終數據已完成認定入庫(如圖3所示)。后期將繼續加強機器自動識別用地性質,通過人工復核的模式增強工作實效。

5.?研究結論

(1)?通過自然語言進行的土地性質識別,效率得到巨大提升。準確率、召回率和值均在可控范圍內。

(2)?在用地性質分類時,樸素貝葉斯算法的性能優于隨機森林算法。

(3)?根據樸素貝葉斯模型識別的結論,二級市場上的相關信息對用地性質的描述不夠明確,需要借助其他信息進行輔助判斷,加強土地用地性質識別的準確性。

參考文獻

[1]?淮文斌,陳雪梅,蔣真,等.存量時代下盤活低效產業空間的實施路徑:以深圳市龍華區為例[J].規劃師,2022,38(11):?124-131.

[2]?李芳,陳震原,肖軍.一種基于自然語言處理技術的智能定責應用研究[J].廣東通信技術.?2023,43(1):8-12

[3]?徐琳宏,丁堃,林原,等.基于機器學習算法的引文情感自動識別研究:以自然語言處理領域為例[J].現代情報,2020,40(1):35-40,48.

[4]?王福,劉姝瑾.基于信息接受規律的移動圖書館場景重構[J].情報資料工作,2018(5):?50-56.

[5]?WANG?D?S,?LIU?J?Z,?ZHU?A?X,?et?al.?Automatic?Extraction?and?Structuration?of?Soil-environment?Relationship?Information?from?Soil?Survey?Reports[J].Journal?of?Integrative?Agriculture,?2019,?18(2):?328-339.

[6]?馬麗萍,曹國良,郝國朝.基于大數據的大氣污染防治方式優化探究——以西安市為例[J].環境與可持續發展,2018,43(2):54-56.

[7]?陳凱,黃英來,高文韜,等.一種基于屬性加權補集的樸素貝葉斯文本分類算法[J].?哈爾濱理工大學學報,2018,23(4):?69-74.

[8]?李健,馬延周,?胡瑞娟.基于深度學習的輕量級自然語言描述生成算法[J].計算機仿真,2022,39(10):369-372,390.

猜你喜歡
自然語言處理機器學習圖斑
地理國情監測中異形圖斑的處理方法
基于C#編程的按位置及屬性值自動合并圖斑方法探究
土地利用圖斑自動檢測算法研究
基于組合分類算法的源代碼注釋質量評估方法
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
面向機器人導航的漢語路徑自然語言組塊分析方法研究
漢哈機器翻譯中的文字轉換技術研究
HowNet在自然語言處理領域的研究現狀與分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合