?

基于不動產統一登記數據的不動產大數據框架初探

2017-10-10 09:49方從剛黃志勤武椿江辜寄蓉蘭井志
中國國土資源經濟 2017年9期
關鍵詞:爬蟲國土資源數據挖掘

■ 方從剛/黃志勤/武椿江/辜寄蓉/蘭井志

(1.北京大學,北京 100871;2.中國國土資源經濟研究院,北京 101149;3.成都市國土資源信息中心,四川成都 610023;4.四川省國土資源廳信息中心,成都 610072;5.四川師范大學地理與資源科學學院,成都 610101)

基于不動產統一登記數據的不動產大數據框架初探

■ 方從剛1,2,3/黃志勤4/武椿江5/辜寄蓉5/蘭井志2

(1.北京大學,北京 100871;2.中國國土資源經濟研究院,北京 101149;3.成都市國土資源信息中心,四川成都 610023;4.四川省國土資源廳信息中心,成都 610072;5.四川師范大學地理與資源科學學院,成都 610101)

不動產數據具有豐富的人、地、房相關信息,但缺乏社會經濟等相關信息?;ヂ摼W中豐富的社會、經濟、生態信息,與不動產數據相結合,將更好地拓展不動產數據的應用范圍,為國土資源部門的數據管理、分析與挖掘等工作提供極大助力。不動產大數據建立可以有力地補充國土行業數據在社會、經濟方面的短板,與不動產數據本身形成有機體,成為國土資源管理的核心數據集。同時,以大數據技術為支撐的數據獲取、融合、挖掘技術,可以更好地發揮不動產數據和大數據的價值,提升數據資源的可利用性。

不動產統一登記;不動產大數據;數據框架;大數據技術

Abstract:Real estate data is rich in people, land and room related information, but it lacks of socio-economic and other related information.The combination of rich social, economic, ecological information and real estate data from the Internet will better expand the application of real estate data and provide great assistance for the data management, analysis and excavation for the land and resources departments.The establishment of large real estate data can effectively complement the shortage of land data in the social and economic aspects, and real estate data itself can form an organism, then a land and resources management core data can be set. At the same time, big data technology can support the data acquisition, integration, mining technology, which can better play the value of real estate data and big data to enhance the availability of data resources.

Key words:real estate uni fi ed registration; real estate big data; data frame; big data technology

0 引言

大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合[1]。隨著互聯網技術的不斷發展,人類逐漸步入大數據時代,數據資源正和土地、勞動力、資本等生產要素一樣,成為促進經濟增長和社會發展的基本要素。隨著信息技術的迅猛發展和社會經濟水平的不斷提高,在我國社會生活生產實踐中沉淀了大量數據,科學合理地利用好這些寶貴的數據資源對我國經濟社會持續健康發展具有重要意義。

大數據在當今社會的重要地位顯而易見,但不是“萬能”的。大數據多為非結構化數據,在數據采集、存儲、挖掘等環節具有較高的技術難度。大數據本身價值密度低,為發掘其中的有價值信息進行大規模存儲和計算的成本有時候高于其所帶來的效益。一種可行的模式是將高價值密度的專業化數據與大數據相結合,以提高數據處理效率,降低實施成本。

我國2015年3月1日正式發布《不動產登記暫行條例》,標志著不動產統一登記制度的正式建立。不動產登記形成的數據庫包含豐富的人、地、房的相關信息,是一種專業化很強的高價值結構數據。然而不動產登記數據不能夠提供相關的社會經濟屬性,導致其不能充分發揮宏觀分析與決策支持能力,限制了不動產登記數據的深度挖掘。大數據來源廣泛,覆蓋社會經濟生活的方方面面,必然成為不動產登記數據的有效補充,二者的結合能夠實現結構化數據與非結構化數據的優勢互補,賦予不動產數據相應的社會經濟屬性,進一步擴展數據的厚度和廣度,促進不動產大數據應用發展,為國土資源部門數據管理、分析與挖掘等工作提供極大助力。

1 國土資源大數據應用現狀與差距

國土資源數據作為基礎國情信息,在國民經濟和社會發展中發揮著極為重要的作用。國土資源部門通過國土資源調查、監測、評價和管理工作,產生和積累了海量的基礎地理、土地、地質礦產、地質環境與地質災害防治和海洋等數據[2]。國土資源的管理離不開數據的支撐,國土資源部門開展實施的國土資源信息化建設通過對存在于不同業務部門的國土資源數據整合梳理,建立了“一張圖”核心數據庫,涵蓋國土資源基礎、業務、專業數據[3],隨著國土資源信息化工作的不斷推進,對挖掘國土資源數據中的潛在價值,提高國土資源部門管理能力和服務效率提出了新要求,應用大數據技術勢在必行,而大數據理念和技術的不斷發展也使得其在國土資源系統應用成為可能。

(1)國土資源信息化建設“一張圖”核心數據庫是國土資源大數據應用的主要支撐?,F階段開展的國土資源大數據應用都基于“一張圖”核心數據庫,從數據庫中獲取門類齊全、覆蓋全面的各類數據,在此基礎上開展分析挖掘。江蘇省國土資源系統將互聯網+、大數據、國土云理念技術與“一張圖”工程深度融合開展“慧眼守土”工程,給國土資源信息化工作帶來了實質性轉變[4];武漢市國土資源和規劃局以“一張圖”和政府辦公、綜合監管、公眾服務、地理云服務平臺為基礎,從整合硬件、網絡、數據資源等方面入手,在多維度耕地演變分析,建設用地動態監管,以地、稅信息整合為基礎的“以地控稅,以稅節地”,社會管理創新等四個方面開展大數據應用[5]。

(2)國土資源部門進一步構建數據資源體系。一方面,國土資源數據本身既有結構化數據,又有非結構化數據,需要對數據進行整合,保證其完整性、一致性。另一方面,高質量的數據不應該只是數量大,而且應該全,對涵蓋不同維度的數據進行分析才能透過數據本身的復雜關聯關系全面認識事物規律。國土資源數據需要從互聯網、物聯網等渠道收集和保留與國土資源有關的社會經濟屬性數據,對這些分散、結構不一、類型多樣的數據進行清洗整合,形成可用的數據庫和數據集。

目前,我國國土資源大數據應用剛剛起步,尚存在數據整合、應用落后等不足:

(1)國土資源數據與社會經濟屬性數據整合不夠。國土資源數據資源體系建設剛剛起步,現階段仍以自身內部積累下來的數據為主,對來自互聯網、物聯網等其他渠道的社會經濟屬性數據進行清洗整合的難度較大。同時,關于國土資源數據應該同哪些社會經濟屬性數據結合才能充分發揮國土資源數據潛在價值的問題尚未梳理清楚,阻礙了國土資源數據與社會經濟屬性數據的結合。

(2)國土資源大數據應用遠落后于其他行業。相較其他行業和部門而言,國土資源部門坐擁海量國土資源數據,國土資源大數據應用發展與其擁有的數據量不相匹配。以城市規劃行業為例,該研究領域的專家學者提出很多基于大數據的城市規劃理論、方法,涵蓋城市規劃各個方面(綠道設計[6]、職住分離[7]、城市活動空間分布[8]、用地功能區分[9]等),并且成功應用到具體工作實際當中。而關于國土資源大數據應用的理論、技術研究很少,國土資源大數據主要是在國土資源部門實踐推行,其應用的廣度和深度有限。

2 不動產大數據框架

不動產登記數據是在國土資源部門統一監督指導下進行全國土地、房屋、草原、林地、海域等不動產登記所形成的數據,記錄了不動產權利人、不動產位置、狀態、編號等詳細信息,實現了個人信息與房、地、林等不動產信息的精準關聯。合理有效地挖掘分析不動產數據,可以揭示出其內涵的人、土地、房地產之間的復雜關系網絡,為政府部門的土地供應、房地產管理等工作提供決策支持,是一種高價值的國土資源數據類型。但是不動產登記數據作為國土資源部門數據的一種,其關注的是不動產領域的權屬變更信息,登記數據較少涉及到社會經濟屬性,這就降低了不動產登記數據深度挖掘的潛力,無法挖掘人、土地市場、房地產場等社會經濟領域的相互關系,不利于不動產數據參與重要的社會經濟生活領域宏觀決策。

要充分發掘不動產登記數據的內在價值必須結合不動產相關的社會經濟大數據?,F代社會經濟活動高度依賴互聯網,人類的相關活動在互聯網上留下了大量的痕跡數據,這些數據正在以極快的速度增長著,并且是開放免費的。同時,一些開放數據組織機構出于促進大數據產業發展,幫助研究團體和個人獲得數據的目的,向社會免費公開所收集的數據。采用一定的技術手段獲取這些帶有社會經濟屬性的數據,將它們與不動產數據相結合,構建不動產大數據加以分析、挖掘,在大大節約成本的同時,也充分釋放出不動產數據內在的經濟、社會效益(圖1)。

不動產登記數據和不動產相關的互聯網社會經濟數據在類型、結構、來源等方面存在很大的差異。將結構型不動產登記數據與非結構型的互聯網社會經濟數據相結合,必須制定相應的數據清洗方案,解決因業務口徑不同而產生的數據標準不統一、類型不匹配、格式不一致、語義不一致等問題。通過互聯網和物聯網等方式獲取的數據本身還呈現出數據價值密度低等問題,只有通過開展信息的清洗與抽取、時空匹配、信息融合,才能將這些具有現勢性特性的數據與結構化的不動產登記數據相結合,實現國土資源大數據的實時接入、時空關聯和內容融合,為后續的分析決策提供依據。在此基礎上進行數據挖掘,從海量的數據中獲得不動產登記大數據蘊藏的人、土地市場、房地產市場等方面的知識與模式,將這些知識、模式提煉總結,用來對國土資源部門工作進行指導與支持。

3 不動產大數據構建技術

3.1 大數據獲取

對于互聯網數據的獲取,除了部分涉及數據提供者利益的數據需要購買外,其余大部分都可以采用網絡爬蟲技術抓取數據源對應的網絡資源,通過解析、清洗后得到所關注的數據信息。網絡爬蟲(Web Crawler),又稱為網絡蜘蛛(Web Spider)或Web 信息采集器,是一個自動下載網頁的計算機程序或自動化腳本,是搜索引擎的重要組成部分[10]。網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲(General Purpose Web Crawler)、主題網絡爬蟲(Topical Web Crawler)、深層網絡爬蟲(Deep Web Crawler)、增量式爬蟲(Incremental Web Crawler)[11]。網絡爬蟲一般都有URL管理模塊、頁面下載模塊、頁面內容解析模塊賀網頁數據庫模塊,貫穿了從頁面抓取、目標頁面鎖定及下載、頁面內容信息抽取和存儲各個環節[12]。

圖1 不動產大數據框架圖

本研究基于網絡爬蟲原理,采用Scarpy爬蟲框架,面向不動產大數據對框架進行優化和完善,從而實現對特定網站進行爬取、解析。Scrapy是一個為了爬取網站內容,提取結構性數據而編寫的應用框架??梢詰迷诎〝祿诰?、信息處理或存儲歷史數據等一系列的程序中,它實現了一般爬蟲的主要模塊。其最初是為了頁面抓取所設計的,也可以應用于獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲,在國內外應用較廣。

3.2 大數據融合

中國計算機學會理事長李國杰指出:大數據融合是大數據發展過程中一個重要的環節,將影響到大數據價值的發揮[13]。融合在大數據時代具有非常重要的價值與意義。通過多源信息融合,有利于進一步挖掘數據的價值,提升信息分析的作用;通過多源信息交叉印證,可以減少信息錯誤與疏漏,防止決策失誤。大數據融合的重要性與必要性推動數據融合研究領域出現了成熟的理論、方法。中國人民大學孟曉峰教授認為當前大數據融合的主要支撐技術有模式/本體對齊技術、實體鏈接技術、沖突解決技術、關系推演技術四種。模式/本體對齊技術用于應對本體的易異構性和數據源的異構性;實體鏈接技術關鍵是實體識別,用于確定命名實體表象與真實實體之間的映射關系;沖突解決技術用于甄別所有沖突的值中的正確值;關系推演技術用于尋找關聯數據中的數據模式與自然語言中關系詞匯中的對應關系[14]。北京大學信息管理學院化柏林研究員從理論、方法、技術及應用四個層面談論了大數據環境下的多源信息融合問題,指出多源信息融合主要涉及數據唯一識別、數據記錄濾重、字段映射與互補、重名區分、別名識別、異構數據加權等多個方面[15]。郭春霞在大數據環境下高校圖書館數據融合中認為可融合的數據具有共性和互補性,在數據融合過程中應該進行數據拆分、記錄濾重等工作[16]。

本研究借鑒專家學者的研究成果,采用適當的方法、技術將非結構化數據轉化為結構化數據,對融合的數據進行去重、異常值剔除、屬性整理工作,方便后期的研究使用。

本研究所需數據,一部分從不動產數據庫直接獲取,一部分數據將不動產數據與大數據結合,或者不動產與不動產數據結合,其數據的整理流程如圖2所示。

3.3 大數據挖掘

數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程,涉及統計學、機器學習、神經網絡、數據庫等方法理論。合理運用數據挖掘技術,能夠高效精確地發現隱藏在不動產登記大數據背后的特征規律,據此為決策者提供有價值的信息、知識[17]。

數據挖掘技術出現于20世紀80年代,它促成了數據庫中的知識發現(KDD)產生。1995年在加拿大蒙特利爾召開了首屆KDD國際學術年會,把數據挖掘技術分為工程領域的數據挖掘與科研領域的知識發現。此后每年都會召開類似的會議,且數量和規模逐漸增加,經過十幾年的努力,數據挖掘技術研究已經取得了豐碩的成果[18]。數據挖掘的算法主要有神經網絡法、決策樹法、遺傳算法、粗糙集法、模糊集法和關聯規則法等,這些算法在研究人員的努力下仍在不斷改進和完善[19]。

圖2 數據整理流程圖

數據挖掘技術是面向應用的,隨著研究的深入,數據挖掘技術的應用越來越廣泛,在金融業、零售業、生物信息、客戶關系管理、電子商務管理等領域發揮著重要的作用。在大數據環境背景下,數據挖掘作為發現數據價值的手段更是受到研究人員的重視:國內外學者基于微博數據進行了微博話題事件分析、微博情感分析、微博信息檢索與推薦、微博關系分析與挖掘方面、微博地理位置的研究,這些研究都是通過數據挖掘技術實現的[20];李德仁深入分析了遙感大數據的挖掘過程、遙感大數據與廣義遙感大數據綜合信息挖掘,認為遙感大數據不僅能用于挖掘地球各種尺度的變化規律,而且能用于發現未知的,甚至遙感不相關的知識[21];賀瑤、王文慶等為了實現高效率低成本的海量數據挖掘,提出了基于云計算的海量數據挖掘模型,該模型利用云計算的并行處理和海量存儲能力,數據挖掘的效率明顯高于傳統的數據挖掘,并且準確性也有了一定的提高[22]。

4 結論與展望

不動產大數據的建立可以有力地補充國土資源行業數據在社會、經濟表現方面的短板,與不動產數據本身形成有機體,成為國土資源管理的核心數據集。同時,以大數據技術為支持的數據獲取、融合、挖掘技術,可以更好地發揮不動產數據和大數據的價值,提升數據資源的可利用性。

后期將以四川省不動產統一登記數據為藍本,具體研究不動產的哪些數據或數據產品,與大數據中的哪些數據融合,融合為何種數據產品,為哪些國土資源部門分析服務,最終建立不動產大數據集。

[1]甄峰,秦蕭,王波.大數據時代的人文地理研究與應用實踐[J].人文地理,2014(3):1-6.

[2]嚴正偉.基于大數據技術的國土資源信息化應用研究[J].信息化研究,2015(2):1-4.

[3]屈曉波,趙根.關于國土資源“一張圖”建設的思考[J].國土資源信息化,2013(4):12-15.

[4]葉東劍.大數據“慧眼守土”:淺析江蘇省鹽城市鹽都區國土資源信息化建設[J].中國土地,2016(7):38-39.

[5]李宗華,彭明軍,黃新.武漢市國土資源大數據應用研究與實踐[J].國土資源信息化,2016(1):3-7.

[6]李方正,李婉儀,李雄.基于公交刷卡大數據分析的城市綠道規劃研究:以北京市為例[J].城市發展研究,2015(8):27-32.

[7]龍瀛,張宇,崔承印.利用公交刷卡數據分析北京職住關系和通勤出行[J].地理學報,2012(10):1339-1352.

[8]王波,甄峰,張浩.基于簽到數據的城市活動時空間動態變化及區劃研究[J].地理科學,2015(2):151-160.

[9]梁軍輝,林堅,杜洋.大數據條件下城市用地類型辨識研究:基于出租車GPS數據的動態感知[J].上海國土資源,2016(1):28-32.

[10]孫立偉,何國輝,吳禮發.網絡爬蟲技術的研究[J].電腦知識與技術,2010(15):4112-4115.

[11]于成龍,于洪波.網絡爬蟲技術研究[J].東莞理工學院學報,2011(3):25-29.

[12]肖毅,張林,聶笑一.基于WEB挖掘的網絡爬蟲設計與實現[J].計算機系統應用,2013(9):60-63.

[13]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域:大數據的研究現狀與科學思考[J].中國科學院院刊,2012(6):647-657.

[14]孟小峰,杜治娟.大數據融合研究:問題與挑戰[J].計算機研究與發展,2016(2):231-246.

[15]化柏林,李廣建.大數據環境下多源信息融合的理論與應用探討[J].圖書情報工作,2015(16):5-10.

[16]郭春霞.大數據環境下高校圖書館非結構化數據融合分析[J].圖書館學研究,2015(5):30-34.

[17]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.

[18]王雅軒,頊聰.數據挖掘技術的綜述[J].電子技術與軟件工程,2015(8):204-205.

[19]王光宏,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004(2):246-252.

[20]丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014(4):691-706.

[21]李德仁,張良培,夏桂松.遙感大數據自動分析與數據挖掘[J].測繪學報,2014(12):1211-1216.

[22]賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(2):69-72.

A Preliminary Study on Big Data Framework Based on Uniform Registration Data of Real Estate

FANG Conggang1,2,3, HUANG Zhiqin4, WU Chunjiang5, GU Jirong5, LAN Jingzhi2
(1. Peking University, Beijing 100871, China; 2. Chinese Academy of Land and Resource Economics, Beijing 101149; 3. Chengdu Land and Resources Information Center, Chengdu Sichuan 610023, China; 4. Information Center, Sichuan Provincial Land and Resources Department,Chengdu 610072, China; 5. The Faculty Geography Resource Science, Sichuan Normal University, Chengdu 610101, China)

F061.6;F062.1;F062.5

A

1672-6995(2017)09-0030-05

2017-04-07;

2017-05-02

四川省國土資源廳科技項目“基于大數據技術的不動產登記數據信息挖掘與決策支持機制研究”(201707)

方從剛(1983—),男,四川省瀘州市江陽區人,成都市國土資源信息中心高級工程師,理學博士,主要研究方向:數字國土與地理信息工程。

猜你喜歡
爬蟲國土資源數據挖掘
利用網絡爬蟲技術驗證房地產灰犀牛之說
昆明理工大學國土資源工程學院簡介
改進支持向量機在特征數據挖掘中的智能應用
基于Python的網絡爬蟲和反爬蟲技術研究
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
大數據背景下校園輿情的爬蟲應用研究
歡迎訂閱2018年《國土資源情報》
對國土資源政策評估工作的認識
2016年國土資源科技成果統計分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合