?

大規模衛星遙感數據資源目錄技術研究?

2024-01-23 13:37王志寶劉坤嶧
計算機與數字工程 2023年10期
關鍵詞:數據模型數據源檢索

王志寶 趙 亮 馬 軒 劉坤嶧

(東北石油大學計算機與信息技術學院 大慶 163318)

1 引言

隨著遙感航天技術的高速發展,影像數據因其本身攜帶的空間及時間屬性信息特點,成為了解決可持續發展、全球變化和減災防災的重要數據資源[1~2]。目前爆炸增長的遙感影像數量級已達PB級[3]。且流行的遙感影像共享分發平臺所支持的數據檢索較復雜,不夠簡約,并且很難達到用戶的期望[4-5]。數據湖作為近幾年來主流的大數據管理技術,是存儲處理各種數據和極大程度的關聯數據創新相關的領域。包括文本、圖片、語音、視頻和文檔等非結構化的多源異構數據資源。目的是為在大數據存儲和共享時提供一個穩定的數據底座。實現基于“讀時模式”的數據引接、存儲和處理等過程,更有效實現數據的共享和數據模型定義的靈活性,提升原本資源的利用價值和效率[6]。遙感數據資源目錄系統是構建遙感數據湖的基礎,為不同領域的遙感數據用戶提供快速、準確、方便的數據檢索、瀏覽下載和推送。

遙感數據資源目錄系統依據NASA 的統一元數據模型UMM 的數據映射標準,按照分類方法進行排序、組織與整理后編輯成目錄。用于遙感數據資源的外部形式與內部特征的詳細描述,便于遙感數據資源的組織、檢索與共享獲?。?]。本文從多源異構的遙感元數據接入處理、存儲檢索、可視化和共享等實際需求出發,提出了一套大規模遙感數據資源目錄系統的技術框架,從元數據集成模型、元數據獲取和遙感數據混合檢索進行完整的描述與分析。確定遙感數據資源目錄的定位與架構,其次依據遙感元數據標準構建具有較強擴展性的遙感元數據模型。并最終通過用例建模與服務建模驗證遙感數據資源目錄的可行性。

2 系統框架

大規模遙感數據資源目錄系統框架是面向全球范圍內的遙感數據源網站進行科學的管理與數據共享應用所形成的一系列數據模型、數據規范、方法和策略等。為系統內部不同數據庫進行分類,組合與更新。為系統外部的資源提供分類的標準,統一的規范。實現不同需求方對數據資源目錄的動態組織。在數據共享領域實現對數據資源的按需發布,提供標準化目錄服務訪問接口。

2.1 數據目錄管理流程

系統在集成服務的基礎上統一開放的服務器接口,在數據獲取過程中不僅限于對數據源進行拉取,并允許第三方應用程序調用目錄數據服務進行數據推送服務。將多源遙感元數據進行校驗、過濾和更新等操作。集成流程如圖1所示。

圖1 系統管理流程示意圖

首先數據提供方發布遙感數據資源成果,確定資源目錄集成方式。包括主動推送數據或是對外提供統一數據接口的被動拉取方式。數據在共享區進行篩選過濾,對比數據存儲中的文件目錄進行數據質量檢查,檢查通過會統一多源異構的元數據模型,否則反饋給數據提供方對其推送的數據進行自檢。根據不同定義的處理規則增量抓取待處理的數據。最后對資源數據目錄進行更新、可視化發布展示遙感數據反演產品的元數據信息在管理平臺上。同時,面向數據需求方,提供數據目錄資源信息的檢索,一體化的查詢檢索入口,資源獲取申請和成果資源推薦等工作。檢索平臺包括遙感數據集、遙感元數據、遙感數據源和遙感產品等。

2.2 系統技術框架

大規模遙感數據資源目錄構建技術框架面向全球范圍的商業數據源、公開數據源和第三方數據提供者。各層級數據源所產生的各類遙感數據資源進行科學管理與共享應用所形成的一系列模型、規范、方法、策略和系統等[7],可促進遙感數據資源的有效管理、發現與共享服務。

平臺采用面向服務的SOA架構技術,技術框架由數據層、采集層、存儲層、服務層和應用層五部分組成,如圖2 所示。平臺在設計和實現的過程中始終貫穿統一的標準規范,以下自底向上對各層進行說明。

圖2 大規模遙感數據資源目錄系統技術框架

1)數據層,由不同的數據源提供方組成,包括國內外的免費公開遙感數據源,國內外的商業付費遙感數據源以及第三方接入的志愿遙感數據源等共同構成。不僅提供主動方式去拉取數據,還可以被動接收第三方數據源以推送的方式向平臺提交遙感元數據。

2)采集層,基于平臺的遙感元數據標準將其進行解析、適配、集成、存儲、發布,最終確保平臺中數據資源的一致性。構造分布式集群爬行器,對遙感元數據進行拉取或被動接收。通過統一的元數據模型,對其提取及格式轉換、快視圖提取等。為上層提供預處理后的遙感影像像元數據、波段數據和元數據。

3)存儲層,基于統一元數據標準,將遙感元數據以標準元數據格式進行統一的模型轉換與適配,包括原始數據庫、遙感產品數據庫、目錄數據庫和索引數據庫等。最終將其批量導入與管理。數據管理員定期對存儲層所存儲的信息進行檢查與數據備份。

4)服務層,服務層管理著多維數據資源目錄,包括遙感產品目錄、遙感數據集目錄、遙感元數據目錄、遙感數據源目錄和遙感數據主題目錄。并對外提供數據接口服務,可為不同用戶提供數據服務、數據更新與數據維護。

5)應用層,應用層主要為大規模遙感數據管理平臺提供遙感元數據的檢索服務,需要實現影像數據全文檢索、數據目錄發布、數據目錄維護、元數據統計并且平臺提供影像資源數據的綜合統計與資源推薦等。

3 關鍵技術

對多個數據源中存儲的遙感數據進行元數據的獲取、存儲、檢索和發布等,包括統一多源異構元數據集成模型、元數據拉取與推送、遙感數據混合檢索與分析三部分。

3.1 遙感元數據集成模型

為實現數據目錄的聚合,首先開放數據的元數據標準及目錄清單的描述規范[8]。目前國內外的常用元數據制定標準尚未統一,這些不同來源的遙感元數據對于實現目錄聚合造成了極大的困難。因此本文目的是設計一個廣泛接受的元數據統一集成模型[9],提升元數據集成的可用性,可保證在目錄集成時采用最低程度的工作程度,并確保數據目錄信息的可用性和安全性[10]。

NASA 所設計的UMM[11]提供了較權威的映射標準。UMM 是一個可擴展的元數據模型,將遙感元數據分為六類,分別是顆粒元數據、服務元數據、集合元數據、可視化元數據、未來元數據概念、可變元數據,為CMR(Common Metadata Repository)支持的元數據標準之間的映射提供了交叉的途徑,無需創建每個CMR 支持的元數據標準之間的映射,而是將每個標準集中地映射到UMM。本研究基于UMM 中的顆粒元數據UMM-G(Granule Metadata)統一元數據模型的理念與ISO 19115-2:2009 地理元數據標準,針對遙感元數據的特點,建立一個統一的遙感元數據標準格式,從需求方使用的角度出發,包括數據主題、數據集、遙感衛星、傳感器和數據文件等。具體遙感元數據集成模型類圖如圖3所示。

圖3 元數據集成模型類圖

3.2 遙感元數據獲取

遙感數據資源目錄管理平臺在進行主動拉取或被動接收數據時會周期性地啟動守護采集進程。并且能夠運用不同的網絡協議適應不同的數據來源網站。遙感元數據獲取的架構包括了主節點和多個工作節點。資源管理平臺與主節點進行交互,主節點與其他模塊進行通信。主節點和工作節點通過gRPC(一種RPC框架)進行通信。任務通過主節點上的任務調度器進行調度分發,并被工作節點上的任務處理模塊接收,分配到任務執行器中。任務執行器實際上是執行元數據獲取程序的進程,通過gRPC 從不同數據源獲取元數據到主節點上。

元數據獲取主動方式是主節點內的定時器會主動啟動對數據源網站就行采集。被動方式是各數據源在中心完成注冊,包括權限信息、元數據的正則約定等。在“推拉”的過程會進行預校驗,通過預設的文件類型集合對新增元數據進行類型檢查和完整性檢查,失敗的數據文件會重新進入隊列等待重試,最后根據全局數據模型和面向異構遙感元數據的轉換規則進行數據攝取。此外,在保證數據集成增量的同時防止對己經歸檔的數據重復攝取,工作節點需要通過與主節點確認是否己經歸檔,若未歸檔則將遙感元數據歸檔進容器中。并由Elasticsearch 對海量的遙感元數據進行實時的分布式存儲、搜索和分析。完成元數據的分布式檢索,達到數據服務的高質量和高效率的目的。遙感元數據獲取架構如圖4所示。

圖4 遙感元數據獲取架構

3.3 遙感數據混合檢索

隨著對遙感影像數據的不斷獲取,數據中心將存儲海量的遙感元數據資源。如中國遙感衛星地面站貯存的數據總量超400 萬條[12],地球觀測系統EOS 日采集的數據量以4TB 的增速增長[13]。中科院地理空間數據云存儲了超過300TB 的數據[14]。面對如此龐大的數據量對多源異構的遙感元數據進行統一存儲勢必會帶來檢索、管理、處理和分析上的難題。目前傳統的遙感影像元數據使用的管理數據庫為關系型或非關系型進行存儲和查詢。

使用較廣泛的搜索引擎中間件和關系型數據庫主要以空間索引Geohash[15]和PostgreSQL 使用的R 樹[16]空間索引。傳統的單服務器具有無法滿足海量影像數據的存儲和高效的使用混合索引等缺陷。隨著非關系型數據庫技術的高速發展,基于其的分布式存儲與檢索是解決海量數據存儲分析較好的一種方式。Elasticsearch分布式搜索引擎作為其中的佼佼者,目前業界通常都會使用其處理數據的檢索、存儲和展示[17]。

3.3.1 實驗內容

本文為驗證不同空間檢索平臺的查詢效率,同時解決單機并發處理能力有限、容錯率低、計算能力低等缺點。搭建基于Citus 的PostgreSQL 集群和Elasticsearch 集群[18~19],使用包括Landsat、Modis 和Sentinel 等遙感元數據作為實驗數據。將城市級100 萬條數據、區域級600 萬條數據、全球級1000萬條的數據進行數據抽取、清洗、空間數據轉換最終添加到混合索引庫中,進行intersects 空間操作,查詢數據是否與特定索引形狀相交。

3.3.2 實驗環境

1)Elasticsearch 集群:4 臺配置相同的操作系統:Centos7.6;CPU:3.20GHz;內存:4GB。

2)PostgreSQL 集群:4 臺配置相同的操作系統:Centos7.6;CPU:3.20GHz;內存:4GB。

3)運行環境:Node:v16.10.0。

3.3.3 實驗結果

本文在選取實驗數據后,提取影像元數據并選擇了不同空間尺度參數,以此為變量設計了多組實驗,進行不同條件下的檢索效率實驗,并對實驗結果進行對比分析。效率對比如圖5、6、7。

圖5 城市級查詢效率對比圖

圖6 區域級查詢效率對比圖

綜合三組實驗結果顯示Elasticsearch集群檢索速度在不同文本-空間維度的數量級的擴大帶來的影響不大,檢索效率均優于傳統遙感領域常用的PostgreSQL 數據庫集群,其本質在于Elasticsearch的倒排索引檢索效率遠高于B樹[20]索引。

4 系統實現效果

大規模遙感數據資源目錄技術已經實際應用到項目遙感數據采集與管理平臺。平臺的主界面包括目錄服務、目錄發布、專題目錄和數據統計。遙感數據源包括(美國國家航空航天局大氣數據中心、歐洲航天局哨兵站點、美國地質勘探局等來自許多國家不同組織機構),數據主題包括災害、大氣、生態、水體、氣象等24個主題。如圖8所示??墒褂脭祿?、空間范圍、時間范圍和定位服務等分類對檢索的數據進一步的排序或過濾。

圖8 數據資源目錄檢索頁面

5 結語

本文提出了一套大規模遙感數據資源目錄系統的研究方法,充分考慮如何對國內外公開免費的遙感數據源、合作數據源等多源異構遙感數據源所提供的元數據進行共享方法研究。首先為元數據提供獲取方法和工具,進而將多源元數據建立統一模型并匯總到平臺。借助分布式搜索引擎框架ELK優勢,提高元數據檢索的效率。最后利用成熟的WEBGIS 技術對獲取到的遙感元數據進行發布和應用。兼顧實用性和擴展性,其效果已在實際系統中得到驗證與改進。未來將在遙感影像數據檢索技術優化的研究基礎上,通過引入自然語言處理方法,考慮基于語義的數據檢索方法,在面對遙感影像數據的存儲、管理、檢索和發布等問題時能夠滿足遙感影像數據的快速檢索和更加人性化的WEB服務。

猜你喜歡
數據模型數據源檢索
2019年第4-6期便捷檢索目錄
面板數據模型截面相關檢驗方法綜述
Web 大數據系統數據源選擇*
加熱爐爐內跟蹤數據模型優化
基于不同網絡數據源的期刊評價研究
專利檢索中“語義”的表現
基于真值發現的沖突數據源質量評價算法
分布式異構數據源標準化查詢設計與實現
面向集成管理的出版原圖數據模型
一種顧及級聯時空變化描述的土地利用變更數據模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合