?

基于特征庫的測井數據格式自動識別與轉換方法

2014-12-03 10:31王慧萍王衛楊頔何宗斌李曉華
測井技術 2014年1期
關鍵詞:數據格式數據文件自動識別

王慧萍,王衛,楊頔,何宗斌,李曉華

(1.中石化河南石油勘探局地球物理測井公司,河南 南陽473132;2.中石化石油工程技術研究院測錄井所,北京100101;3.武漢大學,湖北 武漢430072;4.長江大學,湖北 武漢430100)

0 引 言

測井數據種類繁多,存儲格式多種多樣,尤其是野外測井數據,不同的儀器廠商、不同的測井數據處理平臺都有不同的數據存儲格式,如LIS、DLIS、XTF、WIS、各種版本的 LAS、各種類型的716等[1]。據統計,國內外現有測井數據存儲格式多達100多種。隨著測井技術的發展,測井項目增多,數據類型會越來越多,迫切需要一套能夠快速、高效、智能數據格式識別、瀏覽、解編的新方法。本文提出了一種基于特征庫的測井數據格式自動識別與轉換方法,具有很好的應用前景。

1 現有數據格式技術狀況

目前測井資料處理系統的數據轉換大都采用人工識別方式或半智能化模糊識別方式。

所謂人工識別方式,要求確切知道要轉換的數據文件類型,調用相應的轉換模塊,這種轉換方式速度快,效率高,缺點是處理人員必須對該數據格式類型十分清楚,否則就無法實現轉換。

半智能化模糊識別方式則要求用戶知道要轉換的數據文件的可能類型,并指定相應的可能轉換模塊。這種轉換方式給出一種或多種可能的數據格式,讓程序在給定的格式中自動搜索、匹配,但必須保證要處理的數據格式屬于給定的可能格式中的一種,且給定的可能性越多,處理速度越慢,因為系統要對給定的模塊逐個進行掃描、匹配。同時要求多選的格式模塊必須對格式的描述判斷嚴謹、唯一,否則將會引起混亂,無法實現正確解編。這種識別技術最大的問題是隨著模塊的增加,文件數據格式的相似性增加,識別準確度降低,模塊間的混淆嚴重,無法準確區分數據格式,造成系統運行不穩定,甚至崩潰[2]。

2 測井數據格式自動識別與轉換方法

2.1 技術思路

分析各種數據格式的信息特征,提取其中的一條或多條具有代表性的特征信息,根據特征信息在文件中出現的位置特點,選擇設置定點、段內或偏移搜索方式,采用多條件識別方法建立數據格式特征碼庫,通過軟件自動實現識別數據格式特征庫技術,將某一個待操作的數據文件與特征庫信息進行匹配,從而快速識別出該數據文件的數據格式類型,然后再調用相匹配的數據格式轉換模塊進行掃描、轉換。概括地說就是,利用能夠區分各種測井數據格式的特征信息,建立數據格式特征碼庫,編制計算機軟件,實現自動格式識別、轉換[2-3]。

2.2 數據格式特征庫設計

數據格式的特征庫設計依據測井文件格式內部信息對文件類型進行區分,即通過分析各種數據格式的結構特征,提取各種測井數據格式中的特征信息,建立數據格式特征碼信息庫。

特征庫文件格式:

信息描述:搜索的操作數信息描述。

搜索域:設置搜索方式,進行定點、段內和偏移搜索3種方式選擇設置,根據所需搜索的特征數在定點位置或在搜索段內或在某特征定點偏移位置設置,0為全范圍搜索;1為定位搜索;2在上一個特征信息搜索的基礎上,加偏移定位搜索。

起始點,終止點:某特征的位置范圍。對于定點搜索,則從起始點直接對應匹配操作數;對于段內搜索,則在起始點,終止點任意位置匹配操作數即可;對于偏移搜索,該起始點為偏移點,實際搜索位置要加上最新搜索的一個定點位置,該定點位置是通過段內搜索得到,即:

匹配操作點=上一項段內搜索的匹配操作點+起始點

值類型:操作數的數據類型,可為字符、整型、實型多種操作數特征,操作數的數據類型要考慮操作數的機器類型,如I4為PC機整型數,I4S為SUN機器整型數

最小值,最大值:操作數的最小值與最大值范圍,對于字符型操作數,最大值可以是多個條件值的或,如:最小值、最大值為“H T.OR.C”表示操作數等于H或T或C時,均滿足搜索條件;對于數值型操作數,給出的是匹配數值區間。

表1為部分格式的特征信息。例如:DLIS是段內搜索文件頭、來歷2個特征字FILE-HEADE與ORIGIN。XTF是定點搜索特征字.XTF及2個定點特征數值1與2。BIT是先在段內搜索特征字T,得到定點位置再加各偏移起始點位置處搜索文件號、曲線條數、采樣間隔、日期、月份等多種類型的操作數。多種類型的操作數匹配,是為了更準確找到某種格式特征。

特征庫的建立力爭作到信息描述的簡潔性、準確性與唯一性,保證格式識別的快速、準確。特征庫支持新的識別條件加入,支持未來擴展。數據格式特征碼庫的建立,是為計算機自動、快速、準確的識別數據格式類型提供判別標準,以便于數據格式識別與轉換。

表1 特征碼庫文件示例

2.3 技術實現

2.3.1 建立數據格式特征信息庫

通過對目前國內外常用的幾十種數據格式記錄標準及特征進行分析、研究,提取各格式類型特征信息,建立如表1所示的特征碼庫文件。

2.3.2 軟件實現

在VS2010環境下用VC++建立數據格式識別與轉換平臺,提供數據瀏覽與解編函數調用接口;用動態連接庫技術開發了如表2所示的數據格式瀏覽與解編模塊。

在數據格式識別與轉換平臺中實現待轉換的測井數據文件與特征庫中存儲的測井數據格式的特征信息快速自動搜索、匹配,并自動記錄匹配的數據格式轉換模塊名稱,具體實現流程見圖1。

系統依據特征庫匹配結果,自動調用相匹配的數據格式轉換模塊進行精確匹配,匹配成功后進行數據文件瀏覽、轉換,完成數據格式的信息獲取與轉換。

在程序實現過程中,為檢驗特征庫的正確性和唯一性,進行特征信息自動搜索、匹配時,如遇到多解性,程序自動報警,提示用戶,對多解模塊描述信息進行及時調整,保證特征信息的唯一性;如遇無法識別的模塊,可進行人機交互,選擇可能的解編模塊進行驗證,進一步完善特征信息,保證特征信息的正確性。

對于新增數據格式,只需在特征庫中追加相應的描述信息,編寫相應的解編模塊。測井數據格式自動識別與轉換軟件實施流程見圖2。

表2 實現的數據解編模塊列表

圖1 特征庫操作流程

基于特征庫的測井數據格式自動識別與轉換方法已在中石化自主知識產權軟件 “測井資料處理解釋系統LOGIK3.0”中得到實現,利用該技術編寫了24個數據格式轉換模塊,支持對目前國內外常用的50多種測井數據格式自動識別與解編,并轉換成中石化測井數據存儲格式SLF類型文件。

3 應用效果

該項技術已廣泛應用于河南油田生產和科研中,并于2011~2012年在勝利、中原、江漢等10余個油田企業進行推廣應用,在應用過程中不斷對特征信息進行測試、驗證和完善,實現了對勝利、中原、四川等多個油田常用及自定義數據格式的自動識別與轉換。

大量的應用實踐證明,該方法克服了以往測井資料處理系統中人工識別方式或半智能化模糊識別方式的缺點,解決了數據解編的難題,實現數據格式智能化、自動、快速、準確識別和解編,突破了以往數據格式識別瓶頸,提高了數據解編工作效率。

圖2 軟件實施流程圖

4 結 論

(1)該項技術的應用,使得用戶無需了解數據格式類型,不需要記憶轉換模塊名稱,大大節約了數據轉換時間,減少了人工勞動,提高了識別的準確度,提高了系統的運行效率。

(2)通過該項技術,可為整個測井行業建立一個標準的數據格式特征碼庫,對現有數據格式進行檢驗、解編,對新的數據格式進行擴充和描述。

[1] 龔福秀.測井數據格式轉換系統的開發 [J].江漢石油科技,2006,16(1):65-68.

[2] 王衛,李光軍,王慧萍,等.基于特征庫的測井數據格式自動識別與轉換方法:中國,ZL 2010 1 0203222.5[P].2012-11-07.

[3] 李光軍,王衛,王慧萍.LOGIK測井微機解釋系統開發技術分析 [J].石油天然氣學報,2011,33(8):91-95.

猜你喜歡
數據格式數據文件自動識別
基于數據挖掘的船舶航跡自動識別系統
基于衛星遙感圖像的收費站位置自動識別與校核
自動識別系統
數據文件恢復專題問答
數據文件安全管控技術的研究與實現
SQL數據文件恢復工具
基于RFID的戶外廣告監管系統的設計與實現
一種融合多業務的信息化系統框架研究
基于IEC61850的配網終端自動識別技術
基于ArcGIS的規劃數據格式轉換研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合