?

基于OCR識別技術的碎片化時空信息庫異常文件檢測方法

2024-01-15 10:53宋吉星王宜春楊偉迪
關鍵詞:元組信息庫準確率

楊 飛,宋吉星,王宜春,楊偉迪,趙 璟

(國能包神鐵路集團 神朔鐵路公司,陜西 榆林 719316)

自媒體時代的到來,豐富了人們生活的同時也割裂了每個人的時間,使得各種信息都向著碎片化發展[1]。為更好地應用這些碎片化信息,學者提出了碎片化時空信息庫,用來收錄各行各業的零散數據,在移動互聯網環境下,實現多類型數據的交互。近年來,碎片化時空信息庫的運行面臨越來越多的安全隱患,在碎片化時空信息庫中存在具有異常特征或與正常規律偏離的文件,包括格式異常、內容異常、結構異常、大小異常和訪問異常等。為了保證信息庫的安全,需要針對信息庫異常文件進行精準檢測。如何有效檢測異常文件,成為學者關注的熱門課題。

LI[2]以圖形和圖像的方式顯示海量的網絡數據和日志信息,并利用多智能體模型建立了網絡數據可視化分析模型,但該方法數據處理不當,導致數據質量差,可視化方法和算法受到限制,影響檢測結果。房笑宇等[3]運用滑動窗口法,將日志文件描述為日志序列,依托注意力機制,構建以生成對抗網絡為核心的異常檢測模型,將日志序列輸入該模型判斷是否存在異常,從而得出異常文件檢測結果,但檢測結果準確率較低。李國等[4]提出對比異常文件和良性文件的信息熵,依據信息熵差異檢測異常文件,提取異常文件的特征并將其輸入基于決策樹算法的檢測模型中,以驗證異常文件檢測結果,但該方法檢測耗時較長。李坤明等[5]以集成決策樹為基礎,構建異常文件檢測模型,針對訓練樣本進行數次迭代學習后,得到優化后的檢測模型,從而得出較準確的異常文件檢測結果,但該方法的魯棒性較差。

為降低檢測誤差,筆者利用OCR識別技術對掃描圖像進行預處理,包括圖像二值化和旋轉矯正等,以提高文字信息的準確性和可讀性。結合連接預選框網絡和端到端文本識別網絡,實現對預處理圖像中文字信息的自適應提取,避免了手動標注文本區域的繁瑣過程。將識別出的文字信息描述為定長字節序列,通過計算熵得出文件的統計特征,從而量化文件的不確定性。對比信息庫異常文件的標志特征,通過計算余弦相似度來判斷文件是否屬于異常文件,從而實現智能檢測結果的輸出。

1 異常文件檢測方法

1.1 碎片化時空信息庫文件圖像處理

考慮到相機現場拍攝的圖像可能包含一些干擾信息,在碎片化時空信息庫異常文件智能檢測時,需要進行圖像二值化和旋轉矯正處理[6]。碎片化時空信息庫文件掃描圖像的二值化處理,需要依托于最佳閾值法實現。將原始掃描的文件圖像轉換為灰度圖像后,計算出圖像灰度中值,充當二值化處理初始閾值,基于該值將圖像所有像素劃分為兩部分。而后,針對灰度圖像構建灰度直方圖、累計直方圖,對應的數學表達式為:

(1)

(2)

針對初始閾值分割后的兩部分像素進行計算,分別確定灰度均值,并以此為基礎更新二值化分割閾值[7]。對比更新前后的閾值,計算出二者之間的差值,當差值過高時,重復上述步驟,再次更新閾值,直到得到最佳閾值。利用最佳閾值進行二值化操作,去除掃描圖像中的底紋。運用雙線性插值策略,旋轉矯正文件掃描圖像,具體操作模式如圖1所示。其中,α1、α2、α3、α4表示X軸上線性插值輔助點,β1、β2表示Y軸上線性插值輔助點。雙線性插值處理時,目標點處在6個輔助點之間,按照這一操作方式不斷處理,得到雙線性插值結果,實現文件掃描圖像的旋轉矯正。

圖1 雙線性插值示意圖

1.2 基于OCR識別的文字提取方法

在掃描儀等電子設備的輔助下,實施智能OCR識別技術,對預處理后的碎片化時空信息庫文件圖像進行文字提取,將圖像內包含的字符描述為計算機可以識別的文字,作為后續異常文件檢測的基礎?;贠CR識別技術進行文字提取時,需要經歷文本檢測、文本識別兩個環節。為提升文字提取效率,提出前一環節采用基于連接預選框網絡的文本檢測網絡,后一環節則需要端到端文本識別網絡的輔助。

由卷積層、雙向短期記憶網絡和全連接層組成基于連接預選框網絡的文本檢測網絡(CTPN)[8]。在執行智能OCR識別原理時,需要通過卷積層提取碎片化時空信息庫文件掃描圖像的特征[9]。應用尺寸為3×3的滑動窗口進行特征向量提取,操作過程如圖2所示。

圖2 特征向量提取示意圖

一個滑動窗口內存在多個垂直錨點,用來描述圖像中字符的垂直坐標。因此,基于錨點可以將圖像文本框的垂直坐標表示為:

(3)

將提取出的特征向量輸入雙向短期記憶網絡進行小窗口預測,初步確定文字所在區域,再通過全連接層進一步處理優化后的輸出結果,定位出圖像內文字所在區域。

針對檢測出的文字區域,應用端到端文本識別網絡(CRNN)進行具體識別,該識別網絡主要包括3層結構,如圖3所示。將檢測標注后的圖像輸入深度卷積層,經由卷積計算、激活計算和池化計算提取文字特征。整合為特征序列后輸入循環層,通過雙向長短時記憶網絡得出文本識別預測結果,再經由轉錄層的CTC模型,對預測結果進行驗證,并將其轉化為最終識別結果。

圖3 CRNN網絡結構示意圖

1.3 提取文件類型統計特征

將文件掃描圖像的字符識別結果描述為定長字節序列,再劃分為大小相同的字節序列片段,每個片段可以看作一個元組[10]。實際操作過程中,通過觀察某一個字節后續位置字節的不確定性,找到字節序列端點,形成文件對應的字節流。筆者采用熵計算方法描述字節的不確定性。

(4)

將基于OCR識別的文字提取結果匯總起來,形成包含數個字符的訓練集,并應用式(4)計算出字節的后繼熵。對比預先設置的判斷閾值,當熵高于閾值時,可以作出一個窗口標記。對文件全部識別內容完成標記后,整個文件可以表示為包含若干標記元組的集合。針對集合內每個元組出現的次數進行統計,確定元組頻率分布情況,如式(5)所示。選擇幾個出現頻率最高的元組,總結窗口標記作為當前文件的統計特征。

γ(Gk)={TGk(g)|(g)∈Gk}

(5)

式中:G為標記元組集合;γ為元組頻率分布;T為目標元組出現次數;g為目標元組。

1.4 建立異常文件智能檢測方案

依托于文件統計特征進行異常文件智能檢測,需先確定異常文件的標志特征。以碎片化時空信息庫內典型的異常文件為例,對文件中每個元組進行評估。

(6)

(7)

(8)

式中:E為元組評估值;ψ為訓練樣本中滿足篩選條件的文檔數量;ρ為篩選參數,其取值會受到指紋中元組數量的影響,指紋是指文件類型;?為總文檔數量;Φ為平滑因子;ΔR為文檔與指紋中目標元組出現的頻率差;R為元組出現頻率;d為文檔;e為指紋;ξ為元組出現頻率求取過程中產生的眾數數量;Mj為第j個眾數。

按照上述計算方法,確定典型異常文件的元組評估值,按從大到小的順序進行排序,選擇排序靠前的幾個元組作為碎片化時空信息庫異常文件的標志特征。針對提取的文件類型統計特征與異常文件標志特征,計算二者之間的余弦相似度,當相似度大于預先設計的判斷閾值時,即可輸出檢測結果,判定該文件屬于異常文件。

2 實驗

2.1 實驗數據

由于所提智能檢測方法應用了OCR識別技術,為確保該方法具有良好的實際應用效果,需要進行實驗分析。本次實驗所應用的數據主要來自安卓平臺、Windows平臺。在兩個平臺中,分別收集2 000個異常文件和6 000個正常文件,將這8 000個文件看作碎片化時空信息庫內的文件。實驗過程中,選取5 000個文件構成訓練集,用來訓練基于智能OCR識別的文字提取網絡,調整網絡參數。再將剩余的3 000個文件均分為3份,得到3個測試集。每個測試集中,異常文件的占比均為50%。應用所提方法,針對這些數據集進行智能檢測,得到異常文件檢測結果。

2.2 網絡訓練

使用一組訓練數據和驗證數據,其中包括100個異常文件和300個正常文件。使用訓練數據來訓練模型,計算文件類型統計特征和異常文件標志特征。在驗證數據上進行實驗和驗證,通過調整不同的判斷閾值,觀察模型的準確率和召回率。

在實驗和驗證過程中,得到了以下結果:當判斷閾值為0.8時,模型的準確率為90%,召回率為85%;當判斷閾值為0.7時,模型的準確率下降至85%,但召回率提高至90%;當判斷閾值為0.9時,模型的準確率提高至95%,但召回率下降至80%。根據以上結果,權衡準確率與召回率的關系來確定最終的判斷閾值。由于研究重點為異常文件的準確識別,所以選擇較高的判斷閾值,即設置為0.9。

為保證文字識別結果更加準確,在網絡訓練過程中,定義所有文件掃描圖像尺寸為3×225×225,并保證所有圖像的像素值取值范圍為[0,1]。網絡訓練過程中,設置網絡訓練次數和批次大小分別為150和50,該條件下網絡訓練的損失值、準確率變化曲線如圖4所示。由圖4可知,在訓練次數增加后,文字識別的準確率不斷提升,而訓練損失值則在不斷降低。從訓練次數為70次開始,準確率無限貼近為1,確定此時網絡處于最優狀態。

圖4 訓練集損失值、準確率變化曲線

應用訓練后的網絡處理測試集,并得到損失值、準確率變化曲線,如圖5所示。由圖5可知,當完成150次訓練后,文字提取網絡的識別準確率達到了98.8%,表明基于連接預選框網絡的文本檢測網絡、端到端文本識別網絡,實施智能OCR識別技術后,可以得到準確的文字識別結果。

圖5 測試集損失值、準確率變化曲線

以測試集的任意文件為例,對其掃描圖像進行文字識別,結果如圖6所示。由圖6可知,所提方法可以將文件內包含的文字字符完整識別出來,并基于此進行后續異常文件智能檢測。

圖6 文件字符識別結果

2.3 異常文件檢測結果

在完成文字識別后,對3個測試集分別進行異常文件檢測,檢測結果如表1所示。由表1可知,所提方法在完成異常文件檢測的同時,還可以確定異常文件類型。且最終得出的異常文件數量,與預期相同,表明所設計智能檢測方法的可行性。

表1 異常文件檢測結果

2.4 方法性能對比分析

定義評價指標為精確率和召回率的加權調和平均值(F-Score),以此來描述異常文件智能檢測方法的性能,具體計算公式為:

(9)

式中:P為異常文件智能檢測精確率;R為異常文件智能檢測召回率。

將所提方法和基于復合特征的檢測方法、基于注意力機制的檢測方法進行對比,分別進行異常文件智能檢測,3種方法檢測結果的F-Score對比結果如圖7所示。由圖7可知,兩種傳統的智能檢測方法的平均F-Score分別為0.60和0.46,基于OCR識別技術的檢測方法的F-Score始終保持在0.9以上,平均F-Score達到了0.97,比其他兩種方法提升了38.14%、52.58%。

圖7 不同智能檢測方法的F-Score對比

3 結論

(1)針對信息庫異常文件智能檢測進行研究,提出應用OCR識別技術的新型檢測技術,并在深度學習網絡的輔助下進行異常文件檢測。研究發現:①結合圖像預處理技術和深度學習網絡,能夠準確提取掃描圖像中的文字信息,并進行針對性的檢測。②通過連接預選框網絡和文本識別網絡的結合,實現了對異常文件類型的智能檢測,有效減少了人工判斷的主觀性和不穩定性,提高檢測的準確性和效率。

(2)檢測方法在異常文件檢測方面表現良好,平均F-Score達到了0.97,說明該方法在智能檢測異常文件時具有較高的準確性和效率,可以有效降低人工判斷的工作量。該方法的可靠性和實用性得到了充分驗證,可以作為一個實用價值較高的智能檢測方案應用于碎片化時空信息庫的異常文件檢測。

猜你喜歡
元組信息庫準確率
民政部啟用中國·國家地名信息庫2022版
Python核心語法
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
海量數據上有效的top-kSkyline查詢算法*
借助BIM構建動態造價信息庫的新思路
高速公路車牌識別標識站準確率驗證法
基于減少檢索的負表約束優化算法
面向數據流處理的元組跟蹤方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合