基于場景理論的STAC課程數據庫自動檢索系統

2019-08-27 09:06李曙軍張宏杰王海棠王秋爽

吉林大學學報(信息科學版) 2019年4期

李曙軍, 張宏杰, 王海棠, 王秋爽

(1. 國網河北省電力有限公司 a. 培訓中心黨校工作部; b. 培訓中心, 石家莊 050023；2. 北京敏行創業國際管理咨詢有限公司, 北京 101100； 3. 吉林大學計算機科學與技術學院, 長春 130012)

0 引言

以計算機為基礎的多媒體技術快速發展, 數據庫檢索浪潮已經席卷全國, 世界各地都在積極推進以檢索為基本的應用系統[1]。尤其是在課程培訓領域, 其信息化對課程資源建設提出了高標準高要求, 對網絡蘊含的多媒體資源進行語義標注, 并全部整合到數據庫中, 對于資源建設具有重要意義, 有效促進課程信息化發展[2]。課程信息化快速發展的同時對培訓主體起到了轉換作用, 從資源角度, 培訓是人們掌握技能主要來源, 然而隨著網絡普及, 其中蘊含的大量多媒體信息成為了一個龐大數據庫, 能使培訓生們獲取更多信息資源。對于大型國企, 基層黨支部書記工作能力關乎整個企業的命運, 目前課程模式很難滿足組織實際工作需求, 因此, 如何提升工作能力, 成為基層黨支部書記面臨的挑戰性問題, 獲取有用數據就顯得尤為重要[3]。

由于信息資源呈現爆炸式增長方式, 想要查找與自己相關的主要信息十分困難, 采用現有數據庫檢索系統可對少量信息資源進行高精度檢索, 但對于數量龐大資源, 檢索過程非常復雜[4]。網絡具有分布性特點, 人們只有采用不同模式, 使用網絡信息相連性原理進行全面搜索, 才能檢索出所需的數據, 因此, 基層黨支部書記迫切需要一種可以控制的Stac(Statistical Analysis)課程數據庫檢索, 保證課程數據庫檢索的精準性[5-8]。

針對傳統系統存在的問題, 筆者提出了基于場景理論的Stac課程數據庫自動檢索系統設計, 結合場景理論, 運用數據技術, 梳理出Stac課程開發模型, 這使系統具備動態檢索能力, 實時更新動態信息, 保證系統時效性。

1 系統結構設計

圖1 系統總體結構設計Fig.1 Overall structure design of the system

針對Stac課程數據庫自動檢索系統設計, 采用場景理論, 該理論是由單純空間轉換為人與周圍環境關系總和, 隨著網絡時代來臨, 場景成為了移動媒體時代核心要素。無論是Stac課程研發形式, 還是具體內容方面研究, 都需注重黨支部書記日常工作情況, 在不同背景下, 設計系統總體結構和軟件功能。

Stac課程數據庫自動檢索系統主要是由分詞模塊、自動檢索模塊、索引模塊和數據采集模塊組成的, 其結構如圖1所示。

1.1 分詞模塊

采用傳統系統受到Stac課程數據庫中詞同義或多義影響, 導致用戶學習背景與認知能力都有所下降, 用戶輸入的關鍵詞條件與查詢結果是不對應的, 為此, 結合基層黨支部書記的實際情況, 提出了場景理論的Stac課程數據庫分詞體系。

圖2 自動檢索結構Fig.2 Automatic retrieval structure

分詞模塊的設計可為系統提供實用接口, 在接收用戶檢索命令時, 場景理論下的自然語言句子, 具有求解復雜問題能力, 同時具備檢索智能接口, 采用組合型歧義統計同義或多義情況, 具有較高切分正確率和良好排歧效果。

1.2 自動檢索模塊

自動檢索模塊是依據用戶需求, 通過場景理論下的網絡蜘蛛對Stac課程數據庫資源進行自動檢索。網絡蜘蛛是通過網頁鏈接地址尋找目標, 從某個頁面開始, 讀取其中內容, 再找到網絡中的其他地址, 如此循環下去, 直到檢索整個互聯網網站, 即可實現全部目標資源的采集[9]。構建的自動檢索結構如圖2所示。

由圖2可知, 為滿足Stac課程數據庫自動檢索系統兼容性, 需在Linux系統配合下, 進行信息采集, 并直接對數據庫進行訪問, 采用多?？刂? 直接影響整個系統覆蓋面積。采用增量式采集算法, 在提高檢索效率的同時, 也可對動態信息進行實時存取[10]。

1.3 索引模塊

索引主要功能就是將Stac課程資源素材全部輸入到系統中, 經過自動檢索模塊從網頁中獲取索項目數據, 以此表示文檔索引表[11-15]。

由于索引引擎本身是無法存儲有效信息的, 因此, 當系統檢索量達到一定規模時, 需采用分布式體系結構, 調用數個獨立搜索引擎, 相互合作、相互分工, 并將搜索結果反饋給用戶, 以提高系統性能, 索引引擎設計如圖3所示。

圖3 索引引擎設計Fig.3 Index engine design

圖3中的機器DB Server組件用來接收中心DB Server傳輸的信息, 并協調多個機器并行獲取信息資源, 經過一系列處理后, 向中心DB Server發送處理結果。中心DB Server是協調各個機器DB Server組件工作過程, 同時為索引DB Server提供接口, 以此建立索引庫。

1.4 數據采集模塊

將課程資源網頁作為樣本進行解析, 可轉化為Dom頁面集, 根據課程資源數據規范標準, 制定頁面集合語義模型, 并對其進行標記, 使信息內容與語義呈現一一對應關系, 通過學習獲取課程資源中各種語義對象, 并把采集規則編排到規則庫中。

對同義或多義對象采集規則進行組合, 以此獲取組合形式的課程資源, 將組合結果通過索引引擎, 全部輸入到數據庫中, 通過對網頁進行實時采集, 可獲取相應檢索結果。

在場景理論下, 設計分詞模塊, 可為系統提供實用接口, 具有較高切分正確率和良好排歧效果。依據用戶需求, 使用網絡蜘蛛對Stac課程數據庫資源進行自動檢索, 經過自動檢索模塊, 將從網頁中獲取的Stac課程資源素材全部輸入系統中, 當系統檢索量達到一定規模時, 調用數個獨立搜索引擎, 提高索引效率。通過對網頁進行實時采集, 用戶可獲取想要的檢索結果, 由此完成系統結構設計。

2 系統功能設計

針對系統軟件功能設計在Visual C++6.0開發工具下實現, 在檢索過程中, 機器DB Server通過日程表模塊控制機器行為, 日程表模塊內部放置了待訪問的URL列表, 用于監視機器狀態, 控制其行為, 對于不能直接訪問的地址進行過濾處理。

2.1 光盤數據庫建立

數據庫是Stac課程的存儲倉庫, 以基層黨組織負責人的勝任力提升為目標, 研發符合Stac的課程模式, 在一定場景理論下, 通過辨認情景特點對典型場景進行選擇、任務目標指定、態度和行為描述、教練輔導。建立光盤數據庫其中包括光盤信息表、光盤類別表、用戶信息表、光盤題名、下載地址和時間等字段名稱, 設執行任務與資源任務處理階段并行總數分別為m和n, 設共有k個課程, 具體計算如下所示

(1)

其中mi和ni分別表示不同節點數值, 對其進行分布式處理, 為數據檢索提供支持。

2.2 檢索流程設計

隨著場景理論在Stac課程數據庫中的廣泛應用, 搜索引擎在執行任務過程中會產生大量噪聲信息, 該信息混雜在有效信息中, 嚴重降低了系統檢索效率。因此, 需要設計嚴密檢索流程, 其流程如下所示。

1) 當機器處于空閑狀態時, 需立刻從日程表中獲取合法地址, 并分派給空閑機器；當服務器不能使用代表協議禁止機器訪問時, 需立即終止當前訪問, 并重新分派任務。

2) 嚴密監視各個機器行為, 避免出現干擾網絡, 形成檢索誤差, 在機器獲取網絡信息后, 可直接傳輸給日程安排模塊, 該模塊會詳細分析其所包含內容, 將有用信息提交給機器DB Server, 以此填充數據庫資源量。

3) 中心DB Server中包含資源列表, 記錄資源保存情況, 在系統初始化階段, 機器DB Server會不斷獲取新信息資源。如果信息在保存階段就被丟棄, 則需設置一個新令牌模塊, 該令牌是由中心DB Server產生后傳遞給機器DB Server的, 該傳遞過程中所產生的新資源將按照統一格式全部寫入地址列表中, 然后傳遞給下一個機器DB Server, 不斷重復, 直至傳回中心DB Server中。而中心DB Server在去掉令牌, 將地址列表合并到資源列表中去, 進而生成新的資源列表, 供用戶檢索。

3 實驗

為了驗證基于場景理論的Stac課程數據庫自動檢索系統設計有效性, 需先根據系統總體結構和軟件功能對信息資源進行采集, 完成最基本檢索任務。該實驗側重對檢索流程進行驗證, 通過對比傳統系統查全率和噪聲影響情況, 分析該系統性能。

3.1 實驗數據分析

自動檢索系統由硬件與軟件兩部分組成, 其中硬件可直接發送動態響應信息, 并對數據庫直接訪問, 而軟件部分可為數據檢索提供支持。分析Stac課程中基層黨支部最應該面對的問題, 以該問題為索引進行數據檢索。Stac課程需要容納的問題如表1所示。

表1 Stac課程需要容納的問題

將表1所示問題通過硬件索引引擎輸入系統中, 再經軟件檢索流程, 實現Stac課程數據庫自動檢索, 滿足用戶需求。

3.2 系統召回率對比結果與分析

圖4 不同檢索時間索引建立性能比較Fig.4 Performance comparison of indexestablishment with different retrieval time

結合表1Stac課程需要容納的問題, 在系統中輸入關鍵字, 根據關鍵字檢索出的相關頁面, 設該頁面有150個左右, 每頁都會存在固定短語35個, 此時存在5 250個預備數據。合理設置檢索時間, 能顯著改善系統性能, 在增加檢索任務同時, 保證軟件部分負載均衡, 使系統具有更好執行能力。因此, 設置檢索時間, 以3、6、9、12 Map Slot為檢索時間, 驗證其是否影響檢索性能, 根據運行狀態進行實時調整。

由圖4可知, 建立在34、35、36、37的索引都是使用12個 Map Slot作為檢索時間, 且運行時間耗費最多, 而其他運行時間耗費較少。而建立在38上的索引, 使用12個Map Slot的運行時間達到78 s；使用9個Map Slot的運行時間達到74 s；使用6個Map Slot的運行時間達到55 s；使用3個Map Slot的運行時間達到85 s。由于數據量選取較小, 因此, 使用12個Map Slot時, 檢索性能較高。

圖5 兩種系統查全率對比結果Fig.5 Comparison of recall rates of the two systems

在該條件設置下, 將傳統系統與基于場景理論查全率進行對比分析, 對比結果如圖5所示。由圖5可知, 當實驗次數為10次時, 使用12個Map Slot基于場景理論檢索系統查全率比傳統系統查全率高33%；當實驗次數為20次時, 基于場景理論檢索系統查全率比傳統系統查全率高27%；當實驗次數為30次時, 基于場景理論檢索系統查全率比傳統系統查全率高26%；當實驗次數為40次時, 基于場景理論檢索系統查全率比傳統系統查全率高53%；當實驗次數為50次時, 基于場景理論檢索系統查全率比傳統系統查全率高56%。

根據上述可知, 基于場景理論檢索系統查全率較高, 說明該系統所設計的檢索流程是有效的。

3.3 檢索精準度對比結果與分析

傳統系統受到噪聲影響, 導致檢索精準度較低, 為了驗證基于場景理論檢索系統不會受到噪聲影響, 而具備良好檢索精準度, 需對這兩種系統進行對比分析, 結果如表2所示。

表2 兩種系統檢索精準度對比

由表2可知, 當實驗時間為20 s時, 基于場景理論檢索系統檢索精準度比傳統系統檢索精準度高0.441 9；當實驗時間為40 s時, 基于場景理論檢索系統檢索精準度比傳統系統檢索精準度高0.613 8；當實驗時間為60 s時, 基于場景理論檢索系統檢索精準度比傳統系統檢索精準度高0.441 4；當實驗時間為80 s時, 基于場景理論檢索系統檢索精準度比傳統系統檢索精準度高0.352 6；當實驗時間為100 s時, 基于場景理論檢索系統檢索精準度比傳統系統檢索精準度高0.639 5。

根據上述可知：基于場景理論檢索系統不會受到噪聲影響, 具有較高檢索精準度, 當實驗時間為100 s時, 其檢索精準度達到最高為0.985 4, 由此說明該系統所設計的檢索流程是有效的。

4 結語

基于場景理論的Stac課程數據庫自動檢索系統是以自然語言形式輸入的查詢文本, 從數據庫中獲取相似數據。通過對自然語言查詢文本進行詳細理解, 能對相似度計算方式進行研究。對于以往常見的檢索系統, 經過場景理論分析, 提出了完整設計方案, 同時保證信息檢索的可靠性, 使整個檢索過程更加自動化, 極大縮短檢索時間。通過對比系統查全率和檢索精準度可知, 該系統查全效果較好, 且檢索精準度較高。

雖然該系統設計具有98%的檢索精準度, 但仍存在不足之處。對于Stac課程數據進行語義分析, 需注入權重, 確定檢索中心, 提高系統檢索精準度, 這是系統進一步發展需求, 也是提升系統性能主要內容。隨著數據庫模式不斷擴大, 對于優化數據庫檢索算法也是具有實用性的, 因此, 在今后研究進程中, 結合現有研究成果加以改進, 爭取獲得性能更加完美的系統。