?

自然語言處理與信息檢索系統分析

2020-07-22 09:57曾照華
數字技術與應用 2020年6期
關鍵詞:應用系統自然語言處理

摘要:自然語言處理是能夠實現人機間利用自然語言進行相互通信的重要手段,幫助計算機能夠迅速理解自然語言所表達的含義,最常見的運用自然語言處理技術的應用系統是信息檢索系統。本文從自然語言處理、信息檢索系統以及自然語言處理在信息檢索系統中的運用三個方面進行簡要闡述,以供參考。

關鍵詞:自然語言處理;應用系統;信息檢索系統

中圖分類號:TP391 ?文獻標識碼:A ? ? 文章編號:1007-9416(2020)06-0000-00

0引言

隨著科技水平的不斷提高,針對信息檢索系統的應用變得越來越廣泛,讓與內容查找有關的操作變得越來越輕松,然而信息檢索操作需要在特定的應用系統中將自然語言處理技術進行有效的運用,才能夠達到查詢相應的內容,因此自然語言處理是實現信息檢索系統功能的核心內容。

1自然語言處理的技術難點

1.1內容的有效界定

日常生活中句子間的詞匯通常是不會孤立存在的,需要將話語中的所有詞語進行相互關聯才能夠表達出相應的含義,一旦形成特定的句子,詞語間就會形成相應的界定關系。如果缺少有效的界定,內容就會變得模棱兩可,無法進行有效的理解[1]。例如他背著母親和姐姐悄悄的出去玩了。這句話中如果不對介詞“和”作出界定,就很容易形成母親和姐姐兩個人不知道他出去玩,或者是母親不知道他和姐姐出去玩。

1.2消歧和模糊性

詞語和句子在不同情況下的運用往往具備多個含義,很容易產生模糊的概念或者是不同的想法,例如高山流水這個詞具備多重含義,既可以表示自然環境,也能表達兩者間的關系,甚至是形容樂曲的美妙,所以自然語言處理需要根據前后的內容進行界定,從中消除歧義和模糊性,表達出真正的意義。

1.3不規范的內容

許多情況下,出現的詞句內容存在不規范的情況,利用自然語言處理時需要根據對應的內容進行判斷,或者是對不規范的內容進行校正,從而形成正確的內容。例如輸入過程中文字的拼寫或者語音輸入時帶有方言的口音等情況時,需要進行相應的調整,才能是正確的內容。

2信息檢索系統基本原理

2.1信息標引和存儲

信息檢索系統的主要目的就是幫助查詢必要的信息內容,然而信息檢索系統在獲取特定的查詢條件后,需要將信息內容進行標引處理,也就是利用特定的檢索語言、標識符、主題詞等對信息進行標記,確定查詢條件中的內容類別,便于有針對性的進行檢索。標引完畢后將被標引的信息進行存儲,讓其具有特定的序列,再按照順序進行有效組合,作為信息檢索的主要工具或相關文檔,也就是將查找條件進行有歸納整理的過程。

2.2需求分析與檢索

查找條件已經被有效的歸類,接下來就需要進行需求的分析,即已經被標引的內容在信息檢索系統中所對應的內容和檢索方向。做好需求分析后,利用系統內部的檢索方式將已經存儲的被標引內容進行檢索,才能夠找到與被指定的信息相對應的內容,避免了產生很多與信息內容相關但又并非是需要查找的內容,產生大量的數據冗余,造成數據資源的浪費,也會占用許多的系統資源。

2.3內容判斷與反饋

檢索的過程中會根據檢索的情況產生相應的結果后,需要信息檢索系統對內容的判斷的過程,無論查找的信息內容在系統中是否存在對應的內容,都會進行內容相關性的判斷,也會根據判斷的結果來對檢索的情況進行反饋[2]。當系統中存在檢索的內容時,系統就會將內容迅速的顯示出來,相反情況下,系統中沒有檢索到對應的內容,就會給予相應的提示來作為內容的判斷與反饋,這樣用戶就可以進行直觀的辨別。

3自然語言處理在信息檢索系統中的運用

3.1檢索條件的處理

信息檢索系統進行檢索前將條件內容進行處理是首要的環節,也就是對特定的句子或詞語進行整理。整理的過程中只有運用自然語言處理技術才達到有效處理的效果,畢竟檢索的條件內容在格式和規范方面存在許多的不確定性,需要先對內容進行相應的處理,讓其變得規范化,能夠達到信息檢索系統中的要求,便于計算機系統能夠有效的識別,才能夠讓信息檢索系統進入正常的工作狀態,發揮其信息檢索的功能。

3.2信息內容的匹配

信息檢索系統在進行檢索過程中需要對內容進行匹配,也就是查找對應的內容,然而查找過程中特定的信息內容會被做好相應的標引操作,這種方式能夠將信息進行有效的標記和分類,但當中的很多內容都會被分離,變成特定的部分內容,比如文獻的名稱、類別、姓名等,當這些內容被做好標記和分類后就會作為檢索時的索引,只是信息檢索系統中的數據內容過于冗雜,信息量極大,只是針對單個的被標記的索引進行查找自然會有許多的內容,此時就需要將被標引的部分進行有效排序,并利用自然語言處理重新進行語句和詞語的界定,形成相互間的聯系,消除模糊性,這樣就能夠讓檢索的內容變成指定的關聯內容,系統內的檢索方法會根據該內容進行有針對性的查找,這樣就能夠將許多不必要的內容進行過濾,只留下相同的部分[3]。

3.3檢索結果的輸出

查詢到準確的結果,是用戶利用信息檢索系統的最終目的,檢索結果的輸出也就成為了信息檢索系統的必要環節。系統利用被標引的內容作為索引,通過simhash等各類算法在存儲大量數據的數據集中查詢到相應的數據內容后,會將查詢的結果作為初步的查詢結果,便于確定查詢結果的范圍并進行判斷。除了對查詢結果的狀態信息進行判斷外,還要對檢索內容的順序進行校驗,只有狀態信息與順序都得到保證,才能夠確保檢索條件與結果的精準度。至于檢測已經存在結果,進行完全輸出呈現操作前,信息檢索系統需要通過自然語言處理將查詢到的結果還原為與檢索條件相同的內容,這樣確保了檢索過程中關鍵詞匯與語法的正確運用,即便是檢索內容的關鍵詞匯與檢索條件存在差異,但是在顯示過程中語法不會出現問題,保證檢索前后信息結構的一致性,而且檢索結果以目錄的形式展現出來時,也能夠讓截取到的關鍵詞匯處在語句的正確位置上,對關鍵信息的截取和突出顯示都能相互對應。更好的幫助用戶迅速找到與檢索條件內容相同或相似的信息進行調用,提高對檢索結果的使用效率。

4結論

綜上所述,自然語言處理與信息檢索系統有著緊密的聯系,也是信息檢索系統的關鍵內容,只有將自然語言處理技術不斷的進行完善才能夠為信息檢索系統提供有效的幫助,優化信息檢索系統的功能,提升信息檢索系統的工作效率,達到更加快捷的提供信息服務的目的。

參考文獻

[1]李娟,曹晨.大數據時代信息檢索系統的發展[J].中國科技信息,2020(9):105-106.

[2]仲遠.自然語言處理在信息檢索中的研究和應用[D].鎮江:江蘇科技大學,2019.

[3]章涵,張志昌.自然語言處理在信息檢索中的應用分析[J].電腦迷,2018(2):199.

收稿日期:2020-04-14

作者簡介:曾照華(1975—),男,山西太原人,碩士研究生,講師,研究方向:人工智能。

猜你喜歡
應用系統自然語言處理
基于組合分類算法的源代碼注釋質量評估方法
企業云平臺建設研究
詞向量的語義學規范化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合