?

西藏特產知識圖譜的構建

2023-10-07 03:17郭鳳鄭慧敏劉菲洋
西藏科技 2023年8期
關鍵詞:特產本體圖譜

郭鳳 鄭慧敏 劉菲洋

西藏民族大學信息工程學院,陜西 咸陽 712000

非物質文化遺產是中國優秀傳統文化的重要組成部分,是中華文明五千年來綿延傳承的生動見證。觀研報告網發布的報告顯示,截至2021年末我國共有國家級非遺項目3610 項,國家級非遺代表性傳承人3068人??梢钥闯?,我國在少數民族非遺保護工作方面取得了比較顯著的成就[1]。西藏人民在西藏這片土地上創造出了許多獨特的民族文化,并形成了他們自己獨有的飲食習慣和風俗。非遺文化往往因為不被人們熟識和缺乏傳承人而難以被保護,為了讓非遺文化被更多人所熟知,同時也為了讓西藏特產被更多人所了解,本論文利用知識圖譜技術將西藏特產可視化展現出來,通過知識圖譜技術來向人們介紹西藏特產,讓人們更好的了解西藏特產,了解西藏,能更好的傳播西藏的非物質文化遺產,達到對西藏非物質文化遺產進行保護和傳承的目的。

1 研究背景

經過多年的發展,知識圖譜在人工智能的許多行業如語義搜索、地圖解析、信息處理等獲得了廣泛的應用,成為了現代自然語言處理技術發展的技術中心和有力工具[2]。例如本論文所涉及的西藏特產相關知識整體利用知識圖譜聯系起來,簡潔快速地回答復雜的業務問題,甚至知識圖譜技術可以讓AI更加高效。

傳統的非遺文化與新時代之間總存在摩擦,如何讓非遺文化在融入當代社會的基礎上更好地保留其自身的獨特性,是非遺文化繼承和保護的重點[1]。當前國內對于西藏特產知識圖譜的整理、建模、數據分析和挖掘研究比較少。本論文研究通過建立西藏特產知識圖譜,對西藏特產知識及其關系進行關系梳理、分類、整合和建模,為西藏特產的研究提供全方位、整體性、關系鏈的參考,同時為西藏特產文化傳承保護及其研究提供數據來源和依據。

2 技術路線

2.1 技術簡介

知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯關系的技術方法,能夠用概念、實體以及它們之間豐富的關聯關系將知識進行結構化組織。知識圖譜是包括實體(Entity)、概念(Concept)及其之間的各種語義關系的一種大規模語義網絡,通常表示為典型的圖結構,即三元組?;谶@種圖結構,能夠將現實世界中所有的實體及實體間的關系,以一種統一的描述框架進行表示,如“實體-關系-實體”以及“實體-屬性-屬性值”的三元組組成[3]。這使得知識圖譜相對于純文本形式的知識而言對機器更友好。

Protégé 軟件是Stanford 大學基于Java 語言開發的本體編輯和知識獲取軟件,屬于開放源代碼軟件,主要用于語義網(Semantic Web)中本體的創建[4]。Protégé 提供了本體概念類、關系、屬性以及實例的創建,并且屏蔽了具體的本體描述語言,用戶只需在概念層次上進行領域本體模型的構建[4]。

Neo4j 圖數據庫是一種利用圖形結構存儲和查詢數據的數據庫系統,其基本組成結構是:節點、關系和屬性[5]。Neo4j 圖數據庫是一種利用圖形結構存儲和查詢數據的數據庫系統,它具有圖形結構數據存儲和便利的功能,解決了關系型數據庫存儲圖結構數據時出現的空間浪費等問題。

2.2 知識圖譜的構建

互聯網上的數據大多都是結構化、非結構化和半結構化的。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。比如對特產的描述,可能是一段文本或是一張圖片,這就是非結構化數據,但這些數據里面已經存儲了一些信息,反映出知識圖譜里西藏特產的一些屬性,所以需要對數據里面的信息進行抽取。本論文中的數據幾乎為非結構化數據,故對其它兩種數據類型不再進行過多的贅述。

從數據里需要抽取的信息是實體、屬性、關系。例如,在一段信息里面,提取出牛瓊以及易貢藏刀這兩個實體,然后再進行一個關系提取。經過分析,會產生一個對應關系,牛瓊是易貢藏刀的傳承人。另外還有屬性提取,比如易貢藏刀的產地是西藏自治區林芝市。在這些提取完成之后獲取的數據信息都是比較零散的,我們需要對獲得的信息做一個整合。

整個構建過程中需要運用知識抽取、實體對齊和實體消歧[6]。關于實體對齊,舉例來說,珞巴柳葉刀藏刀是中文名稱,Lhoba Lancet 是它的英文名稱,但其實這兩個指的是同一個實體。由于文本的不一樣,開始的時候導致這是兩個實體,這就需要我們對它進行實體對齊,把它統一化。在本項目中,針對這兩個實體,我們將英文名稱設置為實體的一個屬性。同理,實體消歧也是如此。

信息抽取結束后,進行本體抽取。如之前提到的易貢藏刀和珞巴柳葉刀,它們的本體是藏刀。從文本里面可能無法直接提取出來,需要一些方法對他們進行抽取。然后搭建出本體庫,比如藏刀是特產中的一個類別,它是有上下流關系的。對于同一級別的實體也需要計算他們的相識度,比如易貢藏刀和珞巴柳葉刀在實體層面,它們是比較相似的,它們都屬于藏刀這個本體。

一個知識圖譜可以視作三元組的集合。構建知識圖譜是一個迭代更新的過程。本論文“西藏特產關系知識圖譜”采用自頂向下的構建方式,并使用Protégé 建模工具構建模型,其主要關鍵技術構架如圖1所示。

圖1 知識圖譜的關鍵技術構架圖

3 構建基于Neo4j的西藏特產知識圖譜

3.1 數據獲取

利用網絡爬蟲技術在百度百科、谷歌瀏覽器、知網等多處網站搜集需要的西藏特產的數據資料,將需要的數據保存成.csv 文件。本研究的數據內容包括每個特產的名稱、類別、用途、藏文表示等,這些數據都為文本內容信息。

表1 西藏特產搜集的數據(部分)

3.2 信息抽取

3.2.1 實體抽取。實體抽取是一項非常常見的NLP任務,實體抽取也就是命名實體識別,包括實體的檢測和分類[7]。本研究依據特產的特定特征,采用人工預定義實體分類體系的方式,輸出該領域的高質量詞語。本論文將實體分為三類,分別是特產、人物、地區。通過人工清洗的方法,依據百度詞條的詞條分類,將特產分為哺乳類、藏刀、藏毯、藏香、藏鞋、藏族服飾、藏族藥膳、茶類、豆類、蜂蜜類、服飾材料、干果類、糕點、哈達、葷菜類、酒類、面具、奶制品、鳥類、其它、食材、飾品、水果、素菜、唐卡、小吃、魚類、中藥材類、主食共29 大類,每一類的特產具體到了產地、特征/特色、英文名、藏文表示等,并將“地區”類細分為“省/區級地區”和“市縣地區”兩大類。

3.2.2 關系抽取。關系抽取主要用于從非結構化文本數據中識別實體對象及實體間語義關系,將非結構化的文本數據轉化為結構化的知識。本項目采用基于規則的方法依賴人工編寫關系規則,在文本中匹配符合關系規則的信息,從而實現實體關系的抽取。本論文創建兩個不同類之間的關系為“產自”“傳承人”,即一種特產產自哪一地區,特產的傳承人是誰,論文中沒有設置人物和地區之間的關系。例如:拉孜藏刀產自日喀則市,它的傳承人是次旦旺加、瓊巴拉、普達瓦、普布。

3.2.3 屬性抽取。屬性抽取是給定一個實體以及該實體的描述文本,從文本中抽取出與該實體相關的屬性及其屬性值[8]。結合所構建的西藏特產關系知識模型,抽取特產名稱,藏文表示,類別,英文名,特色等關鍵屬性數據。

3.3 構建模型

本項目模型的構建使用的是Protégé。依據確定的特產本體核心類,利用Protégé 工具對特產本體類與關系屬性進行創建,創建“特產”“傳承人”“地區”三個大類,再在“特產”類下將其細分為“藏刀類”“藏毯類”“藏鞋類”等29大類,將“地區”類細分為“省/區級地區”和“市縣地區”兩大類。創建類之間的關系“產自”“傳承人”,創建特產類的屬性“外文名”“特色/特性”和“別稱”。將獲取到的屬性導入,形成西藏特產關系應用本體,其構建本體的部分截圖2~5。

圖2 構建實體屬性

圖3 地區實體

圖4 人物實體

圖5 構建本體展示(部分)

3.4 知識存儲

Neo4j有多種數據導入的方法,本論文使用將.csv數據導入Neo4j中進行存儲。將所獲取的實體、關系存放到.csv 文件中,通過對數據的分析,創建了三個.csv文件,分別為s.csv、tt.csv、kk.csv。其中s.csv和tt.csv為實體文件,kk.csv 為關系文件,將搜集的.csv 文件存入Neo4j/import文件夾下后啟動Neo4j,把數據導入Neo4j中,形成項目所需的數據庫。如下表2~4,圖6~7。

表2 實體文件s.csv

表3 實體文件tt.csv

表4 關系文件kk.csv文件

圖6 數據本體

圖7 特產屬性(部分)

4 可視化研究

網頁布局是網頁設計開發工作的重要組成部分,通過合理的網頁布局能夠實現網頁功能的精準定位,增強網頁展示效果,使用戶能夠在較短的時間內找到目標元素[9]。本項目主要通過使用HTML5 和D3.js 來實現知識圖譜在網頁中的可視化。D3.js 是一個開源Java Script 庫,用于瀏覽器中創建交互式可視化[10]。D3.js 可視化庫將力導向圖的繪制功能封裝在庫包之中,有效地調用相關工具可以將相應的實體和關系導入即可實現網絡關系的可視化。

本文將.csv 文件中的西藏特產數據導為后綴名為.json 的文件,并對.json 文件進行一定的修改,便于網頁前端的使用。利用HBuilder 建立了名為Tibetan Specialties 的項目,在此文件夾下放置多個目錄文件,再將.json 文件放入data 目錄下,在項目文件下創建.html文件,并創建后綴名為.css 的文件設置網站格式。前端和后端的數據利用.json 文件進行傳輸交互,將Neo4j中的數據引入在.html文件中,在.html文件中編寫搭建網頁的前端代碼,讓前后端進行聯系。而后運行代碼,使.json文件中連接的數據庫里面的數據直觀的在網頁里顯示出來,實現知識圖譜的可視化。用戶可以通過網頁右端的粉紅色搜索框中根據左端的類別進行相關搜索,同時也可以點擊左端圖例查看不同類別下的特產,找到用戶所需的信息,從而更加深入地了解西藏特產。展示效果如下圖8~9所示。

圖8 西藏特產類別展示

圖9 西藏特產中藥材類網頁展示

5 結論

本論文首先介紹知識圖譜項目構建背景,然后介紹知識圖譜、Protégé、圖數據庫Neo4j 的定義,根據西藏特產知識圖譜的構建流程,對獲取到的數據進行篩選清洗預處理,完成數據的存儲。利用Protégé本體建模工具進行語義網絡的模型構建,利用Neo4j圖形數據庫存儲西藏特產知識圖譜。在制作好的知識圖譜中包含了有關西藏特產的藏文名、產地、特色等等,形成較為完善的知識圖譜。構建的知識圖譜具備一定的搜索功能,讓西藏特產分類一目了然,從圖譜中我們可以清楚的了解到西藏地區的特產,幫助人們快速尋找信息從而了解有關西藏特產的信息資料。同時該圖譜可以給需要西藏特產的買家提供便利,用知識圖譜的方式呈現出較為方便完善的西藏特產信息資料,便于買家查找了解,從而購買適合的西藏特產。我們通過創新的方式利用知識圖譜將西藏特產推廣給大眾,讓人們進一步了解西藏特產,了解西藏。

6 不足

當前知識圖譜技術已經被廣泛用于處理結構化數據和文本數據,但本項目在構建和實施過程中對人工的依賴程度還較高,導致構建成本高、效率低,在相對通用的知識圖譜中自動化、大規模、高質量的構建技術扔有待探索。

本項目研究還存在一些不足,項目數據大多來自互聯網搜索,并沒有去西藏實地考察,特產種類沒有足夠齊全。搜集并發現更多的西藏特產,完善和拓展知識圖譜,找到更多詳細的特產特征,增加其它多種節點和關系的屬性展示是進一步要完成的工作。在有一定條件的基礎上去西藏地區實地考察,這一方法對本項目研究西藏特產知識圖譜有重要意義和一定的促進作用。

猜你喜歡
特產本體圖譜
繪一張成長圖譜
江陰特產——馬蹄酥
歡迎訂閱《中國林副特產》
補腎強身片UPLC指紋圖譜
基于本體的機械產品工藝知識表示
2016年農特產微商的發展趨勢
主動對接你思維的知識圖譜
《我應該感到自豪才對》的本體性教學內容及啟示
杭州特產
專題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合