?

基于本體和產生式規則的自主式交通系統演化研究

2023-09-27 09:47庹昊南何明帆唐進君
交通運輸研究 2023年4期
關鍵詞:實例本體要素

庹昊南,劉 佑,付 強,何明帆,唐進君,熊 宸

(1.中南大學交通運輸工程學院,湖南 長沙 410075;2.中山大學深圳校區智能工程學院,廣東 深圳 518107)

0 引言

智能交通系統(Intelligent Transportation System,ITS)通過融合人、車、路和技術,顯著改善了交通出行的安全、效率和環境問題。但隨著交通出行需求的轉變,用戶希望獲得“主動式”的系統服務,因此,自組織運作與主動服務成為交通系統發展的新方向。在此背景下,智能交通系統過渡到自主式交通系統(Autonomous Transportation System,ATS)[1],改變了交通系統的傳統模式,面向車輛協同服務[2]等業務場景,依托下一代通信、智能計算[3]等新興技術,基于感知、學習、決策、響應的自主化邏輯,形成了新一代交通系統指導框架。ATS 的構建過程參考了2005 年中國智能交通系統體系框架(第二版)[4],并將服務域由9 個拓展到12 個[5]。相較于ITS,ATS 出現了更多自主性元素,以提供主動式交通服務。

從系統論的角度,系統的結構、狀態等會在時間維度不斷發生變化[6],因而系統具備演化性。ATS 作為系統的一種,同樣存在演化機制,各要素之間的相互作用關系是推動其演化的主要動力[7],因此,研究ATS 要素之間的關系能夠推斷系統架構的變動,從而探索系統演化特性,闡釋自組織演化機制。既有研究多集中于交通方式、交通流、交通子系統能力的演化模型。顏姜慧[8]認為智能汽車是未來核心的出行方式,著重將智能汽車作為智慧交通系統自組織演化的序參量,定性地構建了智慧交通系統序參量方程,但對智能汽車以外的要素未做探討。趙學彧等[9]建立了軌道交通和公交的競合機制模型,解析了這兩種出行方式在不同時期的競爭合作關系的演化機制。Biham 等[10]基于動力學模型開展了交通流演化理論的研究。Younes 等[11]提出了一種流量評估和擁堵檢測協議,可以檢測城市網格布局區域中交通擁堵嚴重的路段,探究了擁堵隨時間的演變情況。馬慶祿等[12]根據交通流理論,構建擁堵演化模型,并對智能網聯車輛在不同滲透率下的擁堵情況進行了模擬,分析了不同滲透率對于緩解擁堵的效果。Sun等[13]將全球的機場、航線分別視為節點、邊,從復雜系統角度衡量了COVID-19對航空運輸系統的影響,分析了全球機場網絡的時空演變特征。邵志國等[14]基于生態學Logistic 模型,對區域交通基礎設施的演化動力進行了研究。

總體而言,當前演化機制研究或僅針對交通子系統,或忽視了系統內部要素之間的關聯性。面向整個交通系統架構,針對要素作用方式及其對交通系統網絡形態影響的研究較少。但系統工程強調整體性,只有全局考量結構、功能之間的關聯、制約和促進關系,才能準確審視系統的發展,以利于管理者作出決策。因此,研究交通系統要素的相互聯系和作用方式的變化,揭示宏觀交通系統架構演化機理,具有重要的現實意義。

鑒于此,本文以自主式交通系統為研究對象,基于文本挖掘的方法獲取若干系統要素;基于本體理論,建立多種要素之間的語義關系,構建自主式交通系統的知識模型;基于產生式規則的知識推理方法,推理自主式交通系統知識模型,并計算推理前后的網絡特性,對比分析交通系統要素間相互作用關系對系統演化的影響。

1 基于文本挖掘方法抽取ATS 本體要素

1.1 本體簡述及ATS本體要素抽取流程

本體(Ontology)作為描述事物的概念化規范[15],能夠使用明確的語言描述有限范圍內事物,并厘清研究對象的知識結構。本體擁有6 項基本要素:概念(Concept)、屬性(Property)、關系(Relationship)、實例(Instance)、規則(Rule)和公理(Axiom),通過搭建交通要素的層級結構和關聯關系,能夠形成交通本體,從而結構化表達交通領域知識,將交通領域的靜態知識與動態操作知識獨立開[16]。本體應用包括語義檢索、知識推理等[17]。

諸多研究[18-20]構建了交通系統或子系統的本體,但其構建過程依賴大量人工,主要原因在于提煉概念和發現實例的過程成本較高。為在一定程度上減輕人工干預,基于文本挖掘方法抽取概念和實例。本體的屬性、關系、規則通常由人工直接確定。抽取流程如圖1所示。第1.2節數據集成與預處理,作用是對原始語料進行數據整合和數據預處理,從而形成質量語料庫。第1.3 節、1.4 節分別構建LDA 模型和BERT-BiLSTM-CRF模型,從語料庫中抽取ATS 概念和實例。需要說明的是,由于ATS 是復雜的巨系統,對概念和實例存在一定約束,故而在概念抽取和實例抽取階段,會根據前向課題的輸出和ATS 構建需要,有針對性地進行人工校正。

1.2 數據集成與預處理

從政府部門網站、書籍報刊等數據源收集文本語料,滿足構建自主式交通本體的數據基礎。本文數據源主要包括交通系統框架方面的權威著作《智能交通系統體系框架原理與應用》[21]、國家相關管理規定如《道路危險貨物運輸管理規定》及其他文獻。形成的文檔庫包含了部分無關文本,對最終的語料庫而言是一種信息干擾,因此需要對數據進行預處理,提升語料的質量,同時也是為詞嵌入和特征研究作必要準備。

首先,經過文本分類,過濾資料文件,判別其是否屬于交通領域,剔除與交通無關的內容,例如交通應用程序接口設計文檔、數據傳輸協議文檔等不屬于研究范疇。其次,中文文本不同于英文文本,不以空格作為分隔符,無法直接清洗數據。因此,在數據清洗前必須對中文句子進行分詞處理,正確的分詞有利于提升概念抽取的準確度。分詞利用了Jieba分詞工具,并引入了用戶詞典,詞典中增加了交通領域詞匯以進一步提升分詞效果。分詞后的語料含有大量的數字字符、英文字符、標點符號等非常規字符,這些字符對于概念的表示沒有任何意義。同時包含了對建模意義不大的停用詞如連詞(“因為”)、常見詞(“章”)、虛詞、語氣詞等,以上出現頻率較高的詞語會影響整個語料的詞匯分布,因而有必要進行數據清洗。清洗無關字符和常用中文詞語的手段包括正則匹配后刪除、導入停用詞詞表后刪除。最后,詞性標注是為每個詞標注正確的詞類,包括名詞、形容詞、介詞等。詞性標注可輔助概念抽取,使模型僅輸出名詞類的結果。

1.3 概念抽取

狄利克雷分布[22](Latent Dirichlet Allocation,LDA),是基于三層貝葉斯概率模型的主題生成模型,該模型假設了“由文檔確定主題服從多項式分布、由主題確定詞服從多項式分布”的過程,其模型表示如圖2 所示。其中,M,K分別代表文檔數量、主題數;θm,φk分別代表文檔m的主題分布矩陣與主題k的詞分布矩陣,大小分別為M×K,K×V;α是文檔-主題先驗分布的Dirichlet 分布參數,β是主題-詞先驗分布的Dirichlet 分布參數;W,Z分別為可觀測詞及其潛在的主題。方框表示重復抽樣。首先,由Dirichlet 分布生成文檔di的主題分布從θm中抽取出主題Zm,n;其次,生成主題對應的詞分布抽取詞Wm,n?;赑ython第三方庫gensim.ldamodel[23]訓練LDA 語言模型,其關鍵參數包括:主題數num_topics=1,主題詞個數num_words=3,整個語料的訓練輪次passes=20,迭代次數iterations=1000,ID 映射字典采用BoW詞袋模型,α,β通過自動學習得到。

圖2 LDA主題模型結構

針對不同數據源,LDA 給出的結果及實際確立概念如表1所示。模型輸出結果的描述形式為:"主題詞"(概率)[24]。概率越大表明該主題詞越能代表數據源的中心詞。同時根據ATS 架構的需要,有針對性地對概念進行人工刪減和改動,從而確立出實際概念。

表1 基于LDA模型挖掘的概念示例

1.4 實例抽取

抽取若干核心詞語作為自主式交通本體的實例,盡管已經有成熟的關鍵詞抽取算法,如TFIDF、TextRank[28]等,但較為依賴詞頻,傾向于頻繁出現的詞,而上下文信息對于關鍵詞而言尤為重要。鑒于此,利用神經網絡BiLSTM 模型提取雙向文本信息,加上CRF 層最大概率確保臨近字符的依賴關系[29]。將BERT 作為預訓練模型,其作為一種自監督學習的端到端(End-to-End)模型[30],充分融合語境特征和語義信息,優化BiLSTM-CRF預測標簽的性能,從而增強實例抽取的效果。本文基于預先訓練好的BERT-BiLSTMCRF 實體抽取模型(模型結構如圖3所示,其中,X是簡略表示的實例標簽,O表示非實例),得到若干實例。同時參照自主式交通體系架構前向課題輸出的規范要素,確認了實例的命名。

圖3 BERT-BiLSTM-CRF模型

2 自主式交通知識建模及可視化

第1章獲取了自主式交通領域的概念和實例,第2 章則是將概念和實例通過一定的邏輯方式組織起來,形成自主式交通系統本體,即實現對自主式交通系統的知識建模。利用圖數據庫作為本體存儲的載體,并實現自主式交通系統本體的可視化。

2.1 自主式交通本體構建

自主式交通本體構建是定義概念及實例的組織方式,從而形成語義網絡。其過程包括4 個主要步驟[31](見圖4)。

圖4 自主式交通系統本體構建流程

步驟1:定義概念間的上下位關系。通過定義概念的包含與被包含關系,形成上下位概念的層級結構。如服務包含子服務,功能包含子功能等。關系用<概念A,關系,概念B>簡要表示,服務包含子服務可表示為<服務,包含,子服務>。

步驟2:定義概念間的非上下位關系。通過定義非上下位概念間的動作、過程等關系,形成概念間的實體鏈接,進一步形成概念網。非上下位關系包括<功能,應用,技術>,<子功能,應用,設備>等。

步驟3:定義概念的屬性。屬性是描述該概念特征、特性、參數的信息,可用來區分不同的概念,以屬性值對表示。

步驟4:填充概念的實例。實例是概念在數據層面的映射,是本體的底層對象。填充實例后,自主式交通本體構建完成。

經過上述步驟,形成自主式交通系統本體。圖5中展示的局部概念網絡主要圍繞ATS的服務,概念以有向線段連接,表示關系的方向。圖5 列舉了數據流的屬性作為屬性的說明示例。

圖5 自主式交通系統概念網絡

2.2 基于圖數據庫的自主式交通本體存儲

圖數據庫(Graph Database)是以節點和邊組成的數據庫管理系統。能夠可視化數據及其關系,能夠處理知識的語義關系是圖數據庫的優勢,應用包括本體存儲、知識檢索和知識推理等。ATS 本體存儲選擇圖數據庫TypeDB,相較于其他數據庫如Neo4J 而言,實現知識推理的成本更低。TypeDB 采用E-R 模型(實體-關系模型)作為存儲數據的策略,除關系用菱形表示外,其他與圖5 中的ATS 概念網絡表達方式基本吻合,因此是實施ATS 本體存儲及后續知識推理的理想工具。

基于圖數據庫TypeDB 的數據庫關鍵字組成操作語句,創建ATS 概念,指定概念間的關系,聲明概念具有的屬性,通過批量導入ATS 實例實現本體存儲。

2.3 本體可視化

數據庫的直接作用是查詢數據,圖數據庫不僅可以直接查詢某個ATS 目標要素,還可以根據語義關聯查詢鏈接的要素,并以圖的形式返回查詢結果。如查詢“車載視覺感知”子服務包含哪些功能,且要求功能的名稱包含“視頻”。

執行查詢語句,最終返回“車載視覺感知”子服務包含的“存儲導入與分析環境視頻數據”和“采集環境視頻數據”兩項功能及語義關系(見圖6)。其中,矩形表示實例,菱形表示關系,橢圓形表示屬性。

圖6 語義查詢結果

3 基于產生式規則推理的自主式交通系統演化

第2 章實現了自主式交通系統知識模型的構建,接下來對本體開展應用研究,即知識推理,其目的是挖掘要素間隱含關系[32],探究自主式交通系統演化機制。推理的方法為基于產生式規則的知識推理方法。

3.1 產生式規則

形成自主式交通本體后,能夠進一步實現知識推理。推理是為探究交通系統架構的演化機理,同時可以驗證自主式交通本體語義功能。知識推理的方法基于產生式規則,產生式規則由條件和結論組成。例如,存在條件為“A與B、B與C分別是朋友關系”。此時若假定規則為“朋友的朋友仍具有朋友關系”,則可以推導出結論為“A與C 是朋友關系”。產生式規則是動作函數的表達,能夠清晰地表達邏輯推理過程,適合解決在直觀性、可讀性方面有需求的規則表述問題。產生式規則有如下定義。

規則庫由眾多規則組成,表示為式(1):

式(1)中:R為規則庫;Ri為規則庫中的1 條具體規則。

規則Ri的書寫格式遵循語義網規則語言[33](Semantic Web Rule Language,SWRL)。其組成為條件體和執行體,規則定義如式(2)所示:

式(2)中:Pi為條件體,代表推理的前提;Qi為執行體,代表推理的推論。

條件體P通常由多個條件構成,如式(3)所示。

當所有條件為真(即條件滿足)的情況下,才能得到Q為真的推論。如式(4)所示,條件之間為“∧”(且)關系。

基于上述產生式規則,設定本體概念及語義關系為條件,推斷出的新關系為推論。因為實例是概念的個體數據,所以本體概念間的產生式規則可以指導實例的推理。因此,考慮基于產生式規則的知識推理方法,通過為自主式交通本體概念設立規則庫,推理實例層的關系變化。

3.2 實證分析

選取ATS 交叉口自動駕駛場景作為知識推理的示例。該場景由若干子服務組成,定義為車聯網環境下自動駕駛車輛通過交叉口。首先,依據知識模型,創建面向交叉口的自動駕駛場景要素網絡。其次,設立系統演化規則,輸入要素網絡中進行推理。最后,計算推理前后的網絡特征,分析要素網絡的演化機理。

3.2.1 系統演化規則定義

依據自主式交通本體,有針對性地設置演化規則。例如,子功能是對功能的拆解,子功能應用的技術和實現邏輯都與功能同步,通過功能與子功能的關系、功能與技術的關系、功能與邏輯的關系等設定演化規則。表2 展現了考慮概念相互作用所設定的自定義規則式。知識推理的特點在于不僅能夠實現如規則1 和規則2 的一次推理級別,還實現了如規則3的二次推理。二次推理是在一次推理的基礎上展開再次推理,其實質是利用一次推理的結論(<子功能,依靠,邏輯>),將其作為該條推理規則的條件,進而得到新的推論。

表2 系統架構演化的推理規則與推理級別

3.2.2 系統演化結果及分析

從局部觀察,ATS 系統演化的結果為要素之間產生了新的連線(虛線為加入推理規則后,推理得到的連線),“子功能應用技術”的關系在實例間被挖掘出來,該子功能“生成通信協議與轉化格式”與技術“計算技術”間建立“子功能應用技術”的直接關系。推理后的局部自主式交通本體見圖7。

圖7 推理后的局部自主式交通本體

從全局統計,推理前自動駕駛場景要素網絡共有706 條關系(見表3),網絡呈樹狀結構,如圖8(a)所示。推理后為1 169 條關系,呈多中心結構,如圖8(b)所示。借助推理方法,共推理出463 條新關系,實現了要素間隱含語義關系的挖掘,促使自主式交通系統的要素網絡演化,使得ATS要素網絡更加健壯。

表3 推理前后網絡性質對比

圖8 交叉口場景下ATS要素網絡推理對比圖

計算ATS 網絡性質指標,對比分析推理前后網絡發生的變化。計算指標包括平均度、平均路徑長度和圖密度,計算結果見表3。平均度是平均每個節點擁有的邊數量,由推理前的1.418 增加至推理后的2.347,印證了該方法推理出463 條關系的結果。平均路徑長度反映任意兩個節點之間距離的平均值,由推理前的1.940 降至推理后的1.745,表明連通任意兩節點所需中轉的次數越少,網絡效率越高。圖密度衡量網絡完整性,ATS要素網絡的圖密度增加了0.002,表明網絡由稀疏演化為稠密。本質上,ATS 的演化是一個從簡單到復雜、從非完備到逐漸完備的過程,系統通過不斷地挖掘要素之間的潛在通路,釋放系統架構的能力,滿足交通出行的需求。

4 結束語

本文首先基于本體理論建立了自主式交通知識模型,接著依據知識模型構建了交叉口自動駕駛要素網絡,利用產生式規則推理該要素網絡,研究了自主式交通要素的相互作用關系,通過計算網絡平均度等指標,對比分析了推理前后的網絡特征,從而得出結論:自主式交通系統的演化是其網絡形態從稀疏發展為稠密,網絡效率逐步提升的過程?;诒倔w的知識建模方法與基于產生式規則的知識推理方法探索了自主式交通系統架構的發展規律,能夠為交通系統演化機制研究提供思路。

本研究尚有不足之處:首先,LDA 主題模型和BERT-BiLSTM-CRF 提升了抽取要素的效率,減輕了人工干預程度,但為精確地響應自主式交通系統框架的定義,包括要素增刪與修正等工作仍需人工介入;其次,要素間的關系依靠人工定義,原因在于本體對關系的明確化程度要求較高,而關系自動化抽取的穩定性難以保證。在后續研究中將優化面向交通文本抽取關系的方法。

猜你喜歡
實例本體要素
Abstracts and Key Words
掌握這6點要素,讓肥水更高效
觀賞植物的色彩要素在家居設計中的應用
論美術中“七大要素”的辯證關系
也談做人的要素
《我應該感到自豪才對》的本體性教學內容及啟示
完形填空Ⅱ
完形填空Ⅰ
專題
Care about the virtue moral education
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合