AI虛擬導游在高職虛擬仿真實訓基地的應用研究

2024-04-14 04:54黃國榮劉煒

現代信息科技 2024年2期

黃國榮劉煒

DOI：10.19850/j.cnki.2096-4706.2024.02.020

收稿日期：2023-05-31

基金項目：廣東省教育科學規劃課題（2021GXJK617）

摘? 要：以廣州番禺職業技術學院為例，研究AI虛擬導游在高職虛擬仿真實訓基地的應用。文章首先介紹AI虛擬導游技術，其次分析AI虛擬導游的模型開發過程，分別從虛擬導游建模與骨骼綁定、ASR語音識別與TTS語音合成、Audio2Face基于面臉部表情訓練和識別，以及虛擬導游UE引擎實時驅動四個方面進行闡述，最后對AI虛擬導游在高職虛擬仿真實訓中的應用進行探討和分析。

關鍵詞：人工智能；虛擬導游；虛擬仿真實訓

中圖分類號：TP18；G434? 文獻標識碼：A? 文章編號：2096-4706（2024）02-0092-05

Research on the Application of AI Virtual Tour Guide in Vocational Virtual Simulation Training Base

—A Case of Guangzhou Panyu Polytechnic

HUANG Guorong， LIU Wei

（Guangzhou Panyu Polytechnic， Guangzhou? 511483， China）

Abstract： Taking Guangzhou Panyu Polytechnic as an example， this paper investigates the application of AI virtual tour guides in vocational virtual simulation training bases. It first introduces AI virtual tour guide technology， and then analyzes the model development process of AI virtual tour guide. It elaborates on four aspects： virtual tour guide modeling and bone binding， ASR speech recognition and TTS speech synthesis， Audio2Face facial expression-based training and recognition， and real-time driving of virtual tour guide UE engine. Finally， the application of AI virtual tour guide in vocational virtual simulation training is discussed and analyzed.

Keywords： Artificial Intelligence; virtual tour guide; virtual simulation training

0? 引? 言

根據《教育信息化“十四五”發展規劃》的指導，虛擬仿真基地在學生實踐能力和職業素養培養方面扮演著重要的角色。它為學生提供了真實的實踐場景和模擬環境，促進他們實際操作能力的提升和職業技能的培養。AI虛擬導游結合人工智能技術，具備導覽、講解和互動等功能[1-3]。廣州番禺職業技術學院的虛擬仿真基地作為示范性項目，在高職教育領域有廣泛的知名度和影響力。然而，隨著參觀人數的增加，基地面臨著接待任務繁重和人力不足的問題。本研究旨在深入探索AI虛擬導游在高職虛擬仿真基地中的潛力，并提出創新的接待解決方案，以提高效率和質量。通過研究問題和方法的設計，我們致力于深入研究AI虛擬導游的融合應用。研究的目標是為高職虛擬仿真基地提供創新的接待解決方案，并為推動AI虛擬導游在教育領域的發展提供實證研究和有益的參考。

1? AI虛擬導游技術簡介

AI虛擬導游綜合應用人工智能、虛擬現實和人機交互等技術進行設計開發，包括三個核心組件：前端用戶界面、后端算法模塊和輸出模塊。AI虛擬導游技術架構如圖1所示。

首先是前端用戶界面，它提供了用戶與虛擬導游進行交互的界面。前端用戶界面主要采用語音識別技術，用戶可以通過語音輸入與虛擬導游進行對話和互動。其次是后端算法模塊，它涵蓋了自然語言處理、語音識別等關鍵技術，能夠實現對用戶語義的理解、語音識別等功能。使用ASR語音識別將語音轉換為文本數據，然后調用人工智能知識庫返回問題的答案。最后，文本再被轉換成語音（TTS），經過深度訓練的虛擬導游由UE4引擎接收到語音數據實現實時驅動。目前人工智能智庫識使用了科大訊飛的SDK，這個知識庫包含了豐富的知識，虛擬導游可以通過調用知識庫中的數據來提供準確和有用的導覽服務。通過數據庫管理，我們還可以不斷增加知識庫的內容，使虛擬導游能夠提前學習和了解廣州番禺職業技術學院虛擬仿真基地的知識，提供更加專業和全面的導覽。

2? AI虛擬導游模型開發

圖2展示了虛擬導游制作的核心技術與流程。下面將分四個部分詳細說明虛擬導游模型開發的相關技術。

2.1? 虛擬導游建模與骨骼綁定

為了制作逼真的虛擬導游，我們采用了3D建模和渲染技術[4，5]，通過專業的建模軟件（Maya或Blender）進行人物建模和細節塑造，包括身體結構、面部特征和服裝等。隨后，用Maya軟件進行骨骼綁定，骨骼綁定是將虛擬人物的3D模型與骨骼系統相連接的過程。骨骼系統是由一系列關節組成的層次結構，模擬了真實人體的骨骼結構。在骨骼綁定過程中，模型的頂點被分配到相應的骨骼上，形成與骨骼之間的關聯關系，效果如圖3所示。這樣，當骨骼運動時，模型的頂點也會相應地進行變換和變形，從而實現虛擬人物的動畫效果。

2.2? ASR語音識別與TTS語音合成

ASR（Automatic Speech Recognition）語音識別和TTS（Text-to-Speech）語音合成技術在虛擬導游系統開發中的語音處理領域扮演著重要角色。它們是實現語音交互和語音應用的關鍵技術組成部分。ASR語音識別技術將人類的語音輸入轉換為文本形式，使計算機能夠理解和處理語音信息。該技術利用機器學習和深度學習算法，如循環神經網絡（RNN）和注意力機制，對語音信號進行分析和建模。它通過將語音信號與訓練數據中的語音模型進行匹配，識別出語音中所包含的語音單位，例如音素、單詞或短語。TTS語音合成技術則是將文本轉化為自然流暢的語音輸出。它通過模擬人類的語音產生過程，將文字信息轉換為可聽的語音。TTS技術也利用了機器學習和深度學習算法，如循環神經網絡和變分自編碼器（Variational Autoencoder），對文本進行語音合成模型的訓練。合成的語音可以具有多種音色和表達風格，使得聽者可以以自然的方式理解和接受信息。我們的ASR和TTS是調用科大訊飛的，下面是基于Python調用科大訊飛的語音識別（ASR）以及調用科大訊飛知識庫返回答案，再進行語音合成（TTS）的技術流程，如圖4所示。

具體步驟如下：

1）在科大訊飛開放平臺注冊一個賬號，在控制臺中創建一個應用，將會獲得一個唯一的AppID和相應的SecretKey。在Python代碼中導入科大訊飛的相關模塊，配置API相關信息，包括APPID、密鑰和API地址。

2）語音識別（ASR）：generate_signa函數用于生成請求的簽名，然后定義recognize_speech函數，該函數發送POST請求給語音識別API，并解析響應結果為JSON格式。最后調用recognize_speech函數進行語音識別，并根據識別結果打印相應的信息。

3）調用知識庫API：構建請求參數，包括用戶的問題和API密鑰。發送這些參數到知識庫API。通常，API的響應是一個JSON格式的數據，其中包含與用戶問題相關的答案。根據API的響應結果，可以解析返回的數據，并根據需要進行相應的處理。圖5是針對番職院虛擬仿真實訓基地創建的虛擬導游知識庫管理平臺，我們可以通過這個平臺添加虛擬導游的問題與答案，管理知識庫。

4）語音合成（TTS）：準備待合成的文本，構建請求參數，發送POST請求給語音合成API，并解析響應結果，獲取合成后的音頻數據。

2.3? Audio2Face基于面臉部表情訓練和識別

此外，虛擬導游還具備臉部表情識別和情感分析的能力。通過構建大規模的面部表情數據集并采用深度學習算法（如卷積神經網絡和循環神經網絡），我們訓練了人臉識別和情感分類模型。這些模型能夠識別用戶的表情狀態，并相應地做出回應和互動，提升用戶體驗和情感交互效果。

神經網絡模型的訓練通常涉及三個關鍵階段：數據采集制作、數據預處理和數據模型訓練，Audio2Face語音生成視頻過程模型如圖6所示。

在數據采集制作的第一階段，我們收集兩類數據：聲音數據和相應的動畫數據。聲音數據主要涵蓋錄制的中文字母表的發音以及一些特殊的爆破音，同時也包括盡可能多樣的發音文本。動畫數據則是根據錄制的聲音數據，在Maya軟件中根據模型的面部特征創建對應的發音動畫。如圖7所示，我們利用FACEGOOD的P1頭盔通過AVATARY來進行數據采集。第二階段是數據預處理階段，主要通過LPC（線性預測編碼）對聲音數據進行處理，將其分割成與動畫對應的幀數據，并導出Maya動畫幀數據。第三階段是數據模型訓練階段，其中將經過預處理的數據作為神經網絡的輸入，進行訓練直至損失函數收斂。通過這三個關鍵階段的處理，我們能夠為神經網絡模型提供高質量的訓練數據，使其能夠學習和模擬聲音與動畫之間的對應關系。這個過程是基于數據的驅動，通過充分利用聲音和動畫數據之間的關聯，實現了聲音到動畫的準確映射。

2.4? 虛擬導游UE引擎與實時驅動

如圖8所示，將虛擬導游模型放入UE引擎，利用UE引擎調整效果，包括模型貼圖、骨骼網格和防碰撞體，以及增加光影效果和真實感，使虛擬導游在虛擬仿真環境中呈現出逼真的外觀。先在UE引擎中安裝LiveLink插件，用于接收訓練視頻數據。然后運行項目，讓UE應用連接AI服務器，接收AI模型產生的驅動數據，繼而驅動虛擬導游。

通過以上的設計和開發過程，AI虛擬導游系統實現了高度逼真的虛擬數字人的制作和表現，并融合了語音合成、自然語言處理、語音識別和臉部表情識別等關鍵技術。該系統為用戶提供沉浸式的導覽服務和互動體驗，推動了虛擬導游與人工智能技術在教育領域的進一步發展。

3? AI虛擬導游在高職虛擬仿真實訓的應用

虛擬導游作為人工智能驅動的技術，擔任導覽應用、實訓課程的引導與輔助以及評估與優化的重要角色[6-11]，具體介紹如下。

3.1? 在高職虛擬仿真基地的導覽應用

如圖9所示，虛擬導游在高職虛擬仿真基地的導覽應用中，扮演著向參觀者提供詳細解說的角色。通過虛擬導游，參觀者可以了解虛擬仿真實訓基地的建設情況，并獲得對各種VR設備的詳細介紹。虛擬導游通過語音合成技術，以自然流暢的語音與訪客進行對話和交流。向參觀者介紹不同的實訓教室以及學校各專業的VR課程資源。通過虛擬導游的引導，參觀者可以深入了解虛擬仿真基地的設施和資源，增強他們的參觀體驗。

3.2? 在實訓課程中的引導與輔助

虛擬導游在高職虛擬仿真基地的實訓課程中發揮著重要的引導和輔助作用。他們通過與學生的互動，提供實訓課程的引導和指導。虛擬導游可以解釋實訓操作的步驟和注意事項，并回答學生提出的問題。通過與虛擬導游的交流，學生可以更好地理解和掌握實訓內容，提高實踐能力和技能水平。虛擬導游還能根據學生的學習進度和需求，提供個性化的實訓輔助，監測學生的操作并及時糾正錯誤，提供指導和建議，幫助學生順利完成實訓任務。

3.3? 在高職虛擬仿真基地的評估與優化

為了不斷提升虛擬導游的性能和用戶體驗，對其進行評估與優化是必要的。評估工作可以通過參觀者的反饋和評價，以及虛擬導游的性能指標來進行。參觀者的反饋可以通過問卷調查、用戶訪談等方式收集，以了解他們對虛擬導游的滿意度和體驗感受。同時，虛擬導游的性能指標可以通過技術指標和系統性能的評估來衡量，如語音識別準確率、對話交互的流暢性等?；谠u估結果，可以對虛擬導游進行優化。優化工作可以包括改進語音識別和自然語言處理技術，提升虛擬導游的對話能力和交互體驗。此外，還可以增加虛擬導游的知識庫和學習能力，使其能夠更全面地解答參觀者的問題。通過評估與優化，可以不斷改進虛擬導游的性能和功能，提供更好的用戶體驗和參觀效果。

4? 結? 論

本文探討了AI虛擬導游的開發技術，以及在高職虛擬仿真基地中的應用實踐。AI虛擬導游在導覽應用方面能夠提供個性化的導覽服務，通過語音合成和自然語言處理實現與參觀者的流暢交流，提升交互體驗。在實訓課程中，虛擬導游能夠引導和輔助學生，提供實訓指導和問題解答，幫助提高實踐能力和技能水平。虛擬導游在評估與優化方面發揮重要作用，通過參觀者的反饋和情感分析改進自身性能，提供個性化和情感化的互動體驗。雖然AI虛擬導游在應用實踐中展現了優勢和潛力，但仍存在以下局限性：語音識別和自然語言處理技術的準確性和穩定性需要進一步提高，虛擬導游系統的開發和維護成本較高，需要尋求更有效的開發和運營模式。

隨著持續的研究和創新，AI虛擬導游將朝著以下方向迭代發展：外貌的精致度將進一步提高，形象更加逼真，動作更加自然。AI虛擬導游將推動高職教育的發展，為人們帶來更精彩和有價值的體驗。它將不僅僅是一項技術的突破，更是人工智能與教育、文化、娛樂等領域融合的杰出典范，為我們構建一個更加智能、互動和豐富多彩的未來。

參考文獻：

[1] 騰訊研究院，騰訊云智能，創業黑馬.好看的皮囊到有趣的靈魂——數字人產業發展趨勢報告 [R/OL].[2023-04-30].https：//www.tisi.org/24879.

[2] 清華大學新聞與傳播學院，元宇宙文化實驗室.虛擬數字人研究報告2.0版 [J/OL].[2023-04-30].http：//www.100ec.cn/index.php/detail--6619418.html.

[3] 陳芳.AI虛擬數字人技術在融合媒體生產中的運用 [J].數字通信世界，2021（1）：21-23.

[4] REN Y，HU C X，QIN T，et al. FastSpeech 2： Fast and High-Quality End-to-End Text-to-Speech [J/OL].arXiv：2006.04558 [eess.AS].（2022-08-08）.[2023-04-26].https：//arxiv.org/abs/2006.04558v1.

[5] KARRAS T，AILA T，LAINE S，et al. Audio-driven facial animation by joint end-to-end learning of pose and emotion [J/OL].ACM Transactions on Graphics，36（4）：1-12[2023-04-26].https：//doi.org/10.1145/3072959.3073658.

[6] 郭全中.虛擬數字人發展的現狀、關鍵與未來 [J].新聞與寫作，2022（7）：56-64.

[7] 朱永瓊，宋章通，方浩.“文旅元宇宙”中虛擬數字人的應用 [J].傳媒，2023（3）：55-57.

[8] 徐琦.主流視聽媒體虛擬數字人應用創新與優化策略 [J].中國電視，2023（1）：102-107.

[9] 覃祖軍，楊靜.元宇宙中國教育范式研究視角下虛擬數字人輔助的雙師課堂教學范式實踐探索 [J].中國現代教育裝備，2023（2）：1-5.

[10] 李曉明，張賓，魏曉鵬，等.基于多模態智能交互的虛擬數字人 [J].電力大數據，2022，25（12）：36-43.

[11] 夏欽.虛擬數字人：好看的皮囊和有趣的靈魂缺一不可 [J].工會博覽，2022（29）：38.

作者簡介：黃國榮（1975.10—），男，漢族，廣東廣州人，工程師，本科，主要研究方向：信息技術、虛擬仿真；劉煒（1981.08—），男，漢族，甘肅平涼人，副研究員，本科，主要研究方向：信息技術、虛擬仿真。