蜣螂優化算法下“互聯網+營銷服務”虛擬機器人應用模型

2024-02-20 11:52周雨湉康雨萌錢旭盛

西安工程大學學報 2024年1期

何瑋,周雨湉,俞陽,康雨萌,朱萌,錢旭盛

(1.國網江蘇營銷服務中心,江蘇南京 210000;2.倫敦大學國王學院,倫敦 WC2R 2LS)

0 引言

伴隨著互聯網時代的蓬勃發展,各行各業都與互聯網進行了深度的捆綁。近年來,隨著國家電網網格化服務的深入推進,各種不同形式的電力營銷服務得到了長足的發展。但當前營銷業務仍然面臨信息化支撐不足,無法實現全過程閉環管控,亟需通過技術和管理的手段予以規范,更好地推動服務質量和服務效率雙提升[1-2]。然而,當前電力營銷部門人機交互水平存在局限性,造成客戶的實際需求難以實時得到響應,因此有必要對人機交互技術開展深入研究,保障電力客戶的用電需求[3-4]。

以虛擬機器人為代表的人機交互技術由于其對社會經濟的重要推動而頗受關注,其中主要的研究方向在于通過人工智能技術實現虛擬機器人的人機交互功能。文獻[5]研發可識別人體視覺手勢的人機交互平臺,主要通過Leap Motion傳感器設備抓取客戶手勢信息并完成特征提取,然后將特征量輸入到長短期記憶網絡中完成檢測識別。文獻[6]針對咽拭子機器人采集時可能出現的圖片瑕疵,提出一種高效自修復網絡,基于多尺度注意力機制抓取客戶表情,進而通過線性聚合的方法完成檢測。文獻[7]針對當前機器人知識圖譜庫的局限性,以知識圖譜波紋網絡為核心,引入實體嵌入方法,同時考慮情感和內容友好度,從而設計得到一種高效的人機情感交互模型。文獻[8]針對智能制造領域人與機器人的交互融合問題,自主研發了一種基于增強現實技術的互認知人機安全交互系統,以可穿戴增強現實設備充當基礎交互設備,完成機器人的虛實注冊與實際映射,全面采集三維信息,完成人機互認知輔助,該系統設計了可視化、運動檢測以及基于深度強化學習的機器人避障功能,從而實現了人機的安全融合。文獻[9]針對人機語音識別問題,利用改進的譜減法完成噪聲語音的高度降噪,并通過混合高斯-通用背景模型結合梅爾頻率倒譜系數特征完成對象鑒定,然后采用深度神經網絡設計相應的語音識別單元,有效實現服務機器人在人機交互過程中的快速響應。但是以上方法主要針對交互信號進行優化處理,以實現人機交互功能的進一步發展,忽略了機器人內部運轉性能的應用優化,在面對需要處理海量數據的電力營銷業務領域時,往往存在一定的局限性。

考慮到電網營銷部門在對接客戶時需要面臨各種各樣的需求(即海量的數據),故而數據驅動應當作為“互聯網+營銷”相結合的核心要點。深度強化學習由于自身具有較好的自主學習能力,能夠高效完成數據的快速學習,因此本文基于DBO算法改進的DQN設計得到面向電力客戶的虛擬機器人應用模型,根據客戶要求實時做出精準響應。

1 人機交互分析與關系框架設計

在研發電力營銷虛擬機器人時需要重點考慮與電力用戶的銜接和內部機器邏輯的自洽,因此首先要對其人機交互情況開展分析,并針對性地開展關系框架設計。

1.1 人機交互分析

當電力用戶連接互聯網與虛擬機器人產生交互時,用戶開始利用虛擬機器人應用程序編程接口完成指令派發,虛擬機器人在收到解碼后的指令后會對應用軟件進行操作或者調用,然后將軟件反饋的信息反饋至用戶,而之后用戶可以根據反饋結果選擇繼續向虛擬機器人派發指令或是改變指令。整個過程可以視為一種用戶-機器人-軟件的運作模型,其運作的流程如圖1所示。

圖 1 用戶-機器人-軟件運轉流程Fig.1 User-robot-software operation process

1.2 關系框架設計

虛擬機器人在實現與電力用戶的人機交互時其實現過程的整體關系框架自上而下依次是表征層、業務層、數據訪問層以及數據層共計4層,如圖2所示。

圖 2 人機交互關系框架Fig.2 Human-computer interaction framework

圖2中,表征層主要是面向電網營銷部門提供功能呈現,當虛擬機器人從該接口與電力用戶進行對接后,其保留的記錄可以供電力營銷部門進行查閱;業務層主要包括虛擬機器人的訓練、優化和任務執行,在虛擬機器人收到下達指令后,由該層對任務指令進行解析并開始執行訓練,最終完成整個任務,主要作用是提供算法支撐;數據訪問層的主要作用是實現數據的有效交換,在指令派發后,該層將指令所需的配置文件及代碼也一同派發,并在之后對以上文件進行解析,同時還負責任務的監測和傳輸;數據層的主要作用是對數據進行存儲,主要存儲對象包括json、txt和log等格式文件。

本文設計的虛擬機器人模型需要運行在以上關系框架下,在電力用戶派發指令后可以快速完成執行并實現整個流程的自主學習,然后在執行完任務后對用戶進行反饋。

2 基于DBO-DQN的虛擬機器人應

用優化模型

由于虛擬機器人在應用時往往需要在交互環境下實現智能計算,而智能計算往往需要強大的運算模型用于支撐。為了提升虛擬機器人的應用效果,需要引入更為智能的計算方法,實現虛擬機器人在人機交互過程中的響應效率,增強虛擬機器人的性能?？紤]到作為典型深度強化學習模型的DQN具有較好的計算性能,能夠兼顧運算的效率與精度,因此本文選取DQN優化虛擬機器人的應用性能,并針對DQN的不足開展改進,獲得DBO-DQN模型,用于虛擬機器人的智能計算,提升其運算效率,從而獲得性能優良的虛擬機器人應用優化模型。

2.1 DQN基本原理

DQN的本質是將強化學習與神經網絡糅合在一起的深度網絡[10]。在DQN中開展自主學習的主要個體是代理方[11],本文選擇虛擬機器人作為代理方。虛擬機器人在交互環境下開展操作,使得交互環境發生改變,然后將狀態與獎勵信息反饋至虛擬機器人。

定義S表征虛擬機器人收到的信息,主要是訓練環境狀態;動作A表征虛擬機器人在環境中的操作;虛擬機器人操作的獎勵信息定義為R。以上三者的關系為：如果虛擬機器人的操作達標,則訓練環境反饋獎勵為10,如若未達標則返回獎勵為0,如果發生虛擬機器人操作錯誤則施加懲罰信息為-10。

虛擬機器人在初始狀態S1下基于策略Ω獲取的獎勵加權和即為該狀態的表征函數ξΩ(S),也即反饋的預期總報酬,其計算公式可表示為[12]

(1)

式中：ω=[ω1,ω2,…,ωn]表征的是獎勵權重,主要用于調節當前和以后獎勵的重要性,總體加權期望為E[R|Ω,S]。

虛擬機器人處于St狀態時采取操作At與策略Ω獲取的期望總報酬可以定義為操作函數?(S,A),其計算公式可表示為[13]

(2)

DQN的實際運行情況主要決定于貪心因子ε、學習率α和折扣因子γ。其中ε主要決定DQN學習效果,α決定虛擬機器人學習的數值更新速度,γ決定未來虛擬機器人獎勵的折扣。

2.2 應用模型的構建

虛擬機器人在t時刻對學習環境進行觀測,進而按照策略Ω執行操作At,這時環境狀態由St變更為St+1,并反饋新的獎勵Rt+1至虛擬機器人。虛擬機器人按照獎勵Rt+1與狀態St+1執行操作,由此按照這一循環機制,虛擬機器人應用模型實現了自主學習,其自主學習流程如圖3所示。

圖 3 虛擬機器人應用模型自主學習流程Fig.3 Autonomous learning process of virtual robot application model

DQN中的Q函數可以求解任意狀態下執行操作的值,故而虛擬機器人可以按照最大預測值執行操作。而鑒于分開計算Q值會造成計算資源的浪費,因此利用向量值函數求解特定狀態時操作的Q值并反饋其向量[14-15]。在DQN中的輸出層產生Q值的輸出變量,任意操作均有相應Q值對應,考慮到虛擬機器人的回應類型有4個,因此設定輸出節點為4,其訓練總體架構如圖4所示。

圖 4 DQN訓練整體架構Fig.4 Overall architecture of DQN training

圖4的環境創建中,設定DQN的運行環境,進行數據預處理,完成數據樣本劃分和輸入;訓練環境設定DQN的初始結構及相應參數,同時設定DQN的初始訓練參數;訓練過程中,數據從DQN輸入層進入后,在隱藏層中迭代計算,最終根據目標函數限制條件輸出預測值。

2.3 DQN模型的訓練

本文DQN采用ε-greedy策略[16]完成操作選定,并在虛擬機器人在構建好的訓練環境開展DQN的訓練后輸出相應操作的預測Q值,由此整個應用模型運轉結束,整體流程如圖5所示。

圖 5 DQN模型訓練流程Fig.5 Training process of DQN model

圖5中,初始化DQN模型參數,設定訓練各參數值;判斷訓練是否到達上限,若是則直接結束,反之則繼續訓練;模型前向傳播,采用ε-greedy策略隨機篩選并執行操作A,然后觀察新狀態St+1并據此獲得獎勵Rt+1,然后使用St+1令DQN存儲最大Q值;判斷操作A結束后訓練環境是否關閉,若是則終止訓練,反之則繼續訓練;判斷St+1的合法性,若合法則計算目標值并輸入Q方程中進行計算更新,繼續迭代,反之則將目標值更改為Rt+1,訓練結束。

2.4 基于DBO的虛擬機器人應用模型優化

由于DQN的實際運行情況主要決定于超參數：貪心因子ε、學習率α和折扣因子γ,因此這3個超參數的最終值將會對DQN的學習結果造成影響。為了確保DQN具有較好的搜索性能,避免陷入局部最優,需要引入優化算法實現超參數的尋優。

DBO算法主要由蜣螂生活習性引申而來,其尋優能力強、收斂效率高[17],因此本文采用DBO算法優化DQN超參數。

蜣螂在滾動時利用觸角導航來確保糞球在滾動過程中保持直線前行,這一行為在模擬中需要讓蜣螂在搜索空間中按照設定的方向前進,且假設光強會影響蜣螂的前進路徑選擇[18],則在前進過程中蜣螂位置可以表示為

xi(t+1)=xi(t)+λkxi(t-1)+μΔx

(3)

Δx=|xi(t-1)-xworst|

(4)

式中：t表征目前的迭代次數;xi(t)表征第i只蜣螂在第t次迭代的位置;k∈(0,0.2)表征撓度因子,通常設為定值;λ為-1或1的常數;μ為(0,1)范圍內的定值;xworst表征局部最差位置;Δx主要用于光強的調節。

當蜣螂遇障難以繼續前進時,就需要重新滾動重新定位以制定新的路線[19]。為了模擬滾動定向行為,利用切線函數求解新方向：

xi(t+1)=xi(t)+tanθ|xi(t)-xi(t+1)|

(5)

式中：θ∈[0,π]表征的是撓度角度;xi(t)-xi(t+1)表征第i只蜣螂在不同迭代周期的前后位置差。

為了確保安全,雌蜣螂產卵位置極為重要,其邊界上下限應為

(6)

確定雌蜣螂產卵區后規定一次僅產生一個卵,式(6)表明邊界會動態變化,主要由ρ決定。而因此卵球位置也是動態變換的：

(7)

式中：Bi(t)表征第t次迭代時第i個卵球的位置,其中β1和β2均為1×N的2個獨立向量,N為優化問題的維數。

種群中小蜣螂的位置為

(8)

此外,種群中會存在偷竊者。假設xbf為食物最優搶奪點,則種群中偷竊者位置為

Di(t+1)=xbf+ζ·υ·(|Di(t)-xbest|+

|Di(t)-xbf|)

(9)

式中：Di(t)表征種群中第t次迭代時第i只偷竊者的位置;υ為1×N維的隨機向量且服從正態分布;ζ為恒定值。

則DBO-DQN的整體優化流程如下所示。

1) DQN網絡參數、DBO種群和算法參數初始化;

2) DQN中Q前向傳播,DBO根據目標函數求解全部個體適應度值;

3) 更新蜣螂位置并判斷是否越界;

4) 更新蜣螂最優位置及適應度值;

5) 重復以上步驟直到達到迭代上限,輸出全局最優解及適應度值至DQN中;

6) DQN采用ε-greedy策略執行操作;

7) 操作執行后檢測環境新狀態并獲取獎勵信息,基于新狀態持續前向傳播并保存最大Q值;

8) 選取操作行為,如果操作后環境未關閉則將目標值導入Q方程中持續運算更新;如果操作后環境關閉則表明無有效新狀態,目標改為Rt+1;

9)重復訓練流程直至迭代上限,若未到達則跳轉至步驟2),反之則輸出運算結果。

3 實驗分析

在獲得了相應的虛擬機器人優化模型以后,在特定的實驗環境下,從功能性、非功能性和安全性3個角度綜合檢測模型的實際應用情況,用以檢驗模型性能。

3.1 模型實驗環境

本文所設計的虛擬機器人應用模型的實驗主要是對用戶端和服務端開展實驗分析,所有實驗均在計算機上進行,主要基于電力營銷數據進行分析,實驗環境如表1所示。

表 1 實驗環境配置

3.2 模型功能性實驗

本文針對應用模型的已經實現的功能開展測試,主要節選DBO-DQN算法關聯部分的關鍵功能測試,采用電力營銷數據進行測試,其結果如表2所示。

表 2 應用模型關鍵功能測試結果

從表2可以看出,針對應用模型開展功能性測試,所選取的示例均實現了預先設計的功能,測試均通過,表明模型功能良好,可以用于實際應用。

3.3 模型非功能性實驗

模型的非功能性測試重點是檢測模型執行功能時的內存占用、運行時間、讀寫速度以及運轉情況,以上指標均可反映出用戶與模型開展人機交互時的模型的性能。由于指令、配置文件和高級代碼派發以及獎勵記錄占全部功能執行時內存占用的95%以上,因此重點針對以上4個功能進行非功能性測試,結果如表3所示。

從表3可以看出,當應用模型在執行功能時,其內存的占用相對較小,運行時間較短,磁盤讀寫速度較快,模型整體運轉良好,模型的非功能性測試結果為合格。

表 3 系統非功能性測試

3.4 模型安全性實驗

本文為了保證模型運轉時其內部數據對于不同使用群體具備可知性的同時兼顧數據安全,且不會對模型及其所嵌入的系統平臺造成破壞,所以需要測試模型的安全性,其結果如表4所示。

表 4 模型安全性測試結果

從表4可以看出,當不同的使用群體對虛擬機器人應用模型進行人機交互時,相互之間數據不可知,從而使得數據存在隔離,可以有力保障電力營銷數據的安全和電力用戶的隱私,并且未在使用時造成模型及其所嵌入的系統平臺的破壞,應用模型及其所嵌入的系統平臺運行正常,安全性良好。

4 結語

本文針對當前電力營銷智能化水平的不足,設計了一種基于蜣螂優化算法的“互聯網+營銷服務”虛擬機器人應用模型。針對電網營銷部門可能發生的用戶與機器人的人機交互情景開展了交互分析,并對人際關系框架進行了設計?？紤]到人機交互海量數據處理難的問題,基于DQN建立虛擬機器人自主學習模型,同時引入蜣螂優化算法完成DQN超參數的高效尋優,并將電力營銷數據輸入到模型中進行實驗測試。實驗結果表明本文設計的虛擬機器人應用模型通過了功能性、非功能性和安全性測試,能夠較好地實現人機交互功能,具有良好的實際應用能力,有力提升了電力營銷的服務質效。