基于前景理論的煤礦工人安全行為演化博弈

2023-12-13 13:25楊曉娟何耀宇

華北科技學院學報 2023年6期

楊曉娟,何耀宇

(太原理工大學,山西晉中 030600)

0 引言

2022年煤炭消耗總量占能源消耗總量的56.2%,煤炭在能源供應中占較高比重[1],煤炭在我國經濟發展中發揮著重要的作用。安全是煤礦發展的主要主題。然而,煤炭行業作為高危行業,安全生產事故頻發,2022年煤礦事故死亡人數達到245人,煤炭百萬噸死亡率達到5.4%[2],安全生產形勢嚴峻。因此,對煤炭企業安全行為進行研究意義重大。

現有的研究表明,煤礦工人的不安全操作是導致煤礦安全事故發生的直接原因[3]。劉喜軍[4]通過分析2011—2018年的煤礦事故發生原因,發現人為原因是造成煤礦工程安全事故的主要原因。因此減低煤礦工人的不安全操作,可以有效減少煤礦安全事故的發生。安檢員作為煤礦工人安全的監管者,其監管力度對煤礦工人安全行為有顯著影響。劉全龍[5]構建了國家監管機構、地方監管機構和煤礦企業三個種群組成的演化博弈模型,發現在動態獎懲機制情形下,監管群體嚴格監管時可以顯著提高員工選擇安全操作行為的動機,監管群體不嚴格監管時煤礦工人更容易出現不安全行為。

影響煤礦工人安全操作的因素有很多,除了安檢員的監管力度外[6],煤礦工人安全操作的心理安全意識和價值感知也至關重要。李乃文[7]從認知心理學角度分析了情緒耗竭、工作注意力與工作不安全感的關系,發現工作不安全感會影響到員工的安全行為。韓帥[8]通過建立礦工群體和監管群體的雙方演化博弈模型,發現成本感知和效價感知是影響礦工和安檢員安全行為的主要因素?；诖?本文除了考慮到礦工安全操作的成本感知和基本工資價值感知,還要考慮到所獲得的獎勵和處罰感知的影響。

演化博弈論在安全行為研究方面應用廣泛,如建筑工程安全施工監管[9]、藥品質量安全監管[10]、煤礦工人安全行為監管[8]。然而傳統演化博弈論的收益支付矩陣是基于期望效用理論中的期望效用組成,與現實中決策者的實際效用存在偏差,Kahneman、Tversky通過研究博弈主體的決策行為,提出前景理論來解釋期望效用和實際效用的偏差。之后前景理論廣泛的應用于人的行為研究中,如周國華基于前景理論對施工人員安全管理行為進行研究[9]。

基于上述研究,第一,本文考慮到博弈主體有限理性的特點,在傳統演化博弈理論的基礎上引入前景理論,將參與方的感知價值納入到支付—收益矩陣中,構建支付—收益感知矩陣,使博弈主體的策略選擇更貼近現實。第二,基于獎懲機制構建煤礦工人—安檢員雙方博弈模型,并通過數值仿真實驗對參與者策略選擇的影響因素進行分析,最后為煤礦工人安全行為管理提供相關的建議。

1 博弈模型構建

1.1 模型假設

煤礦企業安全系統與多種因素密切相關,為研究方便,煤礦企業安全事故是否發生,看作是安檢員與煤礦工人雙方博弈的結果,本文中的安檢員主要是指負責煤礦安全生產的監督和檢查工作,負責排查安全隱患的工作人員,煤礦工人主要是指直接負責煤礦生產的一線操作工人,兩類人員的職責和崗位不同?；诖?本文提出如下假設:

假設1:煤礦工人安全行為博弈主體為安檢員和煤礦工人,雙方均為有限理性,本文根據前景理論來衡量博弈主體之間的收益損失值。

前景理論認為決策者是有限理性的,現實中決策者的實際效用感知與期望效用感知之間存在偏差。前景理論將決策者的感知收益納入到博弈支付矩陣中,解釋了決策者實際效用感知和期望效用感知上的偏差,彌補了傳統博弈中的不足。前景理論主要包含價值函數和決策權重函數,決策者對策略的感知收益稱為前景價值V,V包括權重函數ω(pi)和價值函數v(Δxi)兩部分,如下:

(1)

式中,pi表示事件發生的概率,Δxi表示參與方實際收益與參照點的差額,即Δxi=xi-x0,x0為參照點的價值。ω(pi)表示決策者的對事件i的決策權重,v(Δxi)表示決策者感受到的價值。

(2)

式中α、β為風險態度系數,值越大決策者對風險敏感度越高,α、β∈(0,1)。λ為損失規避系數,若λ>1表示參與方對損失更加敏感。

(3)

式中,ε表示決策權重函數的曲率,ε越小函數圖像越彎曲,ε∈(0,1)。

假設2:煤礦工人的策略空間為α=(α1,α2)=(安全操作,不安全操作),選擇策略α1的概率為x,選擇策略α2的概率為1-x;安檢員的策略空間為β=(β1,β2)=(嚴格監管,不嚴格監管),選擇策略β1的概率為y,選擇β2的概率為1-y。x,y∈[0,1]。當煤礦工人選擇安全操作、安檢員選擇嚴格監管時,表示煤礦工人和安檢員實施安全行為。

假設3:煤礦工人和安檢員的策略選擇存在互補效應。當安檢員不嚴格監管或煤礦工人不安全操作時會產生整體性風險。整體性風險具有傳遞性的特點,當安檢員嚴格監管煤礦工人不安全操作時,煤礦工人不安全操作產生的整體性風險會傳遞給安檢員,本文以風險傳遞系數描述風險的傳遞情況。

1.2 模型構建

根據假設條件,構建支付—收益感知矩陣見表1,收益支付矩陣的參數設定見表2。

表1 支付—收益感知矩陣

表2 模型參數定義

2 博弈模型分析

2.1 策略穩定性分析

2.1.1 煤礦工人策略穩定性分析

煤礦工人安全操作的價值感知V11、不安全操作價值感知V12、安全操作和不安全操作的平均價值感知V1分別如下:

(4)

煤礦工人策略選擇的復制動態方程:

(5)

式中,M表示安檢員不嚴格監管時,煤礦工人安全操作和不安全操作的價值感知的差值;N表示安檢員嚴格監管時,煤礦工人安全操作和不安全操作的價值感知的差值。

2.1.2 安檢員策略穩定性分析

安檢員嚴格監管的價值感知V21、不嚴格監管的價值感知V22、嚴格監管和不嚴格監管的平均價值感知V2如下:

(6)

安檢員策略選擇的復制動態方程:

(7)

式中,U表示煤礦工人不安全操作時,安檢員嚴格監管和不嚴格監管的價值感知的差值;Q表示煤礦工人安全操作時,安檢員嚴格監管和不嚴格監管的價值感知的差值。

2.2 策略組合穩定性分析

(8)

計算Jacobian矩陣的秩和跡,通過秩(detJ)和跡(trJ)的正負性判斷煤礦工人和安檢員策略選擇的穩定性,見表3。

表3 煤礦工人和安檢員策略穩定性分析

通過表2均衡點穩定性分析可得,影響系統演化至穩定點的主要因素為煤礦工人和安檢員的價值感知。當M<0,U<0時,(0,0)為穩定點,此時煤礦工人安全操作的價值感知小于不安全操作的價值感知;安檢員嚴格監管的價值感知小于不嚴格監管時的價值感知。當N>0,Q>0時,(1,1)點為穩定點,此時煤礦工人安全操作的價值感知大于不安全操作的價值感知;安檢員嚴格監管價值感知大于不嚴格監管的價值感知。

為防止系演化至(0,0)點,促進系統演化至(1,1)點,應該增加煤礦工人安全操作和安檢員嚴格監管的效益感知,降低成本感知。煤礦企業應該發揮管理作用,增加煤礦工人和安檢員的獎勵和處罰。由此可見,煤礦企業通過設計合理的獎懲機制可以促進安全行為的發生,使煤礦安全系統達到穩定狀態。

3 仿真分析

為了更直觀的展示博弈雙方的策略演化軌跡及關鍵參數對演化軌跡的影響,借助MATLAB軟件進行數值仿真實驗。為使策略演化至(1,1)點,在滿足N>0,Q>0且M>0,U>0的條件下,通過對煤炭企業管理人員和相關領域的專家進行訪談并結合相關參考文獻[8,11]對參數進行賦值,以確保參數設置的合理性。根據海因里希理論1:29:300的原則,設定事故發生的概率為q=0.1,風險傳遞系數D=0.2。根據煤礦安全管理的現實情況,參與主體對安全行為成本感知大于不安全行為成本感知。其余參數設定要保證博弈模型的演化穩定,改變其中一個參數的大小,能有效的觀察到博弈主體策略選擇的變化。各參數初始值設定為:C1=3、C2=2.5、C3=3、C4=2.5、R1=6、R2=6、L1=6.5、L2=6.7、H1=2、H2=2、q=0.1、L=5、t1=0.5、t2=0.5、D=0.2。假定模型的初始時間為0,時間步長為0.2,主要分析關鍵參數L1、L2、H1、H2、C1、C3對演化軌跡的影響。

3.1 初始概率的影響

分析不同的初始概率取值對策略演化結果的影響,x,y初始概率的取值分別取x=(0.1,0.3,0.5,0.7,0.9)、y=(0.1,0.3,0.5,0.7,0.9)。煤礦工人策略選擇的初始狀態如圖1所示,由圖1可知,當煤礦工人安全操作的初始概率越高,x收斂于1的速度越快。安檢員策略選擇的初始狀態如圖2所示。由圖2可知,當安檢員嚴格監管的初始概率越高,y收斂于1的速度越快。仿真結果顯示初始概率的增加有利于博弈策略組合朝著理想狀態(1,1)點演化。

圖1 煤礦工人策略選擇的初始狀態圖

圖2 安檢員策略選擇的初始狀態圖

3.2 煤礦工人和安檢員獎勵感知的影響

分析煤礦工人和安檢員獎勵感知變化對演化結果的影響,在其他參數保持不變的情況下,改變H1、H2的取值,H1、H2的取值分別為H1=(1,2,3,4,5)、H2=(1,2,3,4,5)。煤礦工人的獎勵感知對策略演化的影響如圖3所示,由圖3可知,隨著煤礦工人所獲獎勵感知的增加,煤礦工人選擇安全操作策略的速度明顯提升,說明煤炭企業設置合理的激勵額度可以有效的促進安全行為的發生。同理,安檢員的獎勵感知對策略演化的影響如圖4所示,由圖4可知,隨著安檢員所獲獎勵感知的增加,安檢員選擇嚴格監管的速度明顯提升。仿真結果顯示礦工和安檢員獎勵感知的增加有利于安全行為的提升。

圖3 H1對煤礦工人策略演化的影響

圖4 H2對安檢員策略演化的影響

3.3 煤礦工人和安檢員處罰感知的影響

分析煤礦工人和安檢員處罰感知變化對演化結果的影響,在其他參數保持不變的情況下,改變L1、L2的取值,L1、L2的取值分別為L1=(4,6,8,9,11)、L2=(4.7,6.7,8.7,12.7)。煤礦工人的處罰感知對策略演化的影響如圖5所示,由圖5可知,隨著煤礦工人所獲處罰感知的增加,煤礦工人選擇安全操作策略的速度明顯提升,可見煤炭企業設置合理的處罰額度可以有效的避免不安全行為的發生。同理,安檢員的處罰感知對策略演化的影響如圖6所示,由圖6可知,隨著安檢員所獲處罰感知的增加,安檢員選擇嚴格監管的速度明顯提升。仿真結果顯示礦工和安檢員不安全行為處罰感知的增加有利于降低不安全行為的發生。

圖5 煤礦工人處罰感知對策略演化的影響

圖6 安檢員處罰感知對策略演化的影響

3.4 煤礦工人和安檢員勞動和精神成本感知的影響

分析煤礦工人和安檢員勞動和精神成本感知變化對演化結果的影響,在其他參數保持不變的情況下,改變C1、C3的取值,C1、C3的取值分別為C1=(2,3,4,5,6)、C3=(2,3,4,5,6)。煤礦工人安全操作的成本感知對策略演化的影響如圖7所示,安檢員嚴格監管的成本感知對策略演化的影響如圖8所示。由圖7可知,隨著煤礦工人安全操作成本感知的增加,煤礦工人選擇安全操作策略的速度明顯降低。由圖8可知,隨著安檢員嚴格監管成本感知的增加,安檢員選擇嚴格監管的速度明顯降低。仿真結果顯示礦工安全操作和安檢員嚴格監管行為成本感知的降低有利于博弈策略組合朝著理想狀態(1,1)點演化。

圖7 煤礦工人安全操作的成本感知對策略演化的影響

圖8安檢員嚴格監管的成本感知對策略演化的影響

4 結論

(1) 將煤礦企業安全系統看作是煤礦工人是否安全操作與安檢員是否嚴格監管的動態博弈,基于前景理論對煤礦工人和安檢員的行為策略選擇進行博弈分析,博弈結果顯示:當煤礦工人安全操作和安檢員嚴格監管的效益感知大于成本感知時,即N>0,Q>0且M>0,U>0,系統演化至理想狀態,參與主體更傾向于選擇能夠帶來更多效益的策略。

(2) 根據博弈結果仿真分析勞動和精神成本感知、獎勵感知、處罰感知對煤礦工人和安檢員行為策略選擇的影響,博弈結果顯示:①參與主體往往期望通付出較低的成本獲得相同的效價,通過降低煤礦工人和安檢員安全操作的勞動和精神成本感知來促進安全行為的發生。煤礦企業可以適當的降低煤礦工人和安檢員的勞動強度、不安全感等精神感知,改善作業環境,提升自動化水平構建智能礦山,以此降低安全操作成本。②根據期望理論,當主觀個體獲得的額外收益較高和處罰較低時,安全操作的動機就會更強,通過增強安全行為的效價可以激勵行為的發生,煤礦企業通過提高獎勵和處罰感知促進煤礦工人和安檢員的安全行為。煤礦企業應發揮獎懲機制作用,對于實施安全行為的工人給予升職加薪的獎勵,對于實施不安全行為的工人給予降職罰款的處罰,并通過設置合理的獎懲額度,實現激勵的有效性。

(3) 本文基于前景理論構建煤礦工人和安檢員的博弈模型,分析雙方的收益損失感知對各自安全行為的影響,為煤炭企業安全管理提供了建議,也為其他行業的安全管理提供借鑒價值。但本文存在的局限在于僅考慮到了煤礦工人和安檢員的雙方博弈,未考慮到政府監管、企業管理者等多元主體的策略選擇,在后續研究中進一步建立三方博弈模型,更加準確的描述相關主體策略的演化路徑。