?

能源控制器信號量死鎖問題分析及解決方案

2021-12-17 11:22張晨宏鄔科科

機電信息 2021年29期

張晨宏鄔科科

摘要：隨著我國智能電網的快速發展，傳統采集設備已無法完全滿足當前需求。配電臺區是營銷與生產的交匯點，傳統模式下，營銷與生產雙方需要在臺區側分別安裝集中器和配變終端（TTU）兩種設備，但仍存在諸多問題。在此背景下，融合了Ⅰ型集中器、專變終端、二次回路巡檢儀和配電終端功能的能源控制器（ECU）應運而生。但在該全新產品開發過程中，由于技術新、難點多，各類問題頻出，例如液晶顯示菜單無序切換問題等，究其根本，實為信號量死鎖導致?；诖?，提供了一套能源控制器信號量死鎖的解決方案。

關鍵詞：能源控制器;信號量;死鎖

0 引言

能源控制器具備數據采集、智能費控、時鐘同步、精確計量、回路狀態監測、停電事件上報等多種功能[1]，不同功能從軟件層面被劃分成了不同的App。當前能源控制器液晶顯示菜單存在無序切換的問題，通過分析發現根源是硬件接口層使用的信號量在第三方容器App中失效。進一步深挖后發現，目前使用的信號量機制中，當進程在持有鎖期間終止時，會造成信號量死鎖，導致其他進程異常，僅能通過重啟恢復。

本文通過對死鎖問題的深度分析，提出一種將線程鎖與進程鎖組合的方式，來實現多線程和多進程下都適用的信號量，從而避免死鎖問題。

1 信號量死鎖問題概述

1.1 ? ?問題背景

能源控制器應用容器技術隔離運行多個App，這就對多進程間資源共享的同步措施提出了更高的要求。解決問題的關鍵在于：什么時候可以在不同進程間共享某個信號量。

在目前能源控制器的App框架下，被不同進程訪問的Hal層，需要使用二值信號量對臨界區資源進行保護。

不同的進程總是能夠訪問同一個有名信號量，只要它們在調用sem_open時指定相同的名字。即使對于某個給定名字的sem_open調用，在每個調用進程中可能返回不同的指針，使用該指針的信號量函數（例如sem_post和sem_wait）所引用的仍然是同一個有名信號量。

1.2 ? ?信號量在容器中失效的原因分析

在使用相同名字的前提下，需要了解有名信號量保存的具體位置。跟消息隊列類似，它保存在/dev/shm目錄中。在這個目錄中可以找到被創建了的、但是沒有調用sem_unlink的信號量。

每個Docker容器都有一個本地存儲空間，用于保存層疊的鏡像層（Image Layer）以及掛載的容器文件系統。容器內外的進程要達到信號量共用的目的[2]，需要容器與主機共享數據。用法是使用-v選項將host已經存在的目錄或者文件掛載到容器。

通過對信號量未失效容器和信號量失效容器的掛載配置信息的比對，可以發現在信號量未失效容器中，容器同時掛載了主機的/dev和/dev/shm目錄，而信號量失效容器只掛載了主機的/dev目錄。這兩個目錄在主機上是兩個不同的掛載點，文件系統也不同，/dev/shm是Linux中動態大小的一個內存文件系統分區，如果容器只掛載了主機的/dev目錄，那么主機的/dev/shm目錄仍然對容器不可見。

1.3 ? ?信號量死鎖的原因分析

一個進程終止時，內核對其仍然打開著的所有有名信號量自動執行關閉操作，不論該進程是自愿終止的還是非自愿終止的，這種關閉都會發生。

然而關閉一個信號量并沒有將它從系統中刪除。也就是說，即使當前沒有進程打開著某個信號量，它的值仍然保持。另外，當持有信號量的進程中止時，該信號量的值也不改變。

如圖1所示，在典型的持有鎖期間進程終止現象的時序中，進程2將一直阻塞。若semwait附帶超時參數，將因為超時而返回失敗。即使不考慮進程2，當進程1被守護進程重啟運行的時候，仍然會導致死鎖。

當進程間共享一個信號量時，持有該信號量的進程在持有期間終止，無法讓系統自動釋放持有的鎖。多線程間也是如此，一個線程在持有某個信號量時終止，起因可能是被動（被另外一個線程取消）或主動（調用pthread_exit）。合理的程序設計，應該在線程主動退出或被動取消時，調用自定義的清理程序。但對于一個線程來說，致命的條件通常還會導致整個進程終止。比如線程執行了一個無效指針的訪問，從而引發了SIGSEGV信號，那么一旦該信號未被捕獲，整個進程就被它終止，從而導致死鎖。所以需要使用其他能在進程終止時自動釋放鎖的IPC方式，來代替POSIX信號量。

2 信號量死鎖解決方案

需求：

（1）無須強制指定容器共享宿主機的目錄、文件，或指定特殊參數;

（2）使用的同步方法必須具有進程退出時內核自動清理鎖的特性。

通過線程鎖與進程鎖組合的方式，可實現多進程和多線程下都適用的信號量，以滿足上述需求。

2.1 ? ?線程鎖

線程鎖通過一個互斥鎖+條件變量實現?；コ怄i（類型為pthread_mutex_t）用于保護代碼臨界區，從而保證任何時刻只有一個線程在臨界區內執行。當一個線程獲得某個互斥鎖后，需要等待某個條件變為真，也就是該線程可以等待在某個條件變量（類型為pthread_cond_t）上。該條件變量由另外某個線程向它發送信號，通常以廣播方式（pthread_cond_broadcast）喚醒所有等待狀態的線程。

2.2 ? ?進程鎖

利用文件鎖（即記錄上鎖record locking）可以有多個讀出鎖，但只能有一個寫入鎖的特征，僅使用整個文件范圍的寫鎖，來構造一個進程鎖。并且該類型鎖具備進程終止時由內核完成已有鎖清理工作的特征。常用方式為fcntl函數，和一個文件描述符綁定，因此對于容器和宿主機共享文件鎖，可以自由適當地指定文件位置。

線程鎖的加解鎖過程如圖2所示。

2.3 ? ?線程鎖與進程鎖組合

通過把進程鎖當作線程鎖臨界保護區對象，達到多線程在同一時刻只能有一個線程獲取進程鎖的目的，而進程鎖本身又保證了多進程對臨界區的保護?？紤]到延時場景，加鎖流程如圖3所示。

3 結語

本文分析了能源控制器信號量死鎖的原因，針對該問題及原因分析，提出了通過線程鎖與進程鎖組合的解決方案，不僅可以滿足能源控制器的開發需求，解決液晶顯示菜單無序切換等問題，還能在其他平臺同步使用該方案，降低信號量死鎖的可能性。

[參考文獻]

[1] 何鑫，杜杰，尹璐.用電信息采集系統在配網運維管理中的應用[J].電子產品世界，2019，26（3）：49-52.

[2] 秦桂云.操作系統中的死鎖問題[J].中國新技術新產品，2019（16）：23-24.

收稿日期：2021-09-01

作者簡介：張晨宏（1995—），男，浙江臺州人，碩士，軟件開發助理工程師，研究方向：電力智能采集系統。

機電信息2021年29期

機電信息的其它文章: 基于VNC服務的變電站Linux系統遠程維護的應用; 凝汽器集中發球清洗技術及工程實踐分析; 鍋爐干除渣系統變頻優化與節能分析; 關于南昌地鐵3號線綜合監控系統功能驗證的思考; 潛水鏡鏡片注塑模故障及改造案例分析; 某電廠10kV真空接觸器分閘故障分析

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合