?

基于檢驗點的移動云資源調度策略研究

2019-02-25 06:33曹啟彥
關鍵詞:調度檢驗故障

何 利,曹啟彥

(重慶郵電大學 計算機科學與技術學院,重慶 400065)

0 引 言

云計算正在成為引人注目的提供可靠彈性服務和按需服務的范例,它使用不同的模型和抽象層次在互聯網上提供服務。云平臺將應用程序當作服務提供給用戶,其將整個IT基礎架構外包給外部數據中心,并允許用戶在互聯網上托管他們的個人文檔。得益于云計算和移動互聯網的不斷融合發展,催生了移動云計算這一新興業務模式,尤其是移動終端的廣泛普及應用。這種新生的信息服務和應用模式已經得到了各界的廣泛關注及研究。由于云資源調度過程中任務發生故障是不可避免的,使得容錯問題成為云服務關注的焦點。一方面,越來越多的移動應用程序在云平臺上開發,導致了云系統面臨或多或少的容錯問題;另一方面,以物理資源過載來實現高資源利用率的情況在云系統中非常普遍。根據Google Trace對數萬用戶的跟蹤記錄[1]表明,用戶對資源的需求量通常大于谷歌數據中心的總容量。這種過載可能會導致物理資源枯竭,最終可能導致低優先級任務被中斷或不能執行。容錯資源調度建立在冗余技術基礎之上,通過有效管理云平臺中的軟、硬件,利用故障檢測、診斷和恢復等方法,使得在云任務執行過程中發生故障的情況下仍能提供有效服務。利用檢驗點技術對故障進行恢復,是云計算容錯資源調度對系統故障恢復的主要手段之一。

檢驗點技術是指在云任務執行過程中選取一個點,并在此處保存系統最新狀態,它是任務發生故障前的一個穩定(正確)狀態。在容錯資源調度系統中采用某種策略部署檢驗點,把資源調度過程中正確狀態保存到穩定存儲器中,如果在隨后的任務執行過程中檢測到故障事件,系統就向后回卷到之前最近一個檢驗點處,恢復故障后重新繼續執行直至任務完成。但云計算中的檢驗點需要處理巨量虛擬機鏡像的保存和恢復工作,檢驗點的部署和調度需要很大開銷,這在采用虛擬技術的云服務系統中尤其明顯。因此,本文針對不同云計算系統中檢驗點的部署和優化調度策略問題進行了深入研究。

1 檢驗點技術原理

檢驗點技術是提高云服務可靠性的常用手段,它是一種基于時間創建正確系統狀態副本的容錯資源調度策略??紤]到云平臺中的節點可能會發生故障,這個時候某些云任務可能執行到一半但沒有提交。當該節點重啟時,需要恢復到一致的狀態,即要么提交整個任務,要么回滾。為了保證云系統的一致性,其中的某些操作需要持久化到磁盤,如果每次操作都隨機更新磁盤的某個數據塊,系統性能將會很差。因此,通過云系統采用日志記錄每個任務的操作并在內存中執行這些操作,內存中的數據定期刷新到磁盤,實現將隨機寫請求轉化為順序寫請求。但是,如果所有的數據都保存在內存中,那么可能會出現2個問題:①故障恢復時需要回放所有的日志,效率較低。如果日志較多,故障恢復時間是無法接受的;②內存不足。即使內存足夠大,存儲系統往往也只能夠緩存最近較長一段時間的更新操作,很難緩存所有數據。

因此,需要將內存中的數據定期轉儲到磁盤,這種技術稱為檢驗點技術。為最小化因任務故障造成的損失,其在安全設備中周期性地將內存中的操作以某種易于加載的形式(檢驗點文件)轉儲到磁盤中,并記錄檢驗點時刻的日志回放點。倘若發生故障,則只需要回滾到最近的檢驗點恢復任務,從而避免了任務從頭開始執行。檢驗點技術原理如圖1所示,其中,Ckpt表示檢查點。

圖1 檢驗點技術原理圖Fig.1 Principles of checkpoint technical

由于采用檢驗點技術對故障進行恢復,不需要考慮故障的產生原因等因素,無論是硬件故障還是軟件故障都可恢復,因此得到了廣泛應用?;跈z驗點技術的容錯資源調度能夠將故障對云平臺造成的影響降到盡可能低,使云任務自動恢復到正常工作狀態繼續運行下去直至任務完成。該技術雖然可以有效減少資源的浪費,但與此同時也受到了相應的開銷限制,例如:將檢驗點寫入穩定存儲的時間開銷、對云任務進行回卷恢復的時間開銷以及最后一個檢驗點與任務故障點之間的時間開銷等。因此,在云平臺中使用檢驗點技術進行容錯資源調度是必要的,其中根據不同的故障概率分布設置相應的檢驗點布局成為研究焦點。

2 基于檢驗點技術的容錯資源調度

近幾年,學者們針對云計算中基于檢驗點技術的容錯資源調度問題進行了較多研究。檢驗點技術根據不同的故障概率可以分為以下2類:假設故障發生概率服從泊松分布的檢驗點技術和無預設故障概率分布的檢驗點技術。

2.1 檢驗點技術的分類

2.1.1 故障概率服從泊松分布的檢驗點技術

近年來,研究人員研究了一系列云計算環境下的最優檢驗點/重新啟動模型。在一些實際系統中常常通過假設故障發生的概率服從泊松分布來設計檢驗點部署策略,如圖2所示。

假設每隔t時間單位設置一個檢驗點,每個檢驗點的成本為ε。當故障發生時,系統通過卷回到最近一個檢驗點狀態進行恢復,預計恢復時間為r。在系統恢復正常后繼續執行任務,直至任務完成為止。雖然大部分時間系統的運行是穩定的,但任務發生故障是不可預測的,經眾多云資源調度故障事件發生的數據分析可以發現,故障發生的概率大多服從泊松分布,以及在某些小時內系統中故障事件發生的概率明顯高于其他時候。因此,為提供優化的檢驗點放置策略,研究人員們把節點發生故障的概率設置為一個服從泊松分布的問題,并且將檢驗點間隔根據經驗或者慣例設置為固定值(如每小時一次)等一系列合理的假設,確定了不同云計算系統中的檢驗點容錯模型。

經典的楊氏檢驗點策略為最小化因發生故障而導致的額外時間開銷,首先假設系統發生故障的概率服從泊松分布;然后根據平均故障時間和自上一個正確檢驗點以來直到故障發生的時間,計算出檢驗點的最佳間隔。然而,建立檢驗點并對故障進行恢復是需要額外成本的,為了確保云任務發生故障時能夠以相對較低的容錯開銷對任務進行恢復,文獻[2-4]提出將發生故障的概率假設為服從泊松分布,通過求解Markov模型中進程狀態轉移概率和權重來對信息進行預測,并據此得出期望的檢驗點間隔時間。此類方案能夠以最小容錯開銷計算出檢驗點回卷恢復策略中的最佳檢驗點間隔。

在云任務執行過程中發生故障不僅會產生額外開銷,系統的可靠性也將受到影響。為了兼顧成本開銷和系統可靠性這2個因素,Dimitriou[5]提出在任務發生故障、退化和修復的情況下,利用不可靠的重試隊列進行性能分析,嘗試用最小的成本開銷為用戶提供高可靠性的服務。但當時作者并沒有選擇采用檢驗點技術進行研究,后來Dimitriou[6]開始考慮使用重試隊列構建容錯系統與檢驗點模型,并提出采用檢驗點技術來實現云平臺中成本及可靠性優化的策略。首先假設故障發生的概率服從泊松分布;然后將每個云任務的服務時間分解為N個模塊,并在每個模塊的結尾處建立一個檢驗點。此外,該方案還在云服務中添加了定時器,以保證在服務空閑期停止其組件來節省電力成本。

隨著云計算的蓬勃發展,云服務提供商們逐漸意識到他們不僅需要滿足用戶多樣化的需求,還被要求為用戶提供高度可靠的云服務。為此,Zhao等[7]提出一種可提供彈性可靠性優化的方法,該方法假設主機(節點)的故障服從泊松分布。但與其他方法不同的是,作者采用點對點技術在云中邊緣節點設置檢驗點。利用對用戶個人需求的評估和數據中心的總可用資源,使用雙分解的分布式算法[8]進行聯合優化提高服務的可靠性水平,該文獻提出的方法在提高資源利用率的同時還增加了運營商的收入。

還有一些基于檢驗點的容錯機制研究,例如文獻[9]中把檢驗點的設置作為全局參數。但這樣做忽略了檢驗點的設置應該與系統資源的動態變化相結合,檢驗點的設置和布局應該是一個動態變化的過程。

2.1.2 無預設概率分布的檢驗點技術

通過將故障概率假定為服從泊松分布的方式來設置檢驗點間隔的檢驗點技術,是對所有服務請求利用資源冗余實現了相同的“預設”可靠性。這些研究內容中冗余資源的布局是靜態且有預設條件的,如果任務執行過程中的內存占用量發生變化或者網絡可達性變化,均會導致故障的概率分布發生變化,檢驗點成本也可能會在執行期間發生變化。因此,這些檢驗點布局不能隨著服務的增加而動態調整,當服務需求數量激增時,冗余資源的數量將呈現指數增長的趨勢,造成資源的浪費和服務供應商的成本增加。

為了動態滿足用戶需求并同時提供高可靠性服務,文獻[10-11]使用基于節點而不是服務器的點對點技術,并綜合考慮建立檢驗點的成本、系統可靠性以及歷史數據等因素來進行無預設概率的模型優化。這種設置檢驗點的方案能夠減少任務執行時間并提高系統性能。

考慮到云計算的性質,假如云任務發生故障時云中已沒有空閑虛擬機,則該任務必須等待有空閑虛擬機或者某些資源可用時才能利用檢驗點技術進行卷回恢復。Di[12]試圖在不預設故障概率分布概率情況下設置檢驗點,并對檢驗點的間隔進行了深入研究,設Te表示系統中執行完一個作業中的所有任務所需時間,C表示檢驗點成本,E(Y)表示執行任務期間發生的故障事件。從而推導出適用于云任務中具有不同故障概率分布的最佳檢驗點間隔x*表示為

(1)

由于任務的故障概率分布還取決于其優先級,即當且僅當在先前的最后一個檢驗點間隔期間改變了任務平均故障數(mean number of failures, MNOF)才需要重新計算下一個檢驗點位置。因此,該策略中還使用歷史數據來統計平均故障數MNOF,以此來實現對云任務不作任何故障概率預設。

根據研究[13]表明,故障在局端規模系統上具有時間局部性。由此,Wan等[14]利用故障的時間局部性來識別檢驗點間隔,通過刻畫檢驗點時間曲線并增加檢驗點的間隔時間使其曲線與故障曲線具有相同斜率來確定最佳檢驗點間隔。并利用突發緩沖區和并行文件系統來存放檢驗點數據,不僅可以得出了最優檢驗點間隔,還可以減少由系統故障引起的計算時間浪費,使其不會超過突發緩沖區的寫入限制。Meroufel等[15]還在此基礎上提出了一種基于時間的自適應協調檢驗點技術,解決了云任務在不同的虛擬機(virtual machine, VM)之間通過消息傳遞接口通信的問題。該技術根據估計的孤兒消息和轉接消息出現時間間隔,選擇一個VM作為啟動器。在這段估計的時間間隔內,該技術可以得到最佳檢驗點間隔,從而減少了任務執行總時間。

針對具有動態保存和檢索時間不固定的檢驗點模型[16-17],Levitin等[18]進行研究提出了一種動態檢驗點策略,自上一個檢驗點完成以來,系統進行再執行πj=(n(j,k)+1)個操作后設置一個新的檢驗點,其中,x表示故障發生后還需執行的操作數,(n(j,k)+1)表示直到任務完成需要執行的檢驗點數。該策略仍然是動態地確定檢驗點設置頻率,可靠性優于檢驗點間隔服從固定概率的布局策略。

尋求成本和可靠性折中的機制或工具來降低成本同時保持高可靠性,對用戶來說非常重要。為此,Yi等[19]提出了一種在亞馬遜彈性云(elastic compute cloud,EC2)中使用檢驗點并遷移資源的機制來最小化資源配置的成本和波動。在此基礎上,Mehta等[20]根據云環境下資源的動態變化特性,設置了一個檢測器來檢測任務故障,當檢測到某節點發生故障時立即保存狀態,然后將任務卷回到尚未發生故障的云系統中的另一個節點。這種方法降低了任務發生故障后的開銷和執行時間。

2.2 不同檢驗點策略的比較和分析

本文將基于檢驗點技術的容錯資源調度方法歸為2類:將故障概率假定為服從泊松分布來設置檢驗點的容錯資源調度方法和不作故障概率預設設置檢驗點的容錯資源調度方法?,F將這些方法作比較和分析,如表1所示。

表1 基于不同檢驗點技術的容錯資源調度策略的比較Tab.1 Comparisons of fault-tolerant resource scheduling strategies based on different checkpoint technology

續表1

3 移動云中的容錯資源調度

3.1 移動云

移動云計算是云計算與移動互聯網不斷融合的產物,近年來其得以飛速的發展。它繼承了云計算的應用動態部署、資源可擴展、多用戶共享以及多服務整合等優勢,許多新服務和應用模式也因它而生[21]。為滿足用戶日益復雜的需求,種類繁多的移動應用在移動云平臺中被開發。但與此同時,移動云計算也有底層設備電池容量、計算能力、存儲容量有限,依賴關系不固定以及網絡不可靠等問題。這些問題導致了移動云平臺中應用程序容易發生故障。因此,移動云為用戶提供云服務時,需要考慮以下問題。

1)移動設備對資源的獲取。云資源遍布全世界并為用戶提供各種不同的服務。但移動云需要在移動設備所在區域或臨近區域為用戶提供可靠云服務。這將要求移動云能夠管理海量位置信息,并提供精準的定位服務。特別是對室內地圖進行現場調查并構圖需要耗費大量資源。目前,Dong等[22]嘗試了收集移動用戶拍攝的照片建立3D點云,并由此在云端服務器上構建室內地圖模型。此后,Dong等[23]進一步利用基于密度的沖突檢測技術對室內地圖模型進行改進,提高了其中障礙物位置的信息完善,并且采用群智建立初始階段的定位。

2)移動設備與移動云平臺的連接。移動云計算允許將計算密集型應用程序的執行從資源約束的移動設備卸載到更強大的計算資源,即遠程云端服務器或云端。但移動設備無法檢測到遠程云端服務器或云端是否出現故障,并且遠程云計算資源的連接也可能因為移動設備電池能量不足或網絡斷開而突然丟失。此外,移動設備的網絡地址也可能隨時間推移而改變。這些因素均會導致用戶與移動云平臺的連接出現故障,也就是說,會出現網絡不可靠以及依賴關系不固定問題。目前,Chen等[24]結合移動云計算和情感計算提供個性化的情感感知服務,提出了一種針對于資源密集型移動應用的感知管理新模型。這種模型能夠在動態的網絡環境下,通過實現移動設備與云端服務器之間資源的穩定連接來優化用戶體驗。Saad等[25]針對在網絡和移動云平臺2個層次上,始終保持移動用戶擁有良好的網絡連接以及應用程序能夠高性能執行的問題進行了深入調查和研究。他們提出采用預測用戶需求,盡量減少不必要的切換和服務遷移,以保證移動設備與移動云平臺的穩定連接。

3)移動云提供遠程資源的特性。移動云計算通過在遠程云服務器上執行移動應用程序的方式來最大限度地減少執行時間。當移動云提供遠程資源時,需要并行化處理;在應用程序部件遠程執行之前,還需要將這些部件先遷移到云平臺中。這種資源遷移對于交互式和實時應用程序來說是非常有效的減少響應時間的手段。然而,這些操作將產生遷移的開銷。并且在處理應用程序卸載或節能問題時,也需要考慮遷移的開銷。為此,Islam等[26]提出了一種用于異構移動云計算系統的遺傳遷移算法。結合云服務器的負載均衡和用戶移動性因素為移動虛擬機選擇最佳云服務器。這種算法能夠最大限度地減少虛擬機遷移開銷,以此達到減少任務執行時間的目的。

4)移動終端設備的電池能耗。由于移動終端設備的電池容量有限,移動應用與移動終端設備電量的矛盾愈發明顯。移動應用的耗電量已成為良好用戶體驗的阻礙。雖然研究者們不斷地研發更大容量的電池,但采用控制技術節省應用的能量消耗,減少因電池不足而造成的故障,才是用戶和服務提供商更加期望的雙贏局面。當前,Tang等[27]提出了一種適用于移動設備功耗調度的實時閉環控制系統的方案,其能夠在不需要任何特定的功率傳感器的情況下,使處于穩定狀態下的多媒體系統的能耗盡可能低。此外,Zhang等[28]將協同任務執行制定為約束最短路徑問題,針對具有線性拓撲結構的移動應用在移動云中遷移的情況,他們提出采用動態規劃的方式進行任務遷移,這種方案根據通信信道的狀態以及任務的計算量和數據量來協同制定遷移方式,不僅能夠保障應用執行時間限制,而且可以最小化移動終端的電池能耗,延長電池壽命。

5)移動云資源的安全性與用戶隱私。移動云為用戶提供遠程服務時,需要保證資源的安全性。并且這些遠程資源可能同時被多個用戶使用,移動云還需要提供用戶的隱私保護,例如用戶身份信息、興趣愛好、地理位置等。近年來,Thayananthan等[29]提出了在安全大數據環境中通過量子加密技術對數據進行加密的方案;Fujiwara等[30]用量子密鑰對以太網的數據流進行了加密,并提出量子密鑰應該存儲在智能卡中以實現移動用戶采用量子加密技術進行通信;Han等[31]提出基于量子鍵和距離HKQ的安全認證協議,通過近場通信技術將量子密鑰傳輸到可靠的移動用戶安全存儲區域,使得移動用戶可以通過量子密鑰訪問移動云平臺中的數據,以實現對移動用戶數據和隱私的保護。

由此可見,普通Web云與移動云的服務質量(quality of service,QoS)度量指標有所差異,如圖3所示。

圖3 QoS度量指標圖Fig.3 Metrics of QoS

由于普通Web云與移動云的服務質量評價指標不同,移動云中的容錯資源調度策略也所區別于普通Web云。其不僅需要有效管理云系統中的軟、硬件,還需要考慮異構數據中心之間服務資源的相互調度協調問題。因此,移動云中的容錯問題值得廣泛關注。

3.2 移動云中的容錯資源調度

隨著移動互聯網和便攜式設備如智能手機,平板電腦以及可穿戴式智能設備的飛速發展,越來越多的云服務開始由移動云計算系統提供給用戶[32-33]。移動應用也開始向醫療、教育、市政建設等領域發展。但移動云服務中故障仍是客觀存在的,容錯問題不容小覷。而移動云計算中存在多種故障類型,大致可以分為網絡故障,物理故障,任務執行過程中的故障以及移動云服務到期故障等[34-35]。

如今,移動云計算的資源調度主要研究領域是通過更好的應用程序分析和基于多個因素的更準確的卸載決策,以減少移動設備的能耗和改善用戶體驗。但在大多數情況下,均未充分考慮云端資源使用問題。EMCO[36]是一個移動云計算(mobile cloud computing, MCC)框架,Flores等在設計它的時候考慮到了云資源的使用,使之能夠從系統用戶收集有關卸載過程的詳細信息。EMCC框架還包含云中的自動縮放機制,可以監視系統狀態并在必要時水平放大。它還提供了一個能存儲先前計算結果的緩存空間,并可以減少執行時間和提供容錯能力。EMCO是移動云中考慮了可擴展性和多租戶的第一個資源調度解決方案,其能夠確保占用較低資源以及獲得高QoS。但是,本文沒有詳細討論資源使用優化問題。而Nawrocki[37]提出的一種移動云環境中的新架構,即多用戶共享一個虛擬機。這種策略是通過啟用多租戶來減少對資源的需求以及保證較低的成本。

由于移動云的各類接入網絡并不能保證其完全安全。因此,在非安全環境中服務的應用,極其容易發生大規模的故障或損害。這將導致網絡中多個節點同時發生故障且會將網絡劃分為不相交的分區。針對于整體網絡的連通性問題,Lee等[38]通過建立雙連接的節點分區拓撲,并采用具有確定容錯能力的連通性恢復(CRAFT)算法,計算出在故障發生節點的附近形成最大的內部簡單循環。然后再部署中繼節點通過2個非重疊路徑將每個外部節點連接到循環中。這種方案不僅能夠最小化分區間距及使用最少數量的中繼節點,而且解決了網絡的連通性問題。

在移動網絡環境中存在拓撲結構具動態性、穩定存儲空間有限性及缺少固定基礎設施等問題,為了解決這些問題,Mansouri等[39]采用一種自適應,協調和非阻塞的檢驗點策略,通過保持進程間的確切依賴關系和對正常消息捎帶檢驗點序列號的方式,將無用檢驗點的數量減少到最低,并且能夠減少控制信息所需的開銷。

由于移動設備的狀態信息是動態變化的,倘若將移動設備視作移動云中的資源,則這種資源被認定為不穩定的。因此,Park等[40]提出了一種基于馬爾科夫鏈模型的監測模型,該模型分析和預測了資源狀態。隨著提出的監控技術和狀態預測,移動云系統將能夠更好地抵御由移動設備的波動引起的故障問題。該技術通過對過去的狀態模式進行建模,從而對移動設備的未來狀態進行預測來減少移動設備的波動性,有效提高了系統的可靠性。

移動云計算的廣泛應用使得許多敏感數據需要通過移動互聯網傳輸,重要數據的加密和移動用戶的隱私問題已經成為移動互聯網應用中的重要挑戰。然而,在移動云服務中不僅會遭受普通Web云中的安全威脅,還會因為安全軟件功能不完備等原因面臨諸多專門針對移動終端的安全威脅,比如惡意代碼會造成信息被竊取、使用不安全的接入點接入互聯網等。特別是在Android平臺上,移動惡意軟件嚴重威脅網絡安全和隱私。據此,Yuan等[41]設計了Android系統中基于機器學習的惡意軟件檢測方法,利用從Android應用程序的靜態分析和動態分析中提取的超過200個特征來進行惡意軟件檢測,精確度高達96%。但對于數據傳輸中的安全和隱私的認證問題,傳統模式是采用第三方安全監控機制。這些機制依賴與復雜且資源密集的機制來確保其安全性,它們不適用于移動云計算,移動云環境下需要更輕量級的認證方法。為此,Khan等[42]通過對現有的端口敲入認證方法進行分類評估發現,端口敲入方式為解決移動云中的安全問題提供了輕量級的應用層解決方案。并且得益于它提供的一個合適的安全層,確保了SMD和MCC之間的真實通信。但由于端口敲擊過程的短距離分配容易受到中間人攻擊,遠程分配涉及服務器節點上緩沖區管理的開銷。Khan等還提出可以采用MCC的虛擬化來解決這個問題。

為了支持用戶移動性,提高用戶QoS以及共享云服務,Choi等[43]提出在移動云計算中使用CAN進行容錯。該調度算法由惡意用戶過濾、云服務傳遞、QoS配置、設置副本和均衡負載組成,并以此對移動設備產生的故障進行容錯。不僅考慮了用戶QoS需求,而且還允許云環境中的各友好用戶之間共享云服務,無需進一步認證。此策略優化了任務執行時間和可靠性。

移動應用已經向醫療領域邁開步伐,遠程醫療保健系統(remote healthcare system, RHS)也正在被開發。醫療系統中的數據文件等資源常由多個醫護人員、病患以及政府機構有權限的共享,這就發生了多個用戶同時訪問相同資源的情況。文獻[44-45]中提出使用基于檢驗點的多版本并發控制策略,以在應用程序域中實現非阻塞進程同步。該策略能保證病患歷史數據的一致有效性,以及在病患數據并發更新時創建新的檢驗點。這種策略不僅使得從檢驗點訪問數據時有較小的時間開銷,而且還有效提高了遠程醫療保健系統的吞吐量及資源利用率。

可穿戴式設備也已經可用于監控大眾的健康狀況,并將收集的健康數據上傳到云服務器進行共享,從而有助于電子醫療記錄(electronic healthcare records, EHR)系統的開發。然而,在廣泛應用EHR系統之前,必須解決隱私和效率問題?;颊咦铌P心的是電子病歷的保密問題,但與此同時,可穿戴式設備通常在一定程度上受資源限制。據此,Liu等[46]提出了一種細粒度的EHR訪問控制方案。該方案允許EHR所有者可以在知道EHR數據和訪問策略之前生成離線密碼,以執行大多數計算任務。此外,當EHR數據和訪問策略變為已知時,在線階段可以快速組合最終密文。該方案還允許以線性秘密共享方案編碼的訪問策略,并通過廣泛的性能比較和仿真結果表明,Liu的解決方案非常適合移動云計算。

3.3 未來可用于移動云中的檢驗點技術

移動云計算系統資源管理是移動云計算技術領域的重要研究內容。由于移動云中資源故障是客觀存在的,而有效的容錯資源管理不僅能提升資源的利用率,也能夠有效地保障系統的可靠性。因此,采用經典的檢驗點技術對移動云進行容錯資源調度具有重要的理論意義和應用價值。鑒于移動云環境受到移動設備存儲容量、通信帶寬、訪問延遲、服務可靠性及性價比等因素的限制,使得大多數用戶選擇同時使用多個云服務供應商提供的服務。而當前的多云協作體系架構,使得移動終端必須要維護多份數據副本,不但增加了移動終端的計算量和通信帶寬的成本,而且無法滿足多用戶數據在多云中同步和共享。

移動云中基于檢驗點的容錯資源調度與普通Web云中的容錯資源調度有所不同。普通Web云計算中檢驗點技術大都采用虛擬機監控器統一協調檢驗點之間的虛擬鏡像傳輸和檢驗點的恢復策略,對核心交換設備和虛擬機監控器提出了巨大的通信瓶頸挑戰。而移動云計算環境下還需要考慮移動終端性能缺陷,以及在滿足用戶需求的同時還需提升云服務的可靠性水平和盡可能的節省能耗。據此,本文通過深入調查和分析移動云中容錯資源調度策略,提出了以下基于檢驗點技術未來可能的研究方法。

1)采用人工勢場方法為基礎的布局定位模型表示方法。通過建立不同影響因素下的引力勢場和斥力勢場以及總勢場疊加模型,把檢驗點布局定位問題轉化為在人工勢場中搜索勢能極值位置問題。采用柵格模型對布局檢驗點的環境信息進行描述,得到布局檢驗點的狀態數字勢場模型,并設計基于改進連續智能算法的檢驗點布局定位算法。

2)采用排隊論理論構建適用于云計算容錯需要的檢驗點布局法,通過把云計算節點抽象為某一個特定的圖論結構,采用圖嵌入方法研究檢驗點虛擬鏡像傳輸的通信瓶頸,并以此為基礎建立旨在優化虛擬鏡像傳輸延時性能的目標函數,提出一種基于模擬退火算法的檢驗點布局算法。

3)考慮到通信帶寬的影響,還可以采用端到端的虛擬機鏡像傳輸存儲,對檢驗點進行局部調度,減小訪問延遲。并通過對擁塞度、傳輸時延等參數的權重調整,實現基于檢驗點技術的彈性可靠服務。

4 結 論

在當今的學術界和工業界中,已有不少國內外專家針對基于檢驗點的移動云容錯資源調度問題進行研究并取得了大量研究成果。本文中,首先針對云環境下任務執行過程中發生故障的不可避免性和不可預測性,重點討論了基于不同檢驗點技術的容錯資源調度方法。假設故障概率服從泊松分布的檢驗點部署方法,雖有一定的動態適應能力,但并不能很好地應用在實時動態系統中。無預設故障概率分布情況下的檢驗點部署方法是針對不同的系統資源,自適應地進行檢驗點部署,這類檢驗點布局方法,能夠有效提高資源利用率和減少任務執行時間。由于在移動云環境中需要考慮底層設備的局限性、智能均衡負載以及降低管理成本問題。因此,本文在最后指出了未來可能的研究方法:可以采用人工勢場方法為基礎并結合柵格模型對檢驗點部署方式進行改進;可以采用排隊理論為基礎結合模擬退火算法進行檢驗點布局;還可以采用端到端的虛擬機鏡像存儲方式對檢驗點進行局部調度,以實現基于檢驗點技術的彈性可靠服務。

猜你喜歡
調度檢驗故障
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
故障一點通
電力調度自動化中UPS電源的應用探討
基于強化學習的時間觸發通信調度方法
一種基于負載均衡的Kubernetes調度改進算法
對起重機“制動下滑量”相關檢驗要求的探討
電梯檢驗中限速器檢驗的常見問題及解決對策探究
關于鍋爐檢驗的探討
小議離子的檢驗與共存
奔馳R320車ABS、ESP故障燈異常點亮
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合