?

一種融合分布式存儲的架構設計

2021-03-08 01:57朱彥霞范伊琳吳玉彬華南羅劉敏
河南科技 2021年36期
關鍵詞:存儲技術性能優化架構設計

朱彥霞 范伊琳 吳玉彬 華南 羅劉敏

摘 要:本文介紹了目前成熟分布式架構,在分析醫療機構、高校等特殊實際應用需求的基礎上,汲取主流分布式框架的優點,提出分布式存儲框架的優化設計思路,搭建了一種融合分布式存儲框架,系統的實現將對特殊行業內部分布式存儲的部署具有推廣意義。

關鍵詞:存儲技術;分布式文件系統;架構設計;性能優化

中圖分類號:TP399 ? ? 文獻標識碼:A ? ? 文章編號:1003-5168(2021)36-0022-03

An Architecture Design Integrating Distributed Storage

ZHU Yanxia1 ? ?FAN Yilin2 ? ?WU Yubin1 ? ?HUA Nan3 ? ?LUO Liumin4

(1.Henan General Hospital, Zhengzhou Henan 450002;2.Shang International Engineering Co., Ltd., ?Beijing ?100069;3. China Radio and Television Henan Network Co., Ltd., Zhengzhou Henan 450000;4. Luoyang Polytechnic, Luoyang Henan 471000)

Abstract:In this paper,the current mature distributed architecture is less,based on the analysis of the special practical application requirements of medical institutions,universities,etc.,and the advantages of mainstream distributed frameworks are analyzed to analyze the optimization design ideas of distributed storage frameworks,and a fusion distributed storage is proposed. Framework,the implementation of the system will have promotional significance for the deployment of internal distributed storage in special industries.

Keywords:storage technology; distributed file system; architecture design; performance optimization

中國互聯網絡信息中心在京發布的《中國互聯網絡發展情況統計報告》顯示,截至2021年6月,我國網民規模已達10.11億,互聯網的普及程度已超71.6%;清華大學《2020—2021年元宇宙發展研究報告》中指出,我們已經進入5G、大數據、人工智能、區塊鏈等技術超融合模式,逐漸走向“數字創造、數字資產、數字市場、數字貨幣、數字消費”的全數字化新時代。隨之帶來的是數據量的幾何級迅速增長,“信息爆炸”的大數據時代已經到來。

大數據時代,人們的關注焦點主要在大數據存儲和大數據分析兩個方面,然而大數據存儲是大數據分析的基礎,受到了業內學者的廣泛關注與研究。目前,大數據存儲主要面臨三個方面的問題:一是數據的增長速度已經遠遠超過存儲介質創新發展速度,單純的硬件升級所消耗的成本巨大;二是數據資源閑置、硬件存儲的利用率低下,無形中導致了存儲成本的消耗增加;三是數據的備份還原的效率低下,導致異常情況下的數據保護、數據遷移存在安全隱患。分布式大數據存儲往往利用網絡采取數據分發策略,以提高數據的分布式存儲、響應及轉發速度;通過數據及副本的分節點存儲提高數據的安全性。

目前,較成熟的分布式存儲系統在大數據存儲方面帶來卓越功績的同時,仍然面臨一些挑戰:一是高性能與高成本并存,高性能存儲與部署及維護的高成本相對應;二是低成本與低適應度并存,低建設成本的分布式系統往往在系統的可移植性、拓展性方面能力有所欠缺;三是系統架構規范化程度過高,對于特殊行業的普適性較差,在價格、維護、升級等方面有著亟待改善的空間。本文在分析目前成熟分布式文件系統的基礎上,進行優勢融合,設計了一個CDS(Converged Distributed Storage)構架,在參考現有開源軟件邏輯的基礎上,實現分節點數據的存儲、傳輸與備份;在提高數據存儲優化的基礎上,提高系統資源利用率,增強系統備份還原的安全性,增強在單位內部局域網實現專業、特殊需求領域的適用性。

1 分布式存儲研究現狀

數字化時代推動了數據的爆發式增長,而數據的快速增長速度又促進了分布式存儲技術領域的蓬勃發展與國內外學者的廣泛研究。分布式存儲的技術主要涉及物理層、網絡層、應用層的研究,近幾年的研究熱點多圍繞提高分布式系統的計算力、拓展性、可靠性、自治性以及分布式存儲應用等方面展開。馬仁杰等[1]將區塊鏈技術與分布式存儲技術應用于檔案信息管理中,以提高檔案信息管理資源服務的自動化效率;劉蘇英[2]將分布式存儲技術應用在電信通信大數據庫存儲中,通過基于細粒度均衡算法,實現存儲的負載均衡;孟慶玉[3]、遲松特[4]、朱良杰等[5]對云計算環境下的分布式存儲關鍵技術進行了細致研究,并對云分布式存儲的發展前景進行了展望;張曉等[6]對近年來Ceph分布式存儲和優化的技術進行了綜合性研究與分析;戴威[7]在分析資源存儲特征的基礎上,提出了一種跨HDFS集群的分布式存儲方法;董聰[8]在對HDFS系統的寫入與傳輸過程量化分析的基礎上,提出了一種異步寫入方式,以優化HDFS的寫入性能;Wu Chenhan充分結合了SSDs的高I/O吞吐特性以及HDDs的大容量特性,提出了一種分層混合分布式文件存儲技術,可在一定程度上提高數據的實時訪問性能。以上研究都為分布式存儲的改進提供了參考借鑒。

2 存儲技術研究

2.1 傳統存儲技術

2.1.1 NAS。NAS(Network Attached Storage)以數據為中心,服務器與存儲設備分離,通過局域網連接各平臺,平臺間通過NFS或CIFS文件系統訪問協議訪問服務器,實現數據的集中統一管理,確保服務器獲取更多計算資源、減輕負載。NAS擴展性好,但文件傳輸過程中網絡開銷較大,數據訪問速度極大受限。

2.1.2 SAN。SAN(Storage Area Network)采用專用網絡實現服務器和存儲設備之間的連接,根據傳輸過程協議不同,分為FC-SAN和IP-SAN。FC-SAN采用光纖通道技術,實現數據塊的高速傳輸,但部署成本較高;IP-SAN使用IP通道連接服務器與存儲設備,較FC-SAN部署成本低,但數據傳輸過程有時會受到IP網絡干擾,而產生“丟包”現象。

2.2 分布式主流框架

分布式存儲技術的實現以分布式存儲框架為基礎。目前,較為成熟的分布式存儲框架主要包括HDFS、FastDFS、Swift、Ceph等。

2.2.1 HDFS。HDFS屬于分布式文件存儲,由谷歌于2003年推出的基于Hadoop框架的分布式計算的開源框架。HDFS作為Hadoop的三大核心組件之一,通常與Hive、Hbase共同使用,但存在系統搭建部署煩瑣、運維難度大、開發應用成本較高等問題。HDFS的優勢在于對大數據的處理、高容錯性、高可靠性,但對小文件的存儲、讀取適應性較差。

2.2.2 FastDFS。FastDFS是一個開源的輕量級分布式文件存儲,用于解決大數據量存儲和負載均衡等問題,并需要通過專有API進行訪問。FastDFS具有很強的擴展性,軟RAID使系統的并發處理能力與數據容錯恢復能力增強,但不支持斷點續傳,對大文件傳輸存在隱患。

2.2.3 Swift。Swift是由Rackspace公司開發的分布式對象存儲服務,采用對稱的、面向資源的分布式架構設計。通過計算,將對象均勻分布在虛擬空間節點上,系統拓展性較好,可保持極高的數據持久性,但對原生對象的存儲不支持實時文件操作,較多地應用于大規模公有云的生產環境中。

2.2.4 Ceph。Ceph是開源分布存儲平臺,創新CRUSH算法,實現數據的尋址,數據分布均衡、并行度高,可實現對塊、對象、文件的分布式存儲,但對部署團隊能力要求較高。

3 融合分布式存儲構架(CDS構架)

3.1 特殊領域應用需求分析

分布式技術已廣泛應用于諸多領域,但對醫療機構、高校等特殊領域的實際需求存在一定的不適用性,醫療機構、高校的分布式存儲要求往往存在以下特點。

①系統內部數據的安全級別比較高,但對硬件配置要求往往不高。因此,多采用內網或區域性專網化部署,盡量減少對硬件頻繁性升級改造。②內部數據傳輸量的時間分布性較為明顯,可滿足中小型單位日常使用的服務能力,具有較強的負載均衡能力。③硬件專業化人員相對匱乏,要求盡可能地降低維護的難度以及維護成本。④對數據保密和數據保護要求較高,需要分級、分權限進行用戶驗證以及管理,并對敏感數據進行加密。因此,對分布式架構中軟件加密需求要求比較高。⑤要求存儲系統的高兼容性以及系統高拓展性,對開發者友好,可穩定進行系統升級改造。

3.2 CDS架構優化思路

基于上述分析,需要在以下幾方面進行優化提升。

3.2.1 去中心化設計??朔鹘y中心化分布式存儲對Tracker Server、Storage Server和Client的角色的細分,同時增加Route Server、ACL Server、Index Server等服務模塊,通過服務來優化網絡的路由、權限驗證和文件搜索等功能;通過冗余備份,提高系統故障恢復的效率及安全性。

3.2.2 自動巡檢機制。各個節點要定期自動檢查,實現數據的同步、備份、存儲權重的更改,實現基礎冗余數據的保護,所有的數據保持一定比例的冗余備份,避免某個節點崩潰后數據切片無法恢復。

3.2.3 系統程序獨立封裝。系統采用獨立應用程序并可自動升級,以便于部署和安裝,降低對終端的軟硬件環境要求。獨立應用程序僅在第一次啟動配置,日常無須安裝用戶的干預,若節點硬件更換或者數據復制后,運維人員可以選擇恢復或重新配置某個節點,以降低運維難度與成本。

3.2.4 支持網絡路由優化和硬件優化。通過日常業務處理提升高性能硬件運行概率,以此提高系統整體性能;管理員可以在任何節點根據權限管理對網絡路由進行調優,并根據不同客戶端的硬件情況和用途進行權重設置。

3.2.5 數據權限管理。分布式域的創建者可以根據角色設置對應權限,用戶根據角色賦權。

3.2.6 數據安全等級管理??梢詷俗祿募用艿燃?,實現數據的加密方式與創建者的高度關聯性;對于可分享的數據支持明文存儲;第三方調取時采用二次加密方式,防止傳輸過程中的數據篡改或竊取。

3.2.7 支持版本回溯。本系統進行版本控制,確保重要文檔歷史版本可追溯還原。

3.2.8 分域權限管理。任何客戶端在加入分布域后,都可以實現自動維護,減少人員維護。域管理員可以隨時調配軟硬資源。

3.3 CDS架構設計

CDS的總體架構圖如圖1所示。CDS架構設計整體上采用一種跨平臺的語言,可以編譯為獨立的執行程序,支持X86處理器和ARM處理器的運行,同時確保以下關鍵環節。①盡量采用開源穩定的組件,減少對第三方軟件的依賴。②使用NoSQL數據庫作為計算緩存,嵌入式數據庫作為持久化存儲。③對于核心數據要采用證書式不對稱加密保護,而保密要求低的文件主要采用對稱加密。④基于FastDFS的設計思路,融入HDFS部分功能的同時,引入去中心化的設計思想。⑤采用多線程技術,每種服務負責一個線程通信;采用HTTP協議最大化兼容網絡安全通信設備。⑥使用本地內存緩存策略,在保護數據的安全性的前提下,不強制數據的實時同步,通過統計請求數據的策略,實現數據的自動同步優化。⑦數據要使用切片存儲,便于網絡傳輸優化;冷數據或碎片數據可重新打包進行存儲,降低宿主操作系統的分區表管理壓力。

4 結語

由于開源性及對第三方軟件依賴的減少,基于CDS的分布式存儲設計可提升系統的可維護性、功能開發的拓展性;同時,輕量級的設計減少部署及維護的成本,對特殊行業局域網內的分布式存儲具有一定的推廣意義。

參考文獻:

[1] 馬仁杰,沙洲,羅吉鵬.論區塊鏈思維下我國檔案信息服務模式的優化路徑[J].檔案學研究,2021(4):94-99.

[2] 劉蘇英.分布式文件存儲系統在電子通信大數據存儲中的應用[J].九江學院學報(自然科學版),2021(2):78-80.

[3] 孟慶玉.基于云計算的分布式存儲技術研究[J].信息系統工程,2018(10):43.

[4] 遲松特.云計算環境下的分布存儲關鍵技術[J].中國管理信息化,2021(16):167-168.

[5] 朱良杰,沈佳杰,周揚帆,等.云際存儲系統性能優化研究現狀與展望[J].計算機工程與科學,2021(5):761-772.

[6] 張曉,張思蒙,石佳,等.Ceph分布式存儲系統性能優化技術研究綜述[J].計算機科學,2021(2):1-12.

[7] 戴威.一種跨HDFS集群的文件資源分布式高效存儲方法[J].電子設計工程,2019(21):14-17,22.

[8] 董聰,張曉,程文迪,等.基于新型存儲器件的分布式文件系統性能優化[J].計算機應用,2020(12):3594-3603.

猜你喜歡
存儲技術性能優化架構設計
關于云計算平臺中存儲技術的探討
中國開創第三類存儲技術
SQL Server數據庫性能優化的幾點分析
Web應用的前端性能優化
基于智能終端的照護保險服務管理系統的架構設計
健康無憂網
Oracle數據庫性能調整與優化分析
云數據安全存儲技術分析
基于心電遠程會診平臺實現醫療資源共享
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合