?

基于云計算的漢字文化數字化平臺建設研究

2023-05-10 16:54焦東杰
計算機應用文摘·觸控 2023年9期
關鍵詞:數字化平臺漢字文化云計算

焦東杰

關鍵詞:云計算;漢字文化;數字化平臺

漢字數字化技術涉及研究領域十分廣泛,其所包含內容豐富,不僅有漢字本身的數字化信息,還可對漢字文化進行內涵式外延,充分挖掘漢字背后所隱藏的知識;而借助現代信息技術對其進行存儲、處理與分析之后再予以呈現,則可讓人們對我國的漢字有更深入的了解,激發他們對漢字中所蘊含的傳統文化的探究興趣[1]。因此,本文主要基于云計算、大數據技術,探究漢字文化數字化平臺的設計思路以及系統架構。

1基于云計算的漢字文化數字化平臺的整體設計思路

漢字文化數字化信息量龐大并仍呈現增長趨勢,同時數據格式還非常多元化,屬于異構數據類型。比如,對漢字進行釋義、歷史演義的是文本數據,讀漢字的是音頻數據,書寫漢字這一過程又需要視頻數據。這些數據可與用戶的行為數據聯系起來,借助數據分析技術了解其隱藏的某些規律和內容,繼而令數據有了更高的應用價值,引發人們對漢字文化產生更濃厚的興趣。從本質上來看,漢字文化數字化與大數據所具備的海量、快速、多樣以及價值性特征都有著相同之處,所以基于云計算和大數據的設計思路來構建漢字文化數字化平臺,理應成為不二之選[2]。在構建該平臺時,平臺體驗系統應由多個不同子系統組成,其中包括漢字演示系統、構字法系統、書寫系統等。每個子系統的前端應以Web網頁的形式實現,通過人機交互原則和可視化的虛擬現實技術,用戶可在瀏覽器上對所輸入漢字產生的文化要素進行人機交互體驗。通常而言,子系統要訪問的數據大致可分為描述性文本數據、圖文數據、音頻數據、視頻數據等。另外,體驗系統在數據管理及分析上還需借助云服務平臺,以保障各種基礎服務,系統研發人員在設計云服務平臺時,應著重考慮平臺的高可用性、高拓展性、高伸縮性、高安全性等問題。

2基于云計算的漢字文化數字化平臺的構建方案

漢字文化數字化平臺應基于云計算構建3層架構模式,分別為IaaS(基礎設施即服務)、PaaS(平臺即服務)和SaaS(軟件即服務)。

2.1平臺基礎設施層設計

基礎設施層可為漢字文化數字化平臺提供硬件條件,平臺系統可使用IBMLexSystem作為主機,應用VMware虛擬技術,建立虛擬計算機資源池、數據存儲池、網絡資源池,方便用戶對資源進行利用和管理。通過構建虛擬計算機集群,實現可隨時靈活使用系統資源的目的。

2.2平臺服務層設計

服務層可為漢字文化數字化平臺提供數據管理服務以及各種類型計算機服務,促使用戶更好地體驗系統軟件的運行環境。具體各個服務模塊之間的關系如圖1所示.

2.2.1運行環境

平臺體驗性利用Java開發的B/S結構Web軟件實現,所以在服務層部署應用服務設備,繼而給用戶體驗系統提供運行環境。鑒于Tomcat配置不高,在處理靜態文件時效果不好,因此利用動靜分離技術部署NginX作為Web服務器應用,以更強的靜態文件處理能力處理HTML,JPG格式數據:將Tomcat作為Servlet容器,以處理JSP,servle等動態文件。假如一個Tomcat服務器達到使用上限,還可水平拓展,即重新布置一個新的Tomcat服務器,并借助NginXde的自動負載能力來均衡調節Tomcat的計算資源。

2.2.2數據管理

服務層不僅可提供系統運行環境,還可為用戶提供數據存儲、管理等基礎性服務。漢字文化數字化信息一般可分為結構化數據與非結構化數據2種,其中結構化數據以漢字的描述性信息為主,如漢字的歷史發展背景、漢字釋義,這類數據被保存在關系型數據庫,而MySQL則用于管理結構化數據。鑒于對數據高可用性、可擴展性的需求,則利用了MySQL Cluster數據庫集群技術管理關系型數據庫。具體如圖2所示。

MySQL Cluste作為一種分布式存儲技術,在存儲關系型數據上有著更大的優勢:將數據置于NDB存儲服務器節點上,通過MySQL Cluste的無共享模式,將分布于不同節點的數據形成一個內存數據庫,并利用其中一個管理節點對所有數據節點予以管理。當某個數據節點面臨崩潰時,數據就會自動通過其他節點進行復制,再次恢復該節點的高可用性。綜合當前數據量以及潛在訪問量,通過MySQL Cluste部署2個MySQL Serve節點與4個NDB存儲節點。

漢字文化數字化信息中包括大量的非結構化數據,如圖片、音頻、視頻等,相較于關系型數據庫,這一類文件更適合存儲在文件系統中。通過對比幾種不同的分布式文件系統,選擇Hadoop框架中HDFS文件系統,不僅是因其所具備的高可用性及可擴展性,還有接下來對大數據分析的需求性要求,它與Hadoop,MapReduce編程模型有著極好的兼容性。但是,漢字文化數字化系統中有大量小型文件數據,如一張圖片僅有6 MB內存,Hadoop HDFS則更適用于大于64 MB內存的文件,這會在一定程度消耗其系統內存資源,降低文件訪問速度。針對此問題,本文提出圖1所示的文件預取系統,提前將有關數據進行讀取緩存,以擴大文件訪問擊中率,降低HDFS小型文件的訪問壓力。

2.2.3緩存策略

在服務層中部署Mem cached緩存服務器,其緩存策略則是基于訪問時間進行的LRU算法。因此,應用程序在訪問數據時則會先行訪問Mem cached服務器來查找所需數據。由于Mem cached在內存中緩存數據及對象,所以數據訪問速度較快。

2.2.4日志管理

在漢字文化數字化系統中包括用戶行為日志及系統資源日志,分析這些數據可促進系統資源及性能的優化,并實現個性化漢字文化體驗的推薦功能。為收集用戶行為數據,可利用Apache Flume系統,其擴展性更好,并可將數據發送到HBase數據庫保存,同時推給Apache Kafka予以數據分析,此時不同模塊的數據需求會存在交集,通過消息訂閱模式可在多個模塊中同步利用同一數據。

2.2.5數據分析系統

數據分析在漢字文化數字化平臺主要用于開展系統資源監管、用戶行為分析以及文化預取策略計算[3-5]。云服務平臺可提供實時、非實時、半實時數據分析,并分別對應進行系統資源監管、面向用戶開展行為分析以及文件預取,以上模塊內部流程可參考圖1。

(1)系統運維人員可利用實時分析技術發現系統問題并采取應對措施,繼而不斷優化系統。SparkStreaming有著高可用性與拓展性,能把所接收的實時數據離散為RDD數據塊,再對同段時間的數據予以計算處理,而因為這一計算過程是在內存中進行的,所以Spark Streaming的計算速度可實現以秒為單位。

(2)用戶行為分析則是對大量歷史數據展開分析,并無較高的實時性要求,所以更為側重分析模塊的數據吞吐能力,選擇Hadoop MapReduce作為分析算法的編程模型,用戶行為分析系統可將用戶真正感興趣的漢字文化進行優先推薦。

(3)文件預取分析系統是通過預取分析模塊來計算預取策略,從而獲悉所需提前預取的文件。這一流程被分為非實時數據分析、實時數據分析2部分,而且它們是相對獨立運行的。首先,針對存入HBase的日志數據采取關聯分析算法開展分析,尋找被訪問文件的關聯性;其次,借助流技術開展實日寸統計,獲得文件近期的訪問頻次;最后,根據文件訪問關聯性、訪問頻次進行加權,由此計算出最有可能被用戶訪問的文件。

2.2.6系統資源管理

通過服務層實現由一個系統資源管理模塊來監測漢字文化數字化平臺的資源利用與數據管理工作。首先,對系統資源利用情況的檢測,應用ClouderaCDH開源平臺管理Hadoop系統,在圖形界面上嵌入Cloudera Manager的GUI作為大數據的可視化監控界面,除可對CPU利用率、網絡I/O、磁盤I/O等系統資源的應用情況進行監測,還可對Hadoop的組件、虛擬機予以可視化管理。其次,MySQL Cluster集群監管是在系統管理模塊的GUI界面中嵌入phpMyAdmin作為MySQL Cluster的管理界面,以此監控MySQL服務器的運行情況,并對其所存儲的數據進行管理。最后,對HDFS文件系統的管理,HDFS中存儲著業務數據以及日志,為安全管理這些數據而開發其文件管理模塊,實現對文件的“增減查改”操作。文件安全操作主要從2個方面得以體現:一是對系統管理員嚴格授權,如有需更新、刪減的文件,一定要至少2個超級管理員驗證方可通過;二是將有待更新、刪減的文件先行備份到另一臺服務器上,再從HDFS上進行操作,安全審計人員需要定期檢查操作情況,所存在未經允許的操作,則應從備份服務器上對數據再次進行恢復處理。

2.3軟件層設計

軟件層重點集中在體驗系統的設計上,軟件系統主要以多租戶模式為主,并按用戶需求提供服務。多租戶模式指的是用戶可通用一個或一組程序,在實現方面,遵循SaaS成熟度模型的可擴展、可配置及高效率來設計實例池,默認體驗系統程序的多個實例并將其部署在一臺Tomcat服務器上,所以租戶都可共享這一實例池,實例池可按照實際運營性能(如數據吞吐量)來調整池中計算節點的數量,并進行負載均衡。體驗系統通過配置文件實現每個租戶專有的UI與使用功能,從而可提供系統資源與功能2方面的按需服務[6]。

3結束語

在該系統平臺中充分應用了云計算的虛擬計算機集群技術、實時流計算技術,促使系統資源實現了高可用性,令平臺更為安全可靠。在該領域中,系統平臺的研究重點依舊在于強化結構的設計層面上,而伴隨一些全新體驗系統的開發,更多可復用功能可抽象為服務,尤其是今后以SOA云架構為基礎必然會提高云服務平臺的效率,幫助用戶獲得更全面、良好的漢字文化數字化體驗。

猜你喜歡
數字化平臺漢字文化云計算
中職學校打造精品課程數字化平臺的探索
遵循識字教學規律,實現“互動識字”
傳統文化在小學語文教學中的融合與滲透
指向核心素養,詞串識字教學的應然追求
中學語文課堂的漢字基本教學策略
面向液壓挖掘機電控多路閥的控制系統參數整定
基于云計算的移動學習平臺的設計
實驗云:理論教學與實驗教學深度融合的助推器
云計算中的存儲虛擬化技術應用
網絡安全的高校數字化平臺信息共享機制研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合