?

基于VMware搭建Hadoop偽分布式實驗平臺

2022-05-13 20:47孫愛婷

科學家 2022年5期

關鍵詞：實驗平臺

摘要：Hadoop是一個能夠對大量數據進行分布式處理的軟件框架，為了滿足大數據技術專業學生實驗的需要，采用VMware虛擬機在單機環境下搭建Hadoop偽分布式實驗平臺，通過實驗過程操作和程序運行可以看出，偽分布式平臺搭建可以支持輕量級的大數據學習需要。

關鍵詞：Hadoop;偽分布式;實驗平臺

一、Hadoop概述

Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，并且設計用來部署在低廉的硬件上，而且它提供高吞吐量來訪問應用程序的數據，適合那些有著超大數據集的應用程序。

二、Hadoop安裝方式

（1）單機模式

Hadoop 默認模式為非分布式模式（本地模式），無需進行其他配置即可運行。非分布式即單 Java 進程，方便進行調試。

（2）偽分布式模式

Hadoop 可以在單節點上以偽分布式的方式運行，Hadoop 進程以分離的 Java 進程來運行，節點既作為 NameNode 也作為 DataNode，同時，讀取的是 HDFS 中的文件。

（3）分布式模式

使用多個節點構成集群環境來運行Hadoop，實驗中通常在虛擬機下建立三個節點（一個主節點和兩個叢節點）。

三、Hadoop偽分布式模式搭建過程

（1）實驗環境

本文使用Ubuntu 14.04 64位作為系統環境，安裝所需軟件包有：hadoop-2.7.1.tar.gz、 jdk-8u162-linux-x64.tar.gz。

（2）創建hadoop用戶

在終端環境下，創建新用戶hadoop：sudo useradd –m hadoop –s /bin/bash;設置hadoop用戶密碼：sudo passwd hadoop;為 hadoop 用戶增加管理員權限，方便部署：sudo adduser hadoop sudo。

（3）安裝SSH、配置SSH無密碼登陸

Ubuntu 默認已安裝 SSH client，還需要安裝 SSH server：sudo apt-get install openssh-server;使用如下命令登陸本機：ssh localhost;利用 ssh-keygen 生成密鑰：ssh-keygen -t rsa;加入授權：cat ./id_rsa.pub >> ./authorized_keys

（4）安裝Java環境

創建/usr/lib/jvm目錄用來存放JDK文件：sudo mkdir /usr/lib/jvm;將下載好的JDK安裝包jdk-8u162-linux-x64.tar.gz解壓到上面創建的目錄下：sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm;編輯環境變量配置文件：vim ～/.bashrc，在文件開頭位置添加如下幾行內容：export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162和export PATH=${JAVA_HOME}/bin：$PATH;執行配置文件，使其立即生效：source ～/.bashrc;查看Java版本信息：執行java –version命令。

（5）安裝Hadoop

將下載好的hadoop-2.7.1.tar.gz解壓到/usr/local：sudo tar –zxvf? ～/hadoop-2.7.1.tar.gz -C /usr/local;將解壓后的文件夾名改為hadoop：sudo mv ./hadoop-2.7.1/ ./hadoop;修改文件權限：sudo chown -R hadoop ./hadoop;Hadoop 解壓后即可使用，輸入如下命令來檢查 Hadoop 是否可用，成功會顯示 Hadoop 版本信息：執行cd /usr/local/hadoop和./bin/hadoop version命令。

（6）偽分布式安裝配置

Hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/ 中，偽分布式需要修改2個配置文件core-site.xml 和 hdfs-site.xml，見圖1;配置完成后，執行 NameNode 的格式化命令：cd /usr/local/hadoop和./bin/hdfs namenode –format命令，成功的話會看到“successfully formatted”。

（7）啟動Hadoop

執行cd /usr/local/hadoop和./sbin/start-dfs.sh命令，即可啟動Hadoop。

四、實例應用

以計算數學中PI的值為實例，在Hadoop偽分布式平臺上運行，在運行實例之前需要完成MapReduce相關配置。

切換到Hadoop配置文件目錄：cd /usr/local/hadoop/etc/hadoop;將mapreduce的配置文件mapred-site.xml.template，重命名為mapred-site.xml：mv mapred-site.xml.template mapred-site.xml;修改配置文件mapred-site.xml和yarn-site.xml，見圖3;啟動yarn組件：cd /apps/hadoop/sbin/和./start-yarn.sh命令;切換到/usr/local/hadoop/share/hadoop/mapreduce目錄，在該目錄下運行一個mapreduce程序：

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar pi 3 3，計算出PI的值，見圖2。

參考文獻：

[1]崔文斌.Hadoop大數據平臺的搭建與測試[J].山東農業大學學報（自然科學版），2013，44（4）：550-551.

[2]汪慶.偽分布式大數據平臺搭建實驗綜述[J].福建電腦，2020，36（10）：131-132.

[3]周晴紅.Hadoop大數據開發技術課程實踐教學[J].辦公自動化雜志，2021（457）：20-21.

[4]梁天友，邱敏.基于Hadoop技術的大數據就業崗位數據分析[J].電腦知識與技術，2021（31）：47.

[5]張雪.基于Hadoop技術的聯通大數據采集研究[J].信息與電腦，2021（24）：199-200.

[作者簡介]孫愛婷（1984-），女，漢族，遼寧大連人，講師，碩士，遼寧輕工職業學院，信息工程系大數據技術專業主任，主要研究方向：大數據技術。

猜你喜歡

生物醫學工程專業創新人才培養策略

中國教育技術裝備(2016年20期)2016-12-12

單片機仿真實驗平臺的設計分析

科教導刊·電子版(2016年27期)2016-11-18

基于LabVIEW下嵌入式系統實驗平臺的設計與實現分析

電腦知識與技術(2016年10期)2016-06-16

基于LabVIEW的虛擬實驗平臺設計

科技視界(2016年2期)2016-03-30

科學家2022年5期

科學家的其它文章: 榆樹新品種“鶴山榆”選育研究; 雜環基縮胺硫脲的合成及其抗癌活性分析; 淺析國有企業投資方對合伙私募股權基金的會計處理; 大學生的社交焦慮對人際交往的影響：以自我認知為中介; 豬養殖中常見細菌性疾病及癥狀; 10kV配網調度運行故障與處理方法研究

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合