用Docker在一臺筆記本電腦上搭建一個具有10個節點7種角色的Hadoop集群(下)-搭建Hadoop集群

来源:http://www.cnblogs.com/chengyujia/archive/2017/05/16/6860551.html
-Advertisement-
Play Games

上篇:用Docker在一臺筆記本電腦上搭建一個具有10個節點7種角色的Hadoop集群(上)-快速上手Docker 上篇介紹了快速上手Docker部分,下麵接著介紹搭建Hadoop集群部分。 六、搭建Hadoop偽分佈模式 我們先用前面創建的這個容器來搭建Hadoop偽分佈模式做測試,測試成功後再搭 ...


上篇:用Docker在一臺筆記本電腦上搭建一個具有10個節點7種角色的Hadoop集群(上)-快速上手Docker

上篇介紹了快速上手Docker部分,下麵接著介紹搭建Hadoop集群部分。

 

六、搭建Hadoop偽分佈模式

我們先用前面創建的這個容器來搭建Hadoop偽分佈模式做測試,測試成功後再搭建完全分散式集群。

1.SSH
這個centos容器可以看做是一個非常精簡的系統,很多功能沒有,需要自己安裝。
Hadoop需要SSH,但容器沒有自帶,需要我們安裝。
①安裝SSH

# yum -y install openssh-clients openssh-server


②生成3個key文件

# ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
一路回車

# ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key
一路回車

# ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key
一路回車


③啟動sshd

# /usr/sbin/sshd


④修改root密碼
因為預設的密碼不知道,我們重新設置一下。

# passwd root


⑤設置ssh免密登錄到本機

# ssh-keygen
一路回車

# ssh-copy-id localhost
輸入密碼

# ssh localhost

免密登錄成功

# exit

退回到剛纔的shell中。


2.which
運行hadoop需要which命令,同樣容器沒有自帶,需要我們安裝。

# yum -y install which


3.文件複製
下麵我們將已經提前準備好的JDK和Hadoop從宿主機上複製到容器中。註意,複製操作要在Docker宿主機上進行。

$ docker cp /home/chengyujia/jdk1.7.0_80/ pseudo-distributed:/root/
$ docker cp /home/chengyujia/hadoop-2.7.3/ pseudo-distributed:/root/

在容器中可以看到JDK和Hadoop已複製到位。



4.配置環境變數併在容器啟動時啟動sshd
在/etc/profile.d中新建一個run.sh文件
在run.sh文件中寫入下麵6行內容:

export JAVA_HOME=/root/jdk1.7.0_80
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/root/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
/usr/sbin/sshd

用exit命令退出容器,重新啟動併進入容器,上面配置的環境變數會生效,sshd也會啟動。


5.hadoop偽分散式配置
①配置hadoop-env.sh

將export JAVA_HOME=${JAVA_HOME}中的${JAVA_HOME}替換為具體路徑,這裡為export JAVA_HOME=/root/jdk1.7.0_80。

②配置core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

③配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

④配置mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

⑤配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>


6.啟動偽分佈集群並運行wordcount示常式序
①準備測試數據
新建一個input文件夾,在這個文件夾中新建一個test.txt文件,裡面隨便寫點單詞,然後將該文件多複製幾份,我這裡複製了5份。


②格式化namenode

# hdfs namenode -format

③啟動HDFS

# start-dfs.sh

④啟動YARN

# start-yarn.sh

⑤查看相關進程是否都啟動

# jps

如有以下5個進程,說明啟動成功。

DataNode
NodeManager
NameNode
SecondaryNameNode
ResourceManager

⑥將測試數據複製到HDFS中

# hdfs dfs -put /root/input /


⑦運行wordcount示常式序

# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output

⑧查看輸出結果

# hdfs dfs -cat /output/part-r-00000


從截圖可以看出輸出正確。偽分散式測試完畢。

 

七、搭建Hadoop完全分散式集群

1.集群規劃

1個NameNode節點
1個SecondaryNameNode節點
1個ResourceManager節點
1個JobHistory節點
5個Slave節點
1個Client節點

其中Slave節點包含DataNode和NodeManager兩種角色。
Client節點是用來操作的節點,所有操作都儘量在這個節點上進行。
以上共10個節點,7種角色。

2.將上面的偽分散式容器打包成鏡像
理論上,我們只要將上面的偽分散式容器複製10份,然後改改配置文件就行了。但是Docker容器不能直接複製,需要先打包成鏡像,然後用這個鏡像生成10個新的容器。
命令如下:

$ docker commit -a "成宇佳" -m "Hadoop在centos上搭建的偽分佈模式。" pseudo-distributed hadoop-centos:v1

-a 表示作者。
-m 表示對該鏡像的說明。
pseudo-distributed 被打包容器的名稱
hadoop-centos:v1 生成鏡像的名稱及版本
需要知道的是,因為這個被打包的容器是通過centos鏡像創建的,所以由該容器打包成的新鏡像也包含了centos鏡像。



3.創建網路

$ docker network create hadoop_nw

這裡新建了一個叫hadoop_nw的網路,後面將10個Hadoop節點容器都加入到該網路,就能相互間通信了。而且不需要配置hosts文件,直接通過容器名稱即可訪問。

$ docker network ls

通過該命令可以查看所有的網路,除了我們剛創建的hadoop_nw網路,其它都是安裝Docker時自動生成的,在本文中不用管它們。



4.用新生成的鏡像創建10個容器

$ docker run -itd --network hadoop_nw -h namenode --name namenode -p 50070:50070 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h secondarynamenode --name secondarynamenode hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h resourcemanager --name resourcemanager -p 8088:8088 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h jobhistory --name jobhistory -p 19888:19888 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave1 --name slave1 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave2 --name slave2 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave3 --name slave3 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave4 --name slave4 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h slave5 --name slave5 hadoop-centos:v1
$ docker run -itd --network hadoop_nw -h client --name client hadoop-centos:v1

-itd     表示打開終端但不進入
--network  表示加入到哪個網路
-p      表示埠映射
從上面可以看到namenode、resourcemanager和jobhistory這3個節點做了埠映射。埠映射的作用是將Docker宿主機的某個埠映射到容器的某個埠上,這樣我們通過訪問Docker宿主機的這個埠就能間接訪問到相應的容器埠了。就像從外網訪問內網中的某台機器一樣。我們在後面通過瀏覽器查看集群信息的時候會用到。



5.修改Hadoop配置文件
我們在client節點修改,然後複製到其它節點。
①配置core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/root/hadoop-2.7.3/data</value>
    </property>
</configuration>

②配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>secondarynamenode:50090</value>
    </property>
</configuration>

③配置mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>jobhistory:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>jobhistory:19888</value>
    </property>
</configuration>

④配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resourcemanager</value>
    </property>
</configuration>

⑤配置slaves文件

slave1
slave2
slave3
slave4
slave5

 
6.配置節點間SSH免密登錄
在client節點執行:

# ssh-copy-id namenode
# ssh-copy-id secondarynamenode
# ssh-copy-id resourcemanager
# ssh-copy-id jobhistory
# ssh-copy-id slave1
# ssh-copy-id slave2
# ssh-copy-id slave3
# ssh-copy-id slave4
# ssh-copy-id slave5

在resourcemanager節點執行:

# ssh-copy-id slave1
# ssh-copy-id slave2
# ssh-copy-id slave3
# ssh-copy-id slave4
# ssh-copy-id slave5

 
7.複製配置文件到所有節點
在client節點執行:

# scp -r $HADOOP_HOME/etc/hadoop namenode:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop secondarynamenode:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop resourcemanager:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop jobhistory:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave1:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave2:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave3:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave4:$HADOOP_HOME/etc
# scp -r $HADOOP_HOME/etc/hadoop slave5:$HADOOP_HOME/etc


8.啟動Hadoop集群
在client節點執行:
①格式化namenode

# ssh namenode "hdfs namenode -format"

②啟動HDFS集群

# start-dfs.sh

③啟動YARN集群

# ssh resourcemanager "start-yarn.sh"

④啟動JobHistory

# ssh jobhistory "mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR start historyserver"

 
9.在瀏覽器中查看集群信息
由於指定過相應容器的埠映射,我在我的Windows上用瀏覽器訪問Docker宿主機相應的埠就能訪問到容器。

HDFS        http://Docker宿主機IP:50070/
YARN        http://Docker宿主機IP:8088/
jobhistory    http://Docker宿主機IP:19888/

從web上可以看到集群正常:


 

10.運行wordcount示常式序
①將測試數據複製到HDFS中

# hdfs dfs -put /root/input /


②運行wordcount示常式序

# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output

③查看輸出結果

# hdfs dfs -cat /output/part-r-00000


從截圖可以看到輸出結果正確。完全分散式集群搭建完畢。

 

參考資料

寫本文時參考了很多網上的資料,在此一併表示感謝!

docker 安裝hadoop
http://www.cnblogs.com/liqiu/p/4164406.html

docker安裝hadoop集群
http://www.cnblogs.com/songfy/p/4716431.html

Docker搭建hadoop集群
http://www.cnblogs.com/liuyifeng/p/5383076.html

基於Docker快速搭建多節點Hadoop集群
http://dockone.io/article/395

基於Docker搭建Hadoop集群之升級版
http://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/

使用docker搭建hadoop分散式集群
http://blog.csdn.net/xu470438000/article/details/50512442

使用Docker在本地搭建Hadoop分散式集群
http://tashan10.com/yong-dockerda-jian-hadoopwei-fen-bu-shi-ji-qun/

Docker實戰(十四):Docker安裝Hadoop環境
http://blog.csdn.net/birdben/article/details/51724126

從 0 開始使用 Docker 快速搭建 Hadoop 集群環境
http://www.jianshu.com/p/b75f8bc9346d


本文結束,謝謝大家!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Android N 可以同時顯示多個應用視窗。 在手機上,兩個應用可以在“分屏”模式中左右併排或上下併排顯示。例如,用戶可以 在上面視窗聊QQ,下麵視窗發送簡訊。 如圖所示,兩個app在分屏模式中上下顯示: 如何讓你的app支持多視窗? 如果你的app支持Adnroid N,在AndroidMani ...
  • 1.用代碼設置顏色 ...
  • 最近開發導入其他Android項目遇見的問題,如下圖: 解決辦法: 將org.gradle.jvmargs=的值該為521(堆記憶體分配過高導致) 備忘,希望能幫助到大家 ...
  • 對於數據的操作大體可分為4種:創建、查詢、刪除、修改(簡稱為“增刪改查”,也成為crud,即create/retrieve/update/delete)。 1. 創建數據 :insert into tb_name (欄位列表) values(值列表); 對於左圖的table,若想插入數據,但只對其中 ...
  • 先ctrl+H ,出現如下對話框 點擊“定位”,選擇“空值” 在表格中空的位置上編輯欄輸入0,CTRL+ENTER,即可將缺失數據全部用0補齊。 ...
  • 本來想自己寫存儲過程的,但是看到別人寫的很全面,就直接轉載過來了。 轉自(http://www.cnblogs.com/exmyth/p/3303470.html) 14.1.1 創建存儲過程 MySQL中,創建存儲過程的基本形式如下: 其中,sp_name參數是存儲過程的名稱;proc_param ...
  • 針對database和table的操作大致可分為三類:創建,查詢,修改,刪除 1. 創建 create ①創建資料庫 create database db_name; ②創建表 create table db_name.tb_name (列的屬性) [表選項]; tip : 必須指明所屬的資料庫(也 ...
  • 轉自:http://blog.163.com/magicc_love/blog/static/18585366220123111128283/ 修改部分為紅色部分,原作者寫錯了 啟動PL/SQL Developer 報字元編碼不一致錯誤 Database character set (AL32UTF ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...