java大數據最全課程學習筆記(2)--Hadoop完全分散式運行模式

来源:https://www.cnblogs.com/gitBook/archive/2020/07/14/13302183.html
-Advertisement-
Play Games

目前CSDN,博客園,簡書同步發表中,更多精彩歡迎訪問我的gitee pages Hadoop完全分散式運行模式 步驟分析: 準備3台客戶機(關閉防火牆、靜態ip、主機名稱) vim /etc/sysconfig/network 三台機器各自的配置分別為HOSTNAME=hadoop101;HOST ...


目前CSDN,博客園,簡書同步發表中,更多精彩歡迎訪問我的gitee pages

目錄

Hadoop完全分散式運行模式

步驟分析:

  1. 準備3台客戶機(關閉防火牆、靜態ip、主機名稱)

    vim /etc/sysconfig/network

    三台機器各自的配置分別為HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103

    vim /etc/hosts

    三台機器都加入下麵的映射關係

    192.168.1.101 hadoop101
    192.168.1.102 hadoop102
    192.168.1.103 hadoop103
    
  2. 安裝JDK

  3. 配置環境變數

  4. 安裝Hadoop

  5. 配置環境變數

  6. 配置集群

  7. 單點啟動

  8. 配置ssh

  9. 群起並測試集群

由於在上一章節已經配置好環境並測試了hadoop偽分散式開發模式,所以在此不再贅述.

編寫集群分發腳本xsync

  1. scp(secure copy) 安全拷貝(全量複製)

    1. scp定義

      scp可以實現伺服器與伺服器之間的數據拷貝.(from server1 to server2)

    2. 基本語法

      scp -r 源文件用戶名A@主機名1:path1 目標文件用戶名B@主機名2:path2

    3. 其他

      1. 如果從本機執行讀取或寫入,用戶名B@主機名2:可以省略!
      2. 在主機1上,使用A用戶讀取path1的文件,再使用用戶B登錄到主機2,在主機2的path2路徑執行寫入!
      3. 要求:
        1. 用戶名A@主機名1 對path1有讀許可權
        2. 用戶名B@主機名2 對path2有寫許可權
  2. rsync 遠程同步工具

    rsync主要用於備份和鏡像。具有速度快、避免複製相同內容和支持符號鏈接的優點。
    rsync和scp區別:用rsync做文件的複製要比scp的速度快,rsync只對差異文件做更新。scp是把所有文件都複製過去。

    rsync -rvlt path1 目標文件用戶名B@主機名2:path2

    選項 功能
    -r 遞歸
    -v 顯示覆制過程
    -l 拷貝符號連接
    -t 基於文件的修改時間進行對比,只同步修改時間不同的文件

    只能將本機的文件同步到其他機器!

    註意:path1是個目錄,目錄以/結尾,只會同步目錄中的內容,不會同步目錄本身!目錄不以/結尾,同步目錄中的內容,也會同步目錄本身!

  3. 編寫xsync集群分發腳本

    1. 需求:迴圈複製文件到所有節點的相同目錄下,即將當前機器的文件,同步到集群所有機器的相同路徑下!例如:hadoop102:/A/a , 執行腳本後,將此文件同步到集群中所有機器的 /A/a

    2. 需求分析:

      1. 用戶在使用xsync時,只需要傳入要同步的文件即可
        xysnc a
        不管a是一個相對路徑還是絕對路徑,都需要將a轉換為絕對路徑!
      2. 文件的絕對路徑:
        父路徑: dirpath=$(cd dirname /home/atguigu/hi; pwd -P)
        文件名: filename=basename hi
        pwd -P為了避免軟鏈接無法獲取到真實的父路徑
      3. 核心命令:
        for(())
        do
        rsync -rvlt path1
        done
      4. 說明:在/home/atguigu/bin這個目錄下存放的腳本,atguigu用戶可以在系統任何地方直接執行。
    3. 腳本實現:

      [atguigu@hadoop102 ~]$ mkdir bin
      [atguigu@hadoop102 ~]$ cd bin/
      [atguigu@hadoop102 bin]$ touch xsync
      [atguigu@hadoop102 bin]$ vi xsync
      
      • 在該文件中編寫如下代碼

        #!/bin/bash
        #校驗參數是否合法
        if(($#==0))
        then
        		echo 請輸入要分發的文件!
        		exit;
        fi
        #拼接要分發文件的絕對路徑
        dirpath=$(cd `dirname $1`; pwd -P)
        filename=`basename $1`
        
        echo 要分發的文件的路徑是:$dirpath/$filename
        
        #迴圈執行rsync分發文件到集群的每台機器
        for((i=101;i<=103;i++))
        do
        		echo --------------hadoop$i-------------------
        		rsync -rvlt $dirpath/$filename atguigu@hadoop$i:$dirpath
        done
        
      • 修改腳本 xsync 具有執行許可權

        [atguigu@hadoop102 bin]$ chmod 777 xsync
        

        或者

        [atguigu@hadoop102 bin]$ chmod u+x xsync
        
      • 調用腳本形式:xsync 文件名稱

    4. 編寫批量執行同一命令的腳本

      #!/bin/bash
      #在集群的所有機器上批量執行同一條命令
      if(($#==0))
      then
      		echo 請輸入您要操作的命令!
      		exit;
      fi
      
      echo 要執行的命令是$*
      
      #迴圈執行此命令
      for((i=101;i<=103;i++))
      do
      		echo --------------hadoop$i-------------------
      		ssh hadoop$i $*
      done
      

集群配置

集群部署規劃

hadoop101 hadoop102 hadoop103
HDFS NameNode DataNode DataNode SecondaryNameNode DataNode
YARN NodeManager ResourceManager NodeManager NodeManager

配置集群

  1. 核心配置文件

    • 配置core-site.xml

    [atguigu@hadoop102 hadoop]$ vi core-site.xml

    • 在該文件中編寫如下配置
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
    	<name>fs.defaultFS</name>
         <value>hdfs://hadoop101:9000</value>
    </property>
    <!-- 指定Hadoop運行時產生文件的存儲目錄 -->
    <property>
    	<name>hadoop.tmp.dir</name>
    	<value>/opt/module/hadoop-2.7.2/data/tmp</value>
    </property>
    
  2. HDFS配置文件

    • 配置hadoop-env.sh

      [atguigu@hadoop102 hadoop]$ vi hadoop-env.sh

      export JAVA_HOME=/opt/module/jdk1.8.0_144

    • 配置hdfs-site.xml

      [atguigu@hadoop102 hadoop]$ vi hdfs-site.xml

    • 在該文件中編寫如下配置

      <property>
      	  <name>dfs.replication</name>
      	  <value>3</value>
      </property>
      <!-- 指定Hadoop輔助名稱節點主機配置 -->
      <property>
           <name>dfs.namenode.secondary.http-address</name>
           <value>hadoop103:50090</value>
      </property>
      
  3. YARN配置文件

    • 配置yarn-env.sh

      [atguigu@hadoop102 hadoop]$ vi yarn-env.sh

      export JAVA_HOME=/opt/module/jdk1.8.0_144

    • 配置yarn-site.xml

      [atguigu@hadoop102 hadoop]$ vi yarn-site.xml

    • 在該文件中增加如下配置

      <!-- reducer獲取數據的方式 -->
      <property>
      	  <name>yarn.nodemanager.aux-services</name>
      	  <value>mapreduce_shuffle</value>
      </property>
      <!-- 指定YARN的ResourceManager的地址 -->
      <property>
      	  <name>yarn.resourcemanager.hostname</name>
      	  <value>hadoop101</value>
      </property>
      
  4. MapReduce配置文件

    • 配置mapred-env.sh

      [atguigu@hadoop102 hadoop]$ vi mapred-env.sh

      export JAVA_HOME=/opt/module/jdk1.8.0_144

    • 配置mapred-site.xml

      [atguigu@hadoop102 hadoop]$ vi mapred-site.xml

    • 在該文件中增加如下配置

      <!-- 指定mr運行在yarn上 -->
      <property>
      	  <name>mapreduce.framework.name</name>
      	  <value>yarn</value>
      </property>
      
  5. 在集群上分發配置好的Hadoop配置文件

    [atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/

  6. 查看文件分發情況

    xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

集群單點啟動

  1. 如果集群是第一次啟動,需要格式化NameNode

    [atguigu@hadoop102 hadoop-2.7.2]$ hadoop namenode -format

  2. 在hadoop102上啟動NameNode

    [atguigu@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
    [atguigu@hadoop102 hadoop-2.7.2]$ jps
    8118 NameNode
    
  3. 啟動hadoop101,hadoop102,hadoop103上的DataNode

    [atguigu@hadoop102 hadoop-2.7.2]$ xcall hadoop-daemon.sh start datanode
    [atguigu@hadoop101 hadoop]$ xcall jps
    要執行的命令是jps
    --------------hadoop101-------------------
    8118 NameNode
    13768 Jps
    8238 DataNode
    --------------hadoop102-------------------
    8072 DataNode
    12959 Jps
    --------------hadoop103-------------------
    7347 DataNode
    13950 Jps
    

SSH無密登陸配置

  1. 免密登錄原理

  2. 生成公鑰和私鑰

    [atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

    然後敲(三個回車),就會生成兩個文件id_rsa(私鑰)、id_rsa.pub(公鑰)

  3. 將公鑰拷貝到要免密登錄的目標機器上的/home/atguigu/.ssh目錄下的authorized_keys中

    以下命令可以直接完成上述操作

    [atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop101
    [atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
    [atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
    
  4. .ssh文件夾下(~/.ssh)的文件功能解釋

    known_hosts 記錄ssh訪問過電腦的公鑰(public key)
    id_rsa 生成的私鑰
    id_rsa.pub 生成的公鑰
    authorized_keys 存放授權過得無密登錄伺服器公鑰

登錄狀態的環境變數

  • Login Shell

    是指登錄時,需要提供用戶名密碼的shell,如:su – user1 , 圖形登錄, ctrl+alt+F2-6進入的登錄界面。

    • 這種Login shell 執行腳本的順序:
      1. /etc/profile 【全局profile文件;它定義了LoginUser的 PATH, USER, LOGNAME(登錄使用者帳號)】
      2. /etc/profile.d/目錄下的腳本
      3. ~/.bash_profile 【搜索命令的路徑 ——————- 登錄級別 環境變數配置文件 】
      4. ~/.bashrc 【存儲用戶設定的別名和函數 ———- shell級別 環境變數配置文件】
      5. /etc/bashrc 【全局bashrc文件; 它主要定義一些 Function 和 Alias;更改/etc/bashrc會影響到所有用戶,由root用戶管理。】
  • Non-Login shell

    • 登錄終端後,使用ssh 登錄 其他機器!
    • 非登錄shell指的是,不需要輸入用戶名密碼的shell,如圖形下 右鍵terminal,或ctrl+shift+T打開的shell
    • 這種Non-Login shell 執行登錄腳本的順序:
      1. ~/.bashrc
      2. /etc/bashrc
      3. /etc/profile.d/目錄下的腳本
  • ssh 目標機器
    登錄之後,執行某個命令!
    屬於Login-shell,會自動讀取 /etc/profile文件中定義的所有的變數!

  • ssh 目標機器 命令
    屬於Non-Login-shell
    不會讀取/etc/profile
    如果在使用命令時,我們需要使用/etc/profile定義的一些變數,需要在目標機器的對應的用戶的家目錄/.bashrc中添加以下代碼

    source /etc/profile

    如果不添加以上代碼,在執行start-all.sh | stop-all.sh一定會報錯!

群起集群

群起腳本的原理是獲取集群中所有的節點的主機名
預設讀取當前機器 HADOOP_HOME/etc/hadoop/slaves,獲取集群中所有的節點的主機名

迴圈執行 ssh 主機名 hadoop-daemon.sh start xxx
保證當前機器到其他節點,已經配置了ssh免密登錄
保證集群中所有當前用戶的家目錄/.bashrc中,已經配置source /etc/profile

  1. 配置slaves

    /opt/module/hadoop-2.7.2/etc/hadoop/slaves
    [atguigu@hadoop102 hadoop]$ vi slaves
    

    在文件中增加如下內容:

    hadoop101
    hadoop102
    hadoop103
    

    註意:該文件中添加的內容結尾不允許有空格,文件中不允許有空行。

  2. 啟動集群

    1. 如果集群是第一次啟動,需要格式化NameNode

      [atguigu@hadoop102 hadoop-2.7.2]$ hdfs namenode -format

    2. 啟動HDFS

      [atguigu@hadoop101 hadoop]$ start-dfs.sh
      [atguigu@hadoop101 hadoop]$ xcall jps
      要執行的命令是jps
      --------------hadoop101-------------------
      8118 NameNode
      13768 Jps
      8238 DataNode
      --------------hadoop102-------------------
      8072 DataNode
      12959 Jps
      --------------hadoop103-------------------
      7473 SecondaryNameNode
      7347 DataNode
      13950 Jps
      
    3. 啟動YARN

      [atguigu@hadoop103 hadoop-2.7.2]$ start-yarn.sh

    4. web端查看SecondaryNameNode

      1. 瀏覽器中輸入:http://hadoop103:50090/status.html
      2. 查看SecondaryNameNode信息

  3. 集群基本測試

    1. hadoop fs -mkdir /wcinput

    2. hadoop fs -put hi /wcinput/

    3. hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wcinput/ /wcoutput

集群啟動/停止方式總結

  1. 各個服務組件逐一啟動/停止

    1. 分別啟動/停止HDFS組件

      hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode

    2. 啟動/停止YARN

      yarn-daemon.sh start / stop resourcemanager / nodemanager

  2. 各個模塊分開啟動/停止(配置ssh是前提)

    1. 整體啟動/停止HDFS

      start-dfs.sh / stop-dfs.sh

    2. 整體啟動/停止YARN

      start-yarn.sh / stop-yarn.sh

  3. 啟動歷史伺服器

    mr-jobhistory-daemon.sh start historyserver

集群時間同步

每台虛擬機作如下設置即可保證時間同步

也可設置定時同步時間的任務

crontab -e

* */1 * * * ntpdate -u ntp7.aliyun.com

其他註意事項

  1. start-all.sh其實是分別調用了start-dfs.sh和start-yarn.sh,現已過時不建議使用.
  2. stop-all.sh同理.
  3. start-dfs.sh可以在集群的任意一臺機器使用!可以啟動HDFS中的所有進程!
  4. start-yarn.sh在集群的非RM所在的機器使用,不會啟動resourcemanager!

建議:

只需要配置RM所在機器到其他機器的SSH免密登錄!
都在RM所在的機器執行群起和群停腳本!
xsync和xcall只放在RM所在的機器即可!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...