Hadoop-2.7.2集群的搭建——集群學習日記

来源:http://www.cnblogs.com/kwongtai/archive/2017/07/23/7225858.html
-Advertisement-
Play Games

前言 因為比賽的限制是使用Hadoop2.7.2,估在此文章下麵的也是使用Hadoop2.7.2,具體下載地址為 "Hadoop2.7.2" 開始的準備 目前在我的實驗室上有三台Linux主機,因為需要參加一個關於spark數據分析的比賽,所以眼見那幾台伺服器沒有人用,我們團隊就拿來配置成集群。具體 ...


前言

因為比賽的限制是使用Hadoop2.7.2,估在此文章下麵的也是使用Hadoop2.7.2,具體下載地址為Hadoop2.7.2

開始的準備

目前在我的實驗室上有三台Linux主機,因為需要參加一個關於spark數據分析的比賽,所以眼見那幾台伺服器沒有人用,我們團隊就拿來配置成集群。具體打算配置如下的集群

主機名 IP地址(內網)
SparkMaster 10.21.32.106
SparkWorker1 10.21.32.109
SparkWorker2 10.21.32.112

首先進行的是ssh免密碼登錄的操作

具體操作在上一篇學習日記當中已經寫到了,在此不再詳細說。

配置Java環境

因為我那三臺電腦也是配置好了JDK了,所以在此也不詳細說。
配置好Java的機子可以使用

java -version

來查看Java的版本

下載Hadoop2.7.2

因為我最後的文件是放在/usr/local下麵的,所以我也直接打開/usr/local文件夾下。直接

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

安裝Hadoop以及配置Hadoop環境

解壓

tar -zxvf hadoop-2.7.2.tar.gz

刪除

rm -rf hadoop-2.7.2.tar.gz

解壓刪除之後打開hadoop-2.7.2文件夾,在etc/hadoop/hadoop-env.sh中配置JDK的信息
先查看本機的jdk目錄地址在哪裡

echo $JAVA_HOME

vi etc/hadoop/hadoop-env.sh

export JAVA_HOME=${JAVA_HOME}

改為

export JAVA_HOME=/usr/java/jdk1.8.0_131

為了方便我們以後開機之後可以立刻使用到Hadoop的bin目錄下的相關命令,可以把hadoop文件夾下的binsbin目錄配置到/etc/profile文件中。

vi /etc/profile

添加

export PATH=$PATH:/usr/local/hadoop-2.7.2/bin:/usr/local/hadoop-2.7.7/sbin

按一下esc,按著shift+兩次z鍵保存

使用

source  /etc/profile

使得命令配置信息生效,是否生效可以通過

hadoop version

查看

配置Hadoop分散式集群

前言

考慮是為了建立spark集群,所以主機命名為SparkMaster SparkWorker1 SparkWorker2

修改主機名

vi /etc/hostname

修改裡面的名字為SprakMaster,按一下esc,按著shift+兩次z鍵保存。

設置hosts文件使得主機名和IP地址對應關係

vi /etc/hosts

配置主機名和IP地址的對應關係。

Ps:其他兩台slave的主機也修改對應的SparkWorker1 SparkWorker2,如果修改完主機名字之後戶籍的名字沒有生效,那麼重啟系統便可以。三台機子的hostname與hosts均要修改

在==三台==機子的總的hadoop-2.7.2文件夾下建立如下四個文件夾

  • 目錄/tmp,用來存儲臨時生成的文件
  • 目錄/hdfs,用來存儲集群數據
  • 目錄hdfs/data,用來存儲真正的數據
  • 目錄hdfs/name,用來存儲文件系統元數據
mkdir tmp hdfs hdfs/data hdfs/name

配置hadoop文件

在此先修改SparkMaster的配置文件,然後修改完畢後通過rsync命令複製到其他節點電腦上。

修改core-site.xml

vi etc/hadoop/core-site.xml

具體修改如下:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://SparkMaster:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop-2.7.2/tmp</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

變數fs.defaultFS保存了NameNode的位置,HDFS和MapReduce組件都需要它。這就是它出現在core-site.xml文件中而不是hdfs-site.xml文件中的原因。

修改marpred-site.xml

具體修改如下

首先我們需要的是將marpred-site.xml複製一份:

cp etc/hadoop/marpred-site.xml.template etc/hadoop/marpred-site.xml
vi etc/hadoop/marpred-site.xml.template 

此處修改的是marpred-site.xml,不是marpred-site.xml.template

具體修改如下

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>SparkMaster:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>SparkMaster:19888</value>
    </property>
</configuration>

修改hdfs-site.xml

vi etc/hadoop/hdfs-site.xml

具體修改如下

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop-2.7.2/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop-2.7.2/hdfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>SparkMaster:9001</value>
    </property>
    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    </property>
</configuration>

PS:變數dfs.replication指定了每個HDFS數據塊的複製次數,即HDFS存儲文件的副本個數.我的實驗環境只有一臺Master和兩台Worker(DataNode),所以修改為2。

配置yarn-site.xml

vi etc/hadoop/yarn-site.xml

具體配置如下:

<configuration>
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>
               <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
               <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
               <name>yarn.resourcemanager.address</name>
               <value>SparkMaster:8032</value>
       </property>
       <property>
               <name>yarn.resourcemanager.scheduler.address</name>
               <value>SparkMaster:8030</value>
       </property>
       <property>
               <name>yarn.resourcemanager.resource-tracker.address</name>
               <value>SparkMaster:8031</value>
       </property>
       <property>
               <name>yarn.resourcemanager.admin.address</name>
               <value>SparkMaster:8033</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>SparkMaster:8088</value>
       </property>
</configuration>

修改slaves的內容

localhost修改成為SparkWorker1SparkWorker2

SparkMaster節點的`hadoop-2.7.2/etc/下麵的文件通過以下方式放去其他節點

rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/
rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/

完成之後可以查看SparkWorker1SparkWorker2下麵的文件是否變了

啟動hadoop分散式集群

SparkMaster節點格式化集群的文件系統

輸入

hadoop namenode -format

啟動Hadoop集群

start-all.sh

查看各個節點的進程信息

使用

jps

查看各節點的進程信息
可以看到

此時分散式的hadoop集群已經搭好了

在瀏覽器輸入

SparkMaster_IP:50070
SparkMaster_IP:8088

看到以下界面代表Hadoop集群已經開啟了

結言

到此Hadoop的分散式集群就搭好了。這個Spark運行的基礎。

參見:CentOS 6.7安裝Hadoop 2.7.2
++王家林/王雁軍/王家虎的《Spark 核心源碼分析與開發實戰》++

文章出自kwongtai'blog,轉載請標明出處!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在一個完整的大數據處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要數據採集、結果數據導出、任務調度等不可或缺的輔助系統,而這些輔助工具在hadoop生態體系中都有便捷的開源框架。 1 日誌採集框架Flume Flume是一個分散式、可靠、和高可用的海量日誌採集、聚 ...
  • Hive Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供類SQL查詢功能。 1.1為什麼使用Hive 為什麼要使用Hive 操作介面採用類SQL語法,提供快速開發的能力。 避免了去寫MapReduce,減少開發人員的學習成本。擴展功能很方便。 1.2 ...
  • 協同過濾(Collaborative Filtering,CF)演算法是一種常用的推薦演算法,它的思想就是找出相似的用戶或產品,向用戶推薦相似的物品,或者把物品推薦給相似的用戶。怎樣評價用戶對商品的偏好?可以有很多方法,如用戶對商品的打分、購買、頁面停留時間、保存、轉發等等。得到了用戶對商品的偏好,就可 ...
  • 總結下mysql rpm安裝的方式,與一些錯誤 環境[root@host2 ~]# uname -aLinux host2 2.6.32-504.3.3.el6.x86_64 #1 SMP Wed Dec 17 01:55:02 UTC 2014 x86_64 x86_64 x86_64 GNU/L ...
  • 1.Mapreduce是什麼? Mapreduce是一個分散式運算程式的編程框架,是用戶開發“基於hadoop的數據分析應用”的核心框架; Mapreduce核心功能是將用戶編寫的業務邏輯代碼和自帶預設組件整合成一個完整的分散式運算程式,併發運行在一個hadoop集群上; 2.作用 (1)海量數據在 ...
  • 單位用到了oracle存儲string類型到資料庫里的clob,上網查看資料找到解決方案。如下: 轉自:http://bestxiaok.iteye.com/blog/1027733 ...
  • 【文件管理、管道、用戶及組管理、用戶及許可權管理】\用戶及組管理 用戶與組管理 Linux系統是一個多用戶多任務的分時操作系統,任何一個要使用系統資源的用戶,都必須首先向系統管理員申請一個賬號,然後以這個賬號的身份進入系統。用戶的賬號一方面可以幫助系統管理員對使用系統的用戶進行跟蹤,並控制他們對系統資 ...
  • 暑假在家有些懈怠,不,非常懈怠— —||!良心已經發痛了,想快些補回原來的進度,但忽然發現,中斷了一段時間再重新去學習,有的地方連最基本的符號都忘記了 ,這次特意弄個最最基礎的,恢復一下,以前的進度。 1.建立一個工作空間 在home文件夾裡面發現新建好了相應的文件夾,當然裡面,空空的,什麼都沒有。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...