spark-2.2.0安裝和部署——Spark集群學習日記

-Advertisement-

前言在安裝後hadoop之後，接下來需要安裝的就是Spark。 scala 2.11.7下載與安裝具體步驟參見 "上一篇博文" Spark下載為了方便，我直接是進入到了/usr/local文件夾下麵進行下載 Spark安裝之前的準備文件的解壓與改名為了我後面方便配置，在這裡我把文件夾的名 ...

前言

在安裝後hadoop之後，接下來需要安裝的就是Spark。

scala-2.11.7下載與安裝

具體步驟參見上一篇博文

Spark下載

為了方便，我直接是進入到了/usr/local文件夾下麵進行下載spark-2.2.0

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

Spark安裝之前的準備

文件的解壓與改名

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

rm -rf spark-2.2.0-bin-hadoop2.7.tgz

為了我後面方便配置spark，在這裡我把文件夾的名字給改了

mv spark-2.2.0-bin-hadoop2.7 spark-2.2.0

配置環境變數

vi /etc/profile

在最尾巴加入

export SPARK_HOME=/usr/local/spark-2.2.0

export PATH=$PATH:$SPARK_HOME/bin

配置Spark環境

打開spark-2.2.0文件夾

cd spark-2.2.0

此處需要配置的文件為兩個
spark-env.sh和slaves

首先我們把緩存的文件spark-env.sh.template改為spark識別的文件spark-env.sh

cp conf/spark-env.sh.template conf /spark-env.sh

修改`spark-env.sh`文件

vi conf/spark-env.sh

在最尾巴加入

export JAVA_HOME=/usr/java/jdk1.8.0_141

export SCALA_HOME=/usr/scala-2.11.7

export HADOOP_HOME=/usr/local/hadoop-2.7.2

export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.2/etc/hadoop

export SPARK_MASTER_IP=SparkMaster

export SPARK_WORKER_MEMORY=4g

export SPARK_WORKER_CORES=2

export SPARK_WORKER_INSTANCES=1

變數說明

JAVA_HOME：Java安裝目錄
SCALA_HOME：Scala安裝目錄
HADOOP_HOME：hadoop安裝目錄
HADOOP_CONF_DIR：hadoop集群的配置文件的目錄
SPARK_MASTER_IP：spark集群的Master節點的ip地址
SPARK_WORKER_MEMORY：每個worker節點能夠最大分配給exectors的記憶體大小
SPARK_WORKER_CORES：每個worker節點所占有的CPU核數目
SPARK_WORKER_INSTANCES：每台機器上開啟的worker節點的數目

修改`slaves`文件

vi conf/slaves

在最後面修成為

SparkWorker1
SparkWorker2

同步`SparkWorker1`和`SparkWorker2`的配置

在此我們使用rsync命令

rsync -av /usr/local/spark-2.2.0/ SparkWorker1:/usr/local/spark-2.2.0/

rsync -av /usr/local/spark-2.2.0/ SparkWorker2:/usr/local/spark-2.2.0/

啟動`Spark`集群

因為我們只需要使用hadoop的HDFS文件系統，所以我們並不用把hadoop全部功能都啟動。

啟動`hadoop`的`HDFS`文件系統

start-dfs.sh

啟動之後使用jps命令可以查看到SparkMaster已經啟動了namenode，SparkWorker1和SparkWorker2都啟動了datanode，說明hadoop的HDFS文件系統已經啟動了。

啟動`Spark`

因為hadoop/sbin以及spark/sbin均配置到了系統的環境中，它們同一個文件夾下存在同樣的start-all.sh文件。最好是打開spark-2.2.0，在文件夾下麵打開該文件。

./sbin/start-all.sh

成功打開之後使用jps在SparkMaster、parkWorker1和SparkWorker2節點上分別可以看到新開啟的Master和Worker進程。

成功打開Spark集群之後可以進入Spark的WebUI界面，可以通過

SparkMaster_IP:8080

訪問，可見有兩個正在運行的Worker節點。

打開`Spark-shell`

使用

spark-shell

便可打開Spark的shell

同時，因為shell在運行，我們也可以通過

SparkMaster_IP:4040

訪問WebUI查看當前執行的任務。

結言

到此我們的Spark集群就搭建完畢了。搭建spark集群原來知識網路是挺龐大的，涉及到Linux基本操作，設計到ssh，設計到hadoop、Scala以及真正的Spark。在此也遇到不少問題，通過翻閱書籍以及查看別人的blog得到瞭解決。在此感謝分享知識的人。

參見王家林/王雁軍/王家虎的《Spark 核心源碼分析與開發實戰》

文章出自kwongtai'blog，轉載請標明出處！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

SHELL腳本攻略(學習筆記)--1.6 數學運算和bc命令

本文目錄： 1.6.1 基本整數運算 1.6.2 bc命令高級算術運算使用let、$(())或$[]進行基本的整數運算，使用bc進行高級的運算，包括小數運算。其中expr命令也能進行整數運算，還能判斷參數是否為整數，具體用法見expr命令全解。 1.6.1 基本整數運算 [root@xuexi t ...
Ubuntu刪除客人帳號

在一開始使用Ubuntu時還是滿興奮的，但是在多次登錄系統後發現Ubuntu有自己設置的帳號和密碼之外，還有一個“客人登錄”。細心的人就會發現客人登錄是不需要帳號和密碼的，直接點擊就能登錄。雖然說客人登錄退出後會刪除所有設置和操作，但我還是不放心。我在網上找了一些方法，終於被我找到一個比較合適的了。 ...
SHELL腳本攻略(學習筆記)--1.7 expr命令全解

expr命令可以實現數值運算、數值或字元串比較、字元串匹配、字元串提取、字元串長度計算等功能。它還具有幾個特殊功能，判斷變數或參數是否為整數、是否為空、是否為0等。先看expr命令的info文檔info coreutils 'expr invocation'的翻譯。下麵將使用示例來介紹expr的 ...
vsftpd安裝配置虛擬用戶

原文發表於cu：2016-03-11 參考文檔：一．環境 OS CentOS6.7 x86_64 網路 Sever：192.168.1.254 Client：192.168.1.100 二．安裝與配置 1. 安裝使用yum安裝即可：yum install vsftpd -y 2. 軟體模塊 3. ...
文本三劍客---sed 基礎

sed編輯器被稱作流編輯器（stream editor），和普通的互動式文本編輯器恰好相反。在互動式文本編輯器中（比如vim），你可以用鍵盤命令來互動式的插入、刪除或者替換數據中的文本。流編輯器則會自愛編輯器處理數據之前基於預習提供的一組規則來編輯數據流。 sed編輯器可以根據命令來處理數據流中的數 ...
大話命令之--ss

大話命令之—ss ss是Socket Statistics的縮寫。顧名思義，ss命令可以用來獲取socket統計信息，它可以顯示和netstat類似的內容。優勢：（1）顯示更多更詳細的有關TCP和連接狀態的信息，（2）比netstat更快速更高效。 1 格式格式：ss [option]… [f ...
Linux之grep及正則表達式

grep簡介 grep 是一種強大的文本搜索工具，它能使用正則表達式搜索文本，並把匹配的行列印出來。通常grep有三種版本grep、egrep（等同於grep -E）和fgrep。egrep為擴展的grep，fgrep則為快速grep（固定的字元串來對文本進行搜索，不支持正則表達式的引用但是查詢極為 ...
(轉)Linux vi 命令大全

進入vi的命令 vi filename :打開或新建文件，並將游標置於第一行首 vi +n filename ：打開文件，並將游標置於第n行首 vi + filename ：打開文件，並將游標置於最後一行首 vi +/pattern filename：打開文件，並將游標置於第一個與pattern匹配 ...

spark-2.2.0安裝和部署——Spark集群學習日記

前言

scala-2.11.7下載與安裝

Spark下載

Spark安裝之前的準備

配置環境變數

配置Spark環境

修改spark-env.sh文件

修改slaves文件

同步SparkWorker1和SparkWorker2的配置

啟動Spark集群

啟動hadoop的HDFS文件系統

啟動Spark

打開Spark-shell

結言