在Ubuntu下搭建Spark群集_ZenDei技術網路在線

在Ubuntu下搭建Spark群集

-Advertisement-

在前一篇文章中，我們已經搭建好了Hadoop的群集，接下來，我們就是需要基於這個Hadoop群集，搭建Spark的群集。由於前面已經做了大量的工作，所以接下來搭建Spark會簡單很多。首先打開三個虛擬機，現在我們需要安裝Scala，因為Spark是基於Scala開發的，所以需要安裝Scala。在U ...

在前一篇文章中，我們已經搭建好了Hadoop的群集，接下來，我們就是需要基於這個Hadoop群集，搭建Spark的群集。由於前面已經做了大量的工作，所以接下來搭建Spark會簡單很多。

首先打開三個虛擬機，現在我們需要安裝Scala，因為Spark是基於Scala開發的，所以需要安裝Scala。在Ubuntu下安裝Scala很簡單，我們只需要運行

sudo apt-get install scala

就可以安裝Scala了。

安裝完成後運行scala -version可以看到安裝的Scala的版本，我現在2.11版，安裝目錄是在/usr/share/scala-2.11 。

接下來下載Spark。到官方網站，找到最新版的Spark的下載地址，選擇Hadoop版本，

http://spark.apache.org/downloads.html

wget http://spark下載地址

當下載完畢後解壓文件：

tar xvf spark-2.0.2-bin-hadoop2.7.tgz

接下來我們需要將解壓的文件夾移動到指定目錄，因為之前我們Hadoop安裝到/usr/local/hadoop，所以我們也可以把Spark放在/usr/local/spark下：

sudo mv spark-2.0.2-bin-hadoop2.7 /usr/local/spark

進入spark文件夾下的conf文件夾，裡面有個spark-env.sh.template文件，是spark環境變數設置的目標，我們可以複製一個出來：

cp spark-env.sh.template spark-env.sh

然後編輯該文件

vi spark-env.sh

在文件的末尾我們添加上以下內容：

export SCALA_HOME=/usr/share/scala-2.11 
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 
SPARK_MASTER_IP=master 
SPARK_LOCAL_DIRS=/usr/local/spark 
SPARK_DRIVER_MEMORY=1G 
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native/:$LD_LIBRARY_PATH

這裡的內容是根據我虛擬機的環境來的，如果安裝的版本和路徑不一樣，可以根據實際情況更改。

接下來設置slaves文件。

cp slaves.template slaves
vi slaves

將內容改為

slave01

slave02

Spark在一臺機器上就算配置完畢，接下來在另外兩台機器上也做一模一樣的配置即可。

啟動Spark

在master上，我們先啟動Hadoop，然後運行

/usr/local/spark/sbin/start-all.sh

便可啟動Spark。

運行jps看看Java進程：

2929 Master
2982 Jps
2294 SecondaryNameNode
2071 DataNode
1929 NameNode
2459 ResourceManager
2603 NodeManager

發現比Hadoop啟動的時候多了Master進程。

切換到slave01節點上，運行JPS，看看進程：

1889 Worker
1705 NodeManager
1997 Jps
1551 DataNode

這裡比Hadoop的時候多了一個Worker進程。說明我們的Spark群集已經啟動成功。

下麵訪問Spark的網站：

http://192.168.100.40:8080/

可以看到2個worker都啟動。

最後，我們運行一下Spark的示常式序：

/usr/local/spark/bin/run-example SparkPi 10 --slave01 local[2]

可以在結果中找到

Pi is roughly 3.14XXXXX

說明我們運行成功了。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

違章查詢源碼分享

使用快遞100查詢介面實現源碼地址：https://github.com/chenjie200280/weizhang 測試安裝包：http://files.cnblogs.com/files/ttsofts/weizhang.apk 1.查詢界面 2.查詢結果1 （有違章的信息） 3.查詢結果3 ...
React Native Android gradle下載慢問題解決

很多人會遇到初次運行 react native run android的時候 gradle下載極慢，甚至會失敗的問題如下圖實際上這個問題好解決的 1. 首先把對應版本的下載到本地任意一個磁碟里比如說我在到了 2. 然後拖拽文件夾到瀏覽器就會得到的訪問地址後面加上文件名得到的 ...
SQL Server事務、視圖和索引

廢話不多說，直接上乾貨 14:13:23 事務概括：事務是一種機制，一個操作序列，包含一組資料庫操作命令，並且把所有的命令作為一個整體一起向系統提交或撤銷操作請求。事務的特性： 1.原子性：事務是一個完整的操作，事務的各元素都是不可分的（原子的）。事務中的一組命令要麼都執行，要麼都不執行。 ...
資料庫 DML、DDL、DCL區別 .

總體解釋： DML（data manipulation language）：它們是SELECT、UPDATE、INSERT、DELETE，就象它的名字一樣，這4條命令是用來對資料庫里的數據進行操作的語言 DDL（data definition language）： DDL比DML要多，主要的命令有 ...
利用PowerShell複製SQLServer賬戶的所有許可權

問題對於DBA或者其他運維人員來說授權一個賬戶的相同許可權給另一個賬戶是一個很普通的任務。但是隨著伺服器、資料庫、應用、使用人員地增加就變得很枯燥乏味又耗時費力的工作。那麼有什麼容易的辦法來實現這個任務嗎？當然，作為非DBA在測試甚至開發環境也會遇到這種問題，要求授予所有伺服器資料庫的某個許可權給一 ...
Windows下MySQL無法啟動

問題描述：從網上下了5.7 的MySQL，在bin目錄下執行 start mysqld ，彈出個cmd視窗一閃就沒了，也看不清是什麼報錯。mysqld --install安裝了服務，也啟動不了。處理步驟： 1、打開事件查看器檢查報錯信息 2、網上查了，都說如果是 linux 需要執行 mysql ...
什麼是存儲過程、觸發器的解釋

最簡單的意思就是在sql server中定義了一系列操作的的一個過程,只要調用他就可以完成相應的操作. 存儲過程定義：將常用的或很複雜的工作，預先用SQL語句寫好並用一個指定的名稱存儲起來, 那麼以後要叫資料庫提供與已定義好的存儲過程的功能相同的服務時,只需調用execute,即可自動完成命令。 ...
如何用PL/SQL Developer連接Oracle資料庫

之前因為項目的原因需要使用Oracle資料庫，由於時間有限沒辦法從基礎開始學習，而且oracle操作的命令界面又太不友好，於是就找到了PL/SQL Developer這個很好用的軟體來間接使用資料庫。下麵簡單介紹一下如何用這個軟體連接Oracle資料庫。第一步安裝Oracle Database ...