1. 安裝 1.1. 下載spark安裝包 下載地址spark官網:http://spark.apache.org/downloads.html 這裡我們使用 spark-1.6.2-bin-hadoop2.6版本. 1.2. 規劃安裝目錄 /opt/bigdata 1.3. 解壓安裝包 tar - ...
1. 安裝
1.1. 下載spark安裝包
下載地址spark官網:http://spark.apache.org/downloads.html
這裡我們使用 spark-1.6.2-bin-hadoop2.6版本.
1.2. 規劃安裝目錄
/opt/bigdata
1.3. 解壓安裝包
tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz
1.4. 重命名目錄
mv spark-1.6.2-bin-hadoop2.6 spark
1.5. 修改配置文件
配置文件目錄在 /opt/bigdata/spark/conf
vi spark-env.sh 修改文件(先把spark-env.sh.template重命名為spark-env.sh)
#配置java環境變數
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定spark老大Master的IP
export SPARK_MASTER_IP=node1
#指定spark老大Master的埠
export SPARK_MASTER_PORT=7077
vi slaves 修改文件(先把slaves.template重命名為slaves)
node2
node3
1.6. 拷貝配置到其他主機
通過scp 命令將spark的安裝目錄拷貝到其他機器上
scp -r spark-2.0.2-bin-hadoop2.7/ root@node2:$PWD --拷貝到當前目錄
scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata
scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata
1.7. 配置spark環境變數
將spark添加到環境變數,添加以下內容到 /etc/profile
export SPARK_HOME=/opt/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin
註意最後 source /etc/profile 刷新配置
3.7 啟動spark
#在主節點上啟動spark
/opt/bigdata/spark/sbin/start-all.sh
3.8 停止spark
#在主節點上停止spark集群
/opt/bigdata/spark/sbin/stop-all.sh
3.9 spark的web界面
正常啟動spark集群後,可以通過訪問 http://hdp-node-01:8080,查看spark的web界面,查看相關信息。
2. Spark HA高可用部署
2.1. 高可用部署說明
Spark Standalone集群是Master-Slaves架構的集群模式,和大部分的Master-Slaves結構集群一樣,存在著Master單點故障的問題。如何解決這個單點故障的問題,Spark提供了兩種方案:
- 基於文件系統的單點恢復(Single-Node Recovery with Local File System)。
主要用於開發或測試環境。當spark提供目錄保存spark Application和worker的註冊信息,並將他們的恢復狀態寫入該目錄中,這時,一旦Master發生故障,就可以通過重新啟動Master進程(sbin/start-master.sh),恢復已運行的spark Application和worker的註冊信息。
(2)基於zookeeper的Standby Masters(Standby Masters with ZooKeeper)。
用於生產模式。其基本原理是通過zookeeper來選舉一個Master,其他的Master處於Standby狀態。將Standalone集群連接到同一個ZooKeeper實例並啟動多個Master,利用zookeeper提供的選舉和狀態保存功能,可以使一個Master被選舉,而其他Master處於Standby狀態。如果現任Master死去,另一個Master會通過選舉產生,並恢復到舊的Master狀態,然後恢復調度。整個恢復過程可能要1-2分鐘。
2.2. 基於zookeeper的Spark HA高可用集群配置(機器都改成一樣的)
該HA方案使用起來很簡單,首先啟動一個ZooKeeper集群,然後在不同節點上啟動Master,註意這些節點需要具有相同的zookeeper配置。
配置:
(1)vim spark-env.sh
註釋掉export SPARK_MASTER_IP=node1
(2)在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS,內容如下:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark" |
參數說明
spark.deploy.recoveryMode:恢復模式(Master重新啟動的模式)
有三種:(1)ZooKeeper (2) FileSystem (3)NONE
spark.deploy.zookeeper.url:ZooKeeper的Server地址
spark.deploy.zookeeper.dir:保存集群元數據信息的文件、目錄。
包括Worker,Driver和Application。
註意:
在普通模式下啟動spark集群,只需要在主機上面執行start-all.sh 就可以了。
在高可用模式下啟動spark集群,先需要在任意一臺主節點上啟動start-all.sh命令。然後在另外一臺主節點上單獨啟動master。命令sbin/start-master.sh。
查看zk註冊 命令-zkCli.sh ls / --查看註冊的服務
3. Spark啟動方式
3.1. spark 提交任務方式
3.1.1. spark on yarn:
$ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \
--num-executors 3 \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
lib/spark-examples*.jar \
10
2)、spark on yarn提交任務時:在yarn-cluster的集群模式,驅動程式運行在不同的機器比客戶端,所以sparkcontext.addjar不會解決的是客戶端的本地文件盒。在可sparkcontext.addjar客戶端文件,包括他們的——jars選項在啟動命令。
$ ./bin/spark-submit--class my.main.Class \
--master yarn-cluster \
--jarsmy-other-jar.jar,my-other-other-jar.jar
my-main-jar.jar
app_arg1 app_arg2
3.1.2. 測試spark自帶的Pi程式,
./bin/spark-submit--class org.apache.spark.examples.SparkPi \
--master yarn-cluster\
--num-executors 1 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
lib/spark-examples*.jar\
3.1.3. spark-submit:
spark-submit測試PI:
Spark的bin子目錄中的spark-submit腳本是用於提交程式到集群中運行的工具,我們使用此工具做一個關於pi的計算。命令如下:
./bin/spark-submit --master spark://spark113:7077 \
--class org.apache.spark.examples.SparkPi \ --name Spark-Pi --executor-memory 400M \ --driver-memory 512M \
/home/hadoop/spark-1.0.0/examples/target/scala-2.10/spark-examples-1.0.0-hadoop2.0.0-cdh4.5.0.jar
spark-submit 測試:
/home/hadoop/spark/spark-1.3.0-bin-hadoop2.4/bin/spark-submit\
--classorg.apache.spark.examples.SparkPi \
--masterspark://192.168.6.71:7077 \
--executor-memory100m \
--executor-cores 1 \
1000
3.2. 以集群的模式啟動spark-shell:
./spark-shell --master spark://hadoop1:7077 --executor-memory 500m
3.3. Spark 啟動方式:
3.3.1. 本地模式啟動
spark:./spark-shell --master local[2] 註意:可以指定多個線程
3.3.2. 集群模式啟動spark:
[hadoop@hadoop1 spark-1.3.0-bin-hadoop2.4]$ ./bin/spark-shell --masterspark://hadoop1:7077 --executor-memory500m
註意:此啟動方式指定了spark-shell 運行時暫用的每個機器上executor 的記憶體為500m
spark-shell --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark
3.3.3. 在Python解釋器中啟動spark:
bin/pyspark--master local[3]
3.3.4. 在R語言的解釋器中啟動spark:
bin/sparkR --master local[2]
3.3.5. yarn的方式啟動spark:
yarn集群啟動spark:$ ./bin/spark-shell --master yarn-cluster
yarn客戶端啟動spark:$ ./bin/spark-shell --masteryarn-client
spark-sql --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark
spark-sql --masterspark://master:7077 --driver-memory 10g --executor-memory 20g --driver-cores 3