理解Spark運行模式（三）(STANDALONE和Local)

-Advertisement-

前兩篇介紹了Spark的yarn client和yarn cluster模式，本篇繼續介紹Spark的STANDALONE模式和Local模式。下麵具體還是用計算PI的程式來說明，examples中該程式有三個版本，分別採用Scala、Python和Java語言編寫。本次用Java程式JavaSp ...

前兩篇介紹了Spark的yarn client和yarn cluster模式，本篇繼續介紹Spark的STANDALONE模式和Local模式。

下麵具體還是用計算PI的程式來說明，examples中該程式有三個版本，分別採用Scala、Python和Java語言編寫。本次用Java程式JavaSparkPi做說明。

 1 package org.apache.spark.examples;
 2 
 3 import org.apache.spark.api.java.JavaRDD;
 4 import org.apache.spark.api.java.JavaSparkContext;
 5 import org.apache.spark.sql.SparkSession;
 6 
 7 import java.util.ArrayList;
 8 import java.util.List;
 9 
10 /**
11  * Computes an approximation to pi
12  * Usage: JavaSparkPi [partitions]
13  */
14 public final class JavaSparkPi {
15 
16   public static void main(String[] args) throws Exception {
17     SparkSession spark = SparkSession
18       .builder()
19       .appName("JavaSparkPi")
20       .getOrCreate();
21 
22     JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());
23 
24     int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
25     int n = 100000 * slices;
26     List<Integer> l = new ArrayList<>(n);
27     for (int i = 0; i < n; i++) {
28       l.add(i);
29     }
30 
31     JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);
32 
33     int count = dataSet.map(integer -> {
34       double x = Math.random() * 2 - 1;
35       double y = Math.random() * 2 - 1;
36       return (x * x + y * y <= 1) ? 1 : 0;
37     }).reduce((integer, integer2) -> integer + integer2);
38 
39     System.out.println("Pi is roughly " + 4.0 * count / n);
40 
41     spark.stop();
42   }
43 }

程式邏輯與之前的Scala和Python程式一樣，就不再多做說明瞭。對比Scala、Python和Java程式，同樣計算PI的邏輯，程式分別是26行、30行和43行，可以看出編寫Spark程式，使用Scala或者Python比Java來得更加簡潔，因此推薦使用Scala或者Python編寫Spark程式。

下麵來以STANDALONE方式來執行這個程式，執行前需要啟動Spark自帶的集群服務（在master上執行$SPARK_HOME/sbin/start-all.sh），最好同時啟動spark的history server，這樣即使在程式運行完以後也可以從Web UI中查看到程式運行情況。啟動Spark的集群服務後，會在master主機和slave主機上分別出現Master守護進程和Worker守護進程。而在Yarn模式下，就不需要啟動Spark的集群服務，只需要在客戶端部署Spark即可，而STANDALONE模式需要在集群每台機器都部署Spark。

輸入以下命令：

[root@BruceCentOS4 jars]# $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://BruceCentOS.Hadoop:7077 $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以下是程式運行輸出信息部分截圖，

開始部分：

中間部分：

結束部分：

從上面的程式輸出信息科看出，Spark Driver是運行在客戶端BruceCentOS4上的SparkSubmit進程當中的，集群是Spark自帶的集群。

SparkUI上的Executor信息：

BruceCentOS4上的客戶端進程（包含Spark Driver）：

BruceCentOS3上的Executor進程：

BruceCentOS上的Executor進程：

BruceCentOS2上的Executor進程：

下麵具體描述下Spark程式在standalone模式下運行的具體流程。

這裡是一個流程圖：

SparkContext連接到Master，向Master註冊並申請資源（CPU Core 和Memory）。
Master根據SparkContext的資源申請要求和Worker心跳周期內報告的信息決定在哪個Worker上分配資源，然後在該Worker上獲取資源，然後啟動CoarseGrainedExecutorBackend。
CoarseGrainedExecutorBackend向SparkContext註冊。
SparkContext將Applicaiton代碼發送給CoarseGrainedExecutorBackend；並且SparkContext解析Applicaiton代碼，構建DAG圖，並提交給DAG Scheduler分解成Stage（當碰到Action操作時，就會催生Job；每個Job中含有1個或多個Stage，Stage一般在獲取外部數據和shuffle之前產生），然後以Stage（或者稱為TaskSet）提交給Task Scheduler，Task Scheduler負責將Task分配到相應的Worker，最後提交給CoarseGrainedExecutorBackend執行。
CoarseGrainedExecutorBackend會建立Executor線程池，開始執行Task，並向SparkContext報告，直至Task完成。
所有Task完成後，SparkContext向Master註銷，釋放資源。

最後來看Local運行模式，該模式就是在單機本地環境執行，主要用於程式測試。程式的所有部分，包括Client、Driver和Executor全部運行在客戶端的SparkSubmit進程當中。Local模式有三種啟動方式。

#啟動1個Executor運行任務（1個線程）

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

#啟動N個Executor運行任務（N個線程），這裡N=2

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[2] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

#啟動*個Executor運行任務（*個線程），這裡*指代本地機器上的CPU核的個數。

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[*] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以上就是個人對Spark運行模式(STANDALONE和Local)的一點理解，其中參考了“求知若渴虛心若愚”博主的“Spark(一): 基本架構及原理”的部分內容（其中基於Spark2.3.0對某些細節進行了修正），在此表示感謝。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux系統學習三、網路基礎—虛擬機網路配置

Linux網路基礎 Linux的ip地址配置 Linux網路配置文件常用網路命令虛擬機網路參數配置 1、配置Linux的IP地址首先配置一個IP地址，讓IP生效。 ifconfig查看當前網路配置其次，啟動網卡打開網卡配置文件把ONBOOT=no 改為ONBOOT=yes 然後輸入ser ...
excel如何快速選中某個區域

一、問題 excel如何快速選中某個區域二、解決如圖：要選中A1 D12的區域，可以選擇用滑鼠,單數數據量多的時候就比較麻煩，可以用下麵這種方式。 ...
019.Kubernetes二進位部署插件dashboard

一修改配置文件 1.1 下載解壓 1 [root@k8smaster01 ~]# cd /opt/k8s/work/kubernetes/ 2 [root@k8smaster01 kubernetes]# tar -xzvf kubernetes-src.tar.gz 提示：k8smaster01 ...
"echo 0 /proc/sys/kernel/hung_task_timeout_secs" disable this message

問題現象：問題原因：預設情況下， Linux會最多使用40%的可用記憶體作為文件系統緩存。當超過這個閾值後，文件系統會把將緩存中的記憶體全部寫入磁碟，導致後續的IO請求都是同步的。將緩存寫入磁碟時，有一個預設120秒的超時時間。出現上面的問題的原因是IO子系統的處理速度不夠快，不能在120秒將 ...
018.Kubernetes二進位部署插件coredns

一修改配置文件 1.1 下載解壓 1 [root@k8smaster01 ~]# cd /opt/k8s/work/kubernetes/ 2 [root@k8smaster01 kubernetes]# tar -xzvf kubernetes-src.tar.gz 提示：k8smaster01 ...
10 個提升效率的Linux小技巧

您是否曾經驚訝於看到某人在 UNIX 中非常快速地工作，觸發命令並快速地執行操作？是的，我碰到過幾次，並且我一直都在向那些超級巨星開發者學習。在本文中，我想分享一些 UNIX 命令實踐，這些實踐是我在Linux 中快速，快速或有效地工作所遵循的。我在金融服務行業工作，我的工作涉及電子交易，衍生工具等 ...
VMware Tools安裝教程

VMware Tools是VMware虛擬機中自帶的一種增強工具，相當於VirtualBox中的增強功能（Sun VirtualBox Guest Additions），是VMware提供的增強虛擬顯卡和硬碟性能、以及同步虛擬機與主機時鐘的驅動程式。只有在VMware虛擬機中安裝好了VMware ...
【Linux系列】配置Centos 7的軟體源（二）

目的本文主要介紹以下內容：設置centos的國內軟體源，預設源都是國外的下載軟體超級麻煩。 ssh登錄下載一個shell或者cmder 下載wget 配置源 ...