理解Spark運行模式(三)(STANDALONE和Local)

来源:https://www.cnblogs.com/roushi17/archive/2019/11/19/spark_standalone.html
-Advertisement-
Play Games

前兩篇介紹了Spark的yarn client和yarn cluster模式,本篇繼續介紹Spark的STANDALONE模式和Local模式。 下麵具體還是用計算PI的程式來說明,examples中該程式有三個版本,分別採用Scala、Python和Java語言編寫。本次用Java程式JavaSp ...


前兩篇介紹了Spark的yarn client和yarn cluster模式,本篇繼續介紹Spark的STANDALONE模式和Local模式。

下麵具體還是用計算PI的程式來說明,examples中該程式有三個版本,分別採用Scala、Python和Java語言編寫。本次用Java程式JavaSparkPi做說明。

 1 package org.apache.spark.examples;
 2 
 3 import org.apache.spark.api.java.JavaRDD;
 4 import org.apache.spark.api.java.JavaSparkContext;
 5 import org.apache.spark.sql.SparkSession;
 6 
 7 import java.util.ArrayList;
 8 import java.util.List;
 9 
10 /**
11  * Computes an approximation to pi
12  * Usage: JavaSparkPi [partitions]
13  */
14 public final class JavaSparkPi {
15 
16   public static void main(String[] args) throws Exception {
17     SparkSession spark = SparkSession
18       .builder()
19       .appName("JavaSparkPi")
20       .getOrCreate();
21 
22     JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());
23 
24     int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
25     int n = 100000 * slices;
26     List<Integer> l = new ArrayList<>(n);
27     for (int i = 0; i < n; i++) {
28       l.add(i);
29     }
30 
31     JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);
32 
33     int count = dataSet.map(integer -> {
34       double x = Math.random() * 2 - 1;
35       double y = Math.random() * 2 - 1;
36       return (x * x + y * y <= 1) ? 1 : 0;
37     }).reduce((integer, integer2) -> integer + integer2);
38 
39     System.out.println("Pi is roughly " + 4.0 * count / n);
40 
41     spark.stop();
42   }
43 }

程式邏輯與之前的Scala和Python程式一樣,就不再多做說明瞭。對比Scala、Python和Java程式,同樣計算PI的邏輯,程式分別是26行、30行和43行,可以看出編寫Spark程式,使用Scala或者Python比Java來得更加簡潔,因此推薦使用Scala或者Python編寫Spark程式。

下麵來以STANDALONE方式來執行這個程式,執行前需要啟動Spark自帶的集群服務(在master上執行$SPARK_HOME/sbin/start-all.sh),最好同時啟動spark的history server,這樣即使在程式運行完以後也可以從Web UI中查看到程式運行情況。啟動Spark的集群服務後,會在master主機和slave主機上分別出現Master守護進程和Worker守護進程。而在Yarn模式下,就不需要啟動Spark的集群服務,只需要在客戶端部署Spark即可,而STANDALONE模式需要在集群每台機器都部署Spark。

輸入以下命令:

[root@BruceCentOS4 jars]# $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master spark://BruceCentOS.Hadoop:7077 $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以下是程式運行輸出信息部分截圖,

開始部分:

  中間部分:

  結束部分:

 

從上面的程式輸出信息科看出,Spark Driver是運行在客戶端BruceCentOS4上的SparkSubmit進程當中的,集群是Spark自帶的集群。

SparkUI上的Executor信息:

  BruceCentOS4上的客戶端進程(包含Spark Driver):

  BruceCentOS3上的Executor進程:

 BruceCentOS上的Executor進程:

  BruceCentOS2上的Executor進程:

 

下麵具體描述下Spark程式在standalone模式下運行的具體流程。

這裡是一個流程圖:

 

 

 

 

  1. SparkContext連接到Master,向Master註冊並申請資源(CPU Core 和Memory)。
  2. Master根據SparkContext的資源申請要求和Worker心跳周期內報告的信息決定在哪個Worker上分配資源,然後在該Worker上獲取資源,然後啟動CoarseGrainedExecutorBackend。
  3. CoarseGrainedExecutorBackend向SparkContext註冊。
  4. SparkContext將Applicaiton代碼發送給CoarseGrainedExecutorBackend;並且SparkContext解析Applicaiton代碼,構建DAG圖,並提交給DAG Scheduler分解成Stage(當碰到Action操作時,就會催生Job;每個Job中含有1個或多個Stage,Stage一般在獲取外部數據和shuffle之前產生),然後以Stage(或者稱為TaskSet)提交給Task Scheduler,Task Scheduler負責將Task分配到相應的Worker,最後提交給CoarseGrainedExecutorBackend執行。
  5. CoarseGrainedExecutorBackend會建立Executor線程池,開始執行Task,並向SparkContext報告,直至Task完成。
  6. 所有Task完成後,SparkContext向Master註銷,釋放資源。

最後來看Local運行模式,該模式就是在單機本地環境執行,主要用於程式測試。程式的所有部分,包括Client、Driver和Executor全部運行在客戶端的SparkSubmit進程當中。Local模式有三種啟動方式。

#啟動1個Executor運行任務(1個線程)

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

#啟動N個Executor運行任務(N個線程),這裡N=2

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[2] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

#啟動*個Executor運行任務(*個線程),這裡*指代本地機器上的CPU核的個數。

[root@BruceCentOS4 ~]#$SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.JavaSparkPi --master local[*] $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

 

以上就是個人對Spark運行模式(STANDALONE和Local)的一點理解,其中參考了“求知若渴 虛心若愚”博主的“Spark(一): 基本架構及原理”的部分內容(其中基於Spark2.3.0對某些細節進行了修正),在此表示感謝。

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux網路基礎 Linux的ip地址配置 Linux網路配置文件 常用網路命令 虛擬機網路參數配置 1、配置Linux的IP地址 首先配置一個IP地址,讓IP生效。 ifconfig查看當前網路配置 其次,啟動網卡 打開網卡配置文件 把ONBOOT=no 改為ONBOOT=yes 然後輸入ser ...
  • 一、問題 excel如何快速選中某個區域 二、解決 如圖:要選中A1 D12的區域,可以選擇用滑鼠,單數數據量多的時候就比較麻煩,可以用下麵這種方式。 ...
  • 一 修改配置文件 1.1 下載解壓 1 [root@k8smaster01 ~]# cd /opt/k8s/work/kubernetes/ 2 [root@k8smaster01 kubernetes]# tar -xzvf kubernetes-src.tar.gz 提示:k8smaster01 ...
  • 問題現象: 問題原因: 預設情況下, Linux會最多使用40%的可用記憶體作為文件系統緩存。當超過這個閾值後,文件系統會把將緩存中的記憶體全部寫入磁碟, 導致後續的IO請求都是同步的。 將緩存寫入磁碟時,有一個預設120秒的超時時間。 出現上面的問題的原因是IO子系統的處理速度不夠快,不能在120秒將 ...
  • 一 修改配置文件 1.1 下載解壓 1 [root@k8smaster01 ~]# cd /opt/k8s/work/kubernetes/ 2 [root@k8smaster01 kubernetes]# tar -xzvf kubernetes-src.tar.gz 提示:k8smaster01 ...
  • 您是否曾經驚訝於看到某人在 UNIX 中非常快速地工作,觸發命令並快速地執行操作?是的,我碰到過幾次,並且我一直都在向那些超級巨星開發者學習。在本文中,我想分享一些 UNIX 命令實踐,這些實踐是我在Linux 中快速,快速或有效地工作所遵循的。我在金融服務行業工作,我的工作涉及電子交易,衍生工具等 ...
  • VMware Tools是VMware虛擬機中自帶的一種增強工具,相當於VirtualBox中的增強功能(Sun VirtualBox Guest Additions),是VMware提供的增強虛擬顯卡和硬碟性能、以及同步虛擬機與主機時鐘的驅動程式。 只有在VMware虛擬機中安裝好了VMware ...
  • 目的 本文主要介紹以下內容: 設置centos的國內軟體源,預設源都是國外的下載軟體超級麻煩。 ssh登錄 下載一個shell或者cmder 下載wget 配置源 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...