Spark架構體系

-Advertisement-

# Spark架構體系 StandAlone模式是spark自帶的集群運行模式，不依賴其他的資源調度框架，部署起來簡單。 StandAlone模式又分為client模式和cluster模式，本質區別是Driver運行在哪裡，如果Driver運行在SparkSubmit進程中就是Client模式，如果 ...

Spark架構體系

StandAlone模式是spark自帶的集群運行模式，不依賴其他的資源調度框架，部署起來簡單。

StandAlone模式又分為client模式和cluster模式，本質區別是Driver運行在哪裡，如果Driver運行在SparkSubmit進程中就是Client模式，如果Driver運行在集群中就是Cluster模式

standalone client模式

standalone cluster模式

Spark On YARN cluster模式

Spark執行流程簡介

Job：RDD每一個行動操作都會生成一個或者多個調度階段調度階段（Stage）：每個Job都會根據依賴關係，以Shuffle過程作為劃分，分為Shuffle Map Stage和Result Stage。每個Stage對應一個TaskSet，一個Task中包含多Task，TaskSet的數量與該階段最後一個RDD的分區數相同。
Task：分發到Executor上的工作任務，是Spark的最小執行單元
DAGScheduler：DAGScheduler是將DAG根據寬依賴將切分Stage，負責劃分調度階段並Stage轉成TaskSet提交給TaskScheduler
TaskScheduler：TaskScheduler是將Task調度到Worker下的Exexcutor進程，然後丟入到Executor的線程池的中進行執行

Spark中重要角色

Master ：是一個Java進程，接收Worker的註冊信息和心跳、移除異常超時的Worker、接收客戶端提交的任務、負責資源調度、命令Worker啟動Executor。
Worker ：是一個Java進程，負責管理當前節點的資源管理，向Master註冊並定期發送心跳，負責啟動Executor、並監控Executor的狀態。
SparkSubmit ：是一個Java進程，負責向Master提交任務。
Driver ：是很多類的統稱，可以認為SparkContext就是Driver，client模式Driver運行在SparkSubmit進程中，cluster模式單獨運行在一個進程中，負責將用戶編寫的代碼轉成Tasks，然後調度到Executor中執行，並監控Task的狀態和執行進度。
Executor ：是一個Java進程，負責執行Driver端生成的Task，將Task放入線程中運行。

Spark和Yarn角色對比

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

個人博客-給推薦文章添加排序欄位

# 個人博客-給推薦文章添加排序欄位 # 前言前篇文章優化了推薦文章的載入，但是呢，還是不太滿意，之前是按照文章的發佈日期去排序的，既然是推薦文章，還是得用一個欄位去專門管理順序。設計思路：給推薦文章表添加一個排序欄位，然後寫一個修改方法即可。 # 資料庫欄位這裡的數據類型以sqlite3為 ...
搞了個Blazor工具站，功能變數名稱一次性買了10年！

大家好，我是沙漠盡頭的狼。在 [Dotnet9](https://dotnet9.com) 上線線上小工具和小游戲後，伺服器的壓力感覺挺大的，打開25個頁面，記憶體占用170MB左右，CPU保持在60~70%，看來Server真不適合搞這類交互較多的程式（伺服器配置：2核4G記憶體），所以站長加急上線 ...
WPF入門教程系列二十九 ——DataGrid使用示例MVVM模式(7)

支持.Net/.Net Core/.Net Framework，可以部署在Docker, Windows, Linux, Mac。 Redis作為一款主流的緩存工具在業內已廣受歡迎。本文將會介紹操作Redis的一種最簡單的方法。本文假定你身邊已有安裝好的Redis應用，該應用的網路地址為（ip+p ...
Linux下swap file “*.swp”already exists！解決方法

問題：在 Linux 下的 vim 編輯過程中，由於某種原因異常退出正在編輯的文件，再次編輯該文件時，會出現如下提示：[O]pen Read-Only, (E)dit anyway, ®ecover, (D)elete it, (Q)uit, (A)bort: 原因：使用vim編輯文件實際是先cop ...
macos中回退鍵是Command+shift+z，我該如何改成Command+y?

MRS相同功能代碼管理應用筆記使用 MounRiver（以下簡稱 MRS ）進行 RISC-V 單片機開發時，工程目錄下往往存在多個文件夾與文件，我們只需要著重關註截圖中紅框所示的部分，它們自上而下分別是內核、調試、鏈接、外設、啟動與用戶文件夾。除此之外的文件夾與文件，均是由編譯器自動創建，開發過 ...
在命令行按下tab鍵之後, 發生了什麼?

當我們輸入ls 再按下TAB時, 會自動列出當前路徑下所有的文件; 當我們輸入ls a 再按下TAB時, 會自動列出當前路徑下所有以a開頭的文件; 若只有一個以a開頭的文件, 將會自動補全; 這是怎麼做到的? 本文將帶你一探究竟 ...
教程 | Datavines 自定義數據質量檢查規則（Metric）

Metric 是 Datavines 中一個核心概念，一個 Metric 表示一個數據質量檢查規則，比如空值檢查和表行數檢查都是一個規則。Metric 採用插件化設計，用戶可以根據自己的需求來實現一個 Metric。下麵我們來詳細講解一下如何自定義`Metric`。 ### 第一步我們先瞭解下幾個 ...
NetBeans連接SQLServer2008配置

一、配置SQL Server （一）SQL Server配置管理器 1、打開SQL Server配置管理器（1）文件路徑，我的是C:\Windows\SysWOW64\mmc.exe，也可以從開始菜單找（如下圖所示） ps網路資源：Windows10 可能在菜單欄里找不到SQL server的配 ...