Spark調度管理（讀書筆記）

-Advertisement-

Spark調度管理（讀書筆記）轉載請註明出處： "http://www.cnblogs.com/BYRans/" Spark調度管理本文主要介紹在單個任務內Spark的調度管理，Spark調度相關概念如下： Task（任務）：單個分區數據及上的最小處理流程單元。 TaskSet（任務集）：由一組 ...

Spark調度管理（讀書筆記）

轉載請註明出處：http://www.cnblogs.com/BYRans/

Spark調度管理

本文主要介紹在單個任務內Spark的調度管理，Spark調度相關概念如下：

Task（任務）：單個分區數據及上的最小處理流程單元。
TaskSet（任務集）：由一組關聯的，但互相之間沒有Shuffle依賴關係的任務所組成的任務集。
Stage（調度階段）：一個任務集對應的調度階段。
Job（作業）：有一個RDD Action生成的一個或多個調度階段所組成的一次計算作業。
Application（應用程式）：Spark應用程式，由一個或多個作業組成。

各概念間的邏輯關係如下圖所示：

Spark的調度管理模塊中，最重要的類是DAGScheduler和TaskScheduler，TaskScheduler負責每個具體任務的實際物理調度，DAGScheduler負責將作業拆分成不同階段的具有依賴關係的多批任務，可以理解為DAGScheduler負責任務的邏輯調度。Spark調度管理示意圖如下：

調度階段的拆分

一個Spark任務提交後，DAGScheduler從RDD依賴鏈末端的RDD出發，遍歷整個RDD依賴鏈，將Job分解成具有前後依賴關係的多個stage。DAGScheduler是根據ShuffleDependency劃分stage的，也就是說當某個RDD的運算需要將數據進行shuffle操作時，這個包含了shuffle依賴關係的RDD將被用來作為輸入信息，構建一個新的調度階段。以此為依據劃分調度階段，可以確保有依賴關係的數據能夠按照正確的順序得到處理和運算。

調度階段的提交

在劃分Stage的步驟中會得到一個或多個有依賴關係的Stage，其中直接觸發作業的RDD關聯的調度階段被稱為FinalStage，DAGScheduler從FinalStage開始生成一個Job。Job和Stage的關係存儲在一個映射表中，用於在該調度階段全部完成時做一些後續處理，如報告狀態、清理作業相關數據等。

具體提交一個Stage時，首先判斷其依賴的所有父Stage的結果是否可用。如果所有父Stage的結果都可用，則提交該Stage。如果有任何一個父Stage的結果不可用，則嘗試迭代提交當前不可用的父Stage。在迭代過程中，父Stage還未運行的Stage都被放到等待隊列中，等待將來被提交。

下圖是一個具有四個調度階段的Job的Stage提交順序：

當一個屬於中間過程調度階段的任務（這種類型的任務所對應的類為ShuffleMapTask）完成後，DAGScheduler會檢查對應調度階段的所有任務是否都完成了。如果完成了，則DAGScheduler將重新掃描一次等待列表中所有的Stage，檢查它們是否還有依賴的Stage沒有完成。如果所有依賴的Stage都已執行完畢，則提交該Stage。

在這裡，博主有一個疑問：能否按照DAG劃分的Stage的拓撲順序提交執行Stage？求大家指點迷津。

任務結果的獲取

根據任務結果的大小不同，ResultTask返回的結果分為兩中形式：

如果結果足夠小，則直接放在DirectTaskResult對象內。
如果超過特定尺寸（預設約10MB），則在Executor端會將DirectTaskResult序列化，將序列化的結果作為一個數據塊存放在BlockManager中，然後將BlockManager返回的BlockId放在IndirectTaskResult對象中返回給TaskScheduler，TaskScheduler進而調用TaskResultGetter將IndirectTaskResult中的BlockId取出並通過BlockManager最終取得對應的DirectTaskResult。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

android去掉滑動到頂部和底部的陰影

android去掉滑動到頂部和底部的陰影解釋一下listview用到的各個屬性去除拖動時預設的帶顏色的背景： android:cacheColorHint="#00000000" 去除ListView滑到頂部和底部時邊緣的黑色陰影： android:fadingEdge="none" 去除下滑到 ...
Android 手機衛士--確認密碼對話框編寫

本文接著實現“確認密碼”功能，也即是用戶以前設置過密碼，現在只需要輸入確認密碼本文地址：http://www.cnblogs.com/wuyudong/p/5940718.html，轉載請註明出處。佈局文件和《Android 手機衛士--設置密碼對話框》中的佈局基本類似，所有copy一下，修改一 ...
phpmyadmin #2003 無法登錄 MySQL伺服器的解決方法

本文章向大家介紹phpmyadmin #2003 無法登錄 MySQL伺服器的解決方法，需要的碼農可以參考一下。通過phpmyadmin連接mysql資料庫時提示：“2003 無法登錄 MySQL伺服器”。。。很明顯這是沒有啟動mysql服務，右擊我的電腦-管理-找到服務，找到mysql啟動一下， ...
用SSMS連接Azure Sql Database 與連接本地庫的一些操作區別

背景背景我們知道Azure Sql Database 可以降低運維成本、是一種Pass模式，有資源彈性設置，可以自由調整資源自動對應不同業務高峰（當然也可以降低費用成本），也方便項目後期的資源擴展，以及一些其他優點或特性，這就不一一列出。那麼資料庫開發工程師來說，操作Azure Sql Data ...
Oracle 高水位(HWM)回收原理及操作方法

一. 高水位（HWM）及其產生原因 High Water Mark，HWM）是Oracle（Segment）級別的概念。在僅有DML（比如delete,insert）操作時，高水位線只會增長，不會降低。具體來說，由於程式使用的delete語句不回收使用過的空間，數據雖然刪除了，但是高水位線卻沒有降 ...
寫給運維兄弟

寫在前面的故事首先，給看官們講個故事：最近遇到過一個客戶，系統上線三年變的越來越慢，直到前幾個月全面爆發，系統前端使用人員不斷抱怨，甚至已經達到了不能使用的程度。這個時候他們的IT主管也是決策者無法忍受這種情況，就召集下麵的運維開會，詢問情況。領導：現在系統這麼慢，前端都無法使用了，到底什麼情況 ...
插入變數表數據

DECLARE @Price TABLE ( [SOLDTO] [nvarchar](80) NULL , [COUNTRY] [nvarchar](80) NULL , [SALESORG] [nvarchar](80) NULL , [COMPANYCODE] [nvarchar](80) NU ...
Hbase的偽分散式安裝

Hbase安裝模式介紹單機模式 1> Hbase不使用HDFS,僅使用本地文件系統 2> ZooKeeper與Hbase運行在同一個JVM中分散式模式– 偽分散式模式1> 所有進程運行在同一個節點上,不同進程運行在不同的JVM當中2> 比較適合實驗測試– 完全分散式模式1> 進程運行在多個伺服器 ...