【深入淺出 Yarn 架構與實現】5-1 Yarn 資源調度器基本框架

来源:https://www.cnblogs.com/shuofxz/archive/2023/03/21/17241068.html
-Advertisement-
Play Games

資源調度器是 YARN 中最核心的組件之一,它是 ResourceManager 中的一個插拔式服務組件,負責整個集群資源的管理和分配。 Yarn 預設提供了三種可用資源調度器,分別是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 ... ...


資源調度器是 YARN 中最核心的組件之一,它是 ResourceManager 中的一個插拔式服務組件,負責整個集群資源的管理和分配。
Yarn 預設提供了三種可用資源調度器,分別是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 Facebook 的 Fair Scheduler。
本節會重點介紹資源調度器的基本框架,在之後文章中詳細介紹 Capacity Scheduler 和 Fair Scheduler。

一、基本架構

資源調度器是最核心的組件之一,並且在 Yarn 中是可插拔的,Yarn 中定義了一套介面規範,以方便用戶實現自己的調度器,同時 Yarn 中自帶了FIFO,CapacitySheduler, FairScheduler三種常用資源調度器。
image.png

一)資源調度模型

Yarn 採用了雙層資源調度模型。

  • 第一層中,RM 中的資源調度器將資源分配給各個 AM(Scheduler 處理的部分)
  • 第二層中,AM 再進一步將資源分配給它的內部任務(不是本節關註的內容)

Yarn 的資源分配過程是非同步的,資源調度器將資源分配給一個應用程式後,它不會立刻 push 給對應的 AM,而是暫時放到一個緩衝區中,等待 AM 通過周期性的心跳主動來取(pull-based通信模型)

  • NM 通過周期心跳彙報節點信息
  • RM 為 NM 返回一個心跳應答,包括需要釋放的 container 列表等信息
  • RM 收到的 NM 信息觸發一個NODE_UPDATED事件,之後會按照一定策略將該節點上的資源分配到各個應用,並將分配結果放到一個記憶體數據結構中
  • AM 向 RM 發送心跳,獲得最新分配的 container 資源
  • AM 將收到的新 container 分配給內部任務

二)資源表示模型

NM 啟動時會向 RM 註冊,註冊信息中包含該節點可分配的 CPU 和記憶體總量,這兩個值均可通過配置選項設置,具體如下:

  • yarn.nodemanager.resource.memory-mb:可分配的物理記憶體總量,預設是8G
  • yarn.nodemanager.vmem-pmem-ratio:任務使用單位物理記憶體量對應最多可使用的虛擬記憶體,預設值是2.1,表示使用1M的物理記憶體,最多可以使用2.1MB的虛擬記憶體總量
  • yarn.nodemanager.resource.cpu-vcores:可分配的虛擬CPU個數,預設是8。為了更細粒度地劃分CPU資源和考慮到CPU性能差異,YARN允許管理員根據實際需要和CPU性能將每個物理CPU劃分成若幹個虛擬CPU,而管理員可為每個節點單獨配置可用的虛擬CPU個數,且用戶提交應用程式時,也可指定每個任務需要的虛擬CPU數

Yarn 支持的調度語義

  • 請求某個節點上的特定資源量
  • 請求某個特定機架上的特定資源量
  • 將某些節點加入(或移除)黑名單,不再為自己分配這些節點上的資源
  • 請求歸還某些資源

Yarn 不支持的調度語義(隨著 Yarn 的不斷迭代,可能會在未來實現):

  • 請求任意節點上的特定資源量
  • 請求任意機架上的特定資源量
  • 請求一組或幾組符合某種特質的資源
  • 超細粒度資源。比如CPU性能要求、綁定CPU等
  • 動態調整Container資源,允許根據需要動態調整Container資源量

三)資源保證機制

當單個節點的閑置資源無法滿足應用的一個 container 時,有兩種策略:

  • 放棄當前節點等待下一個節點;
  • 在當前節點上預留一個 container 申請,等到節點有資源時優先滿足預留。

YARN 採用了第二種增量資源分配機制(當應用程式申請的資源暫時無法保證時,為應用程式預留一個節點上的資源直到累計釋放的空閑資源滿足應用程式需求),這種機制會造成浪費,但不會出現餓死現象

四)層級隊列管理

Yarn 的隊列是層級關係,每個隊列可以包含子隊列,用戶只能將任務提交到葉子隊列。管理員可以配置每個葉子隊列對應的操作系統用戶和用戶組,也可以配置每個隊列的管理員。管理員可以殺死隊列中的任何應用程式,改變任何應用的優先順序等。
隊列的命名用 . 來連接,比如 root.A1root.A1.B1

二、三種調度器

Yarn 的資源調度器是可以配置的,預設實現有三種 FIFOCapacitySchedulerFairScheduler

一)FIFO

FIFO 是 Hadoop設計之初提供的一個最簡單的調度機制:先來先服務。
所有任務被統一提交到一個隊里中,Hadoop按照提交順序依次運行這些作業。只有等先來的應用程式資源滿足後,再開始為下一個應用程式進行調度運行和分配資源。
優點:

  • 原理是和實現簡單。也不需要任何單獨的配置

缺點:

  • 無法提供 QoS,只能對所有的任務按照同一優先順序處理。
  • 無法適應多租戶資源管理。先來的大應用程式把集群資源占滿,導致其他用戶的程式無法得到及時執行。
  • 應用程式併發運行程度低。

二)Capacity Scheduler

Capacity Scheduler 容量調度是 Yahoo! 開發的多用戶調度器,以隊列為單位劃分資源。
每個隊列可設定一定比例的資源最低保證和使用上限。每個用戶也可設置一定的資源使用上限,以防資源濫用。並支持資源共用,將隊列剩餘資源共用給其他隊列使用。配置文件名稱為 capacity-scheduler.xml。
主要特點:

  • 容量保證:可為每個隊列設置資源最低保證(capacity)和資源使用上限(maximum-capacity,預設100%),而所有提交到該隊列的應用程式可以共用這個隊列中的資源。
  • 彈性調度:如果隊列中的資源有剩餘或者空閑,可以暫時共用給那些需要資源的隊列,一旦該隊列有新的應用程式需要資源運行,則其他隊列釋放的資源會歸還給該隊列,從而實現彈性靈活分配調度資源,提高系統資源利用率。
  • 多租戶管理:支持多用戶共用集群資源和多應用程式同時運行。且可對每個用戶可使用資源量(user-limit-factor)設置上限。
  • 安全隔離:每個隊列設置嚴格的ACL列表(acl_submit_applications),用以限制可以用戶或者用戶組可以在該隊列提交應用程式。

三)Fair Scheduler

Fair Scheduler 是 Facebook 開發的多用戶調度器。設計目標是為所有的應用分配「公平」的資源(對公平的定義可以通過參數來設置)。公平不僅可以在隊列中的應用體現,也可以在多個隊列之間工作。
在 Fair 調度器中,我們不需要預先占用一定的系統資源,Fair 調度器會為所有運行的 job 動態的調整系統資源。如下圖所示,當第一個大 job 提交時,只有這一個 job 在運行,此時它獲得了所有集群資源;當第二個小任務提交後,Fair 調度器會分配一半資源給這個小任務,讓這兩個任務公平的共用集群資源。
與Capacity Scheduler不同之處:
image.png

四)源碼繼承關係

看下麵三個圖中調度器的繼承關係。這三個 Scheduler 都繼承自 AbstractYarnScheduler。這個抽象類又 extends AbstractService implements ResourceScheduler。繼承 AbstractService 說明是一個服務,實現 ResourceScheduler 是 scheduler 的主要功能。

三者還有一些區別,FairScheduler 沒實現 Configurable 介面,少了 setConf() 方法;FifoScheduler 不支持資源搶占,FairScheduler 支持資源搶占卻沒實現 PreemptableResourceScheduler 介面。
image.png

image.png

image.png

YarnScheduler 中,定義了一個資源調度器應該實現的方法。在 AbstractYarnScheduler 中實現了大部分方法,若自己實現調度器可繼承該類,將發開重點放在資源分配實現上。

public interface YarnScheduler extends EventHandler<SchedulerEvent> {
  // 獲得一個隊列的基本信息
  public QueueInfo getQueueInfo(String queueName, boolean includeChildQueues,
      boolean recursive) throws IOException;

  // 獲取集群資源
  public Resource getClusterResource();

  /**
   * AM 和資源調度器之間最主要的一個方法
   * AM 通過該方法更新資源請求、待釋放資源列表、黑名單列表增減
   */
  @Public
  @Stable
  Allocation allocate(ApplicationAttemptId appAttemptId,
      List<ResourceRequest> ask, List<ContainerId> release,
      List<String> blacklistAdditions, List<String> blacklistRemovals,
      List<UpdateContainerRequest> increaseRequests,
      List<UpdateContainerRequest> decreaseRequests);

  // 獲取節點資源使用情況報告
  public SchedulerNodeReport getNodeReport(NodeId nodeId);

ResourceScheduler 本質是個事件處理器,主要處理10種事件(CapacityScheduler 還會多處理幾種搶占相關的事件),可以到對應 Scheduler 的 handle() 方法中查看這些事件處理邏輯:

  • NODE_ADDED: 集群中增加一個節點
  • NODE_REMOVED: 集群中移除一個節點
  • NODE_RESOURCE_UPDATE: 集群中有一個節點的資源增加了
  • NODE_LABELS_UPDATE: 更新node labels
  • NODE_UPDATE: 該事件是 NM 通過心跳和 RM 通信時發送的,會彙報該 node 的資源使用情況,同時觸發一次分配操作。
  • APP_ADDED: 增加一個Application
  • APP_REMOVED: 移除一個application
  • APP_ATTEMPT_ADDED: 增加一個application Attempt
  • APP_ATTEMPT_REMOVED: 移除一個application attempt
  • CONTAINER_EXPIRED: 回收一個超時的container

三、資源調度維度

目前有兩種:DefaultResourceCalculatorDominantResourceCalculator

  • DefaultResourceCalculator: 僅考慮記憶體資源
  • DominantResourceCalculator: 同時考慮記憶體和 CPU 資源(後續更新中支持更多類型資源,FPGA、GPU 等)。該演算法擴展了最大最小公平演算法(max-min fairness)。
    • 在 DRF 演算法中,將所需份額(資源比例)最大的資源稱為主資源,而 DRF 的基本設計思想則是將最大最小公平演算法應用於主資源上,進而將多維資源調度問題轉化為單資源調度問題,即 DRF 總是最大化所有主資源中最小的
    • 感興趣的話,可到源碼中 DominantResourceCalculator#compare 探究實現邏輯
    • 對應的論文 《Dominant Resource Fairness: Fair Allocation of Multiple Resource Types》

(這裡註意!很多文章和書中寫的是「YARN 資源調度器預設採用了 DominantResourceCalculator」,實際並不是這樣的!)

  • FifoScheduler 預設使用 DefaultResourceCalculator 且不可更改。
  • CapacityScheduler 是在 capacity-scheduler.xml 中配置 yarn.scheduler.capacity.resource-calculator 參數決定的。
  • FairScheduler 才預設使用 DominantResourceCalculator

四、資源搶占模型

這裡僅簡要介紹資源搶占模型,在後面的文章中會深入源碼分析搶占的流程。

  • 在資源調度器中,每個隊列可設置一個最小資源量和最大資源量,其中,最小資源量是資源緊缺情況下每個隊列需保證的資源量,而最大資源量則是極端情況下隊列也不能超過的資源使用量
  • 為了提高資源利用率,資源調度器(包括Capacity Scheduler和Fair Scheduler)會將負載較輕的隊列的資源暫時分配給負載重的隊列,僅當負載較輕隊列突然收到新提交的應用程式時,調度器才進一步將本屬於該隊列的資源分配給它。

五、總結

本文介紹了 Yarn 資源調度器的基本框架,包括基本架構,以及簡要介紹三種 YARN 實現的調度器,並對資源調度維度,資源搶占模型等進行了介紹。
後續文章中將會圍繞三種 YARN 調度器,深入源碼進行探究。看其在源碼中是如何一步步實現對應功能的。


參考文章:
《Hadoop 技術內幕:深入解析 YARN 架構設計與實現原理》第六章
深入解析yarn架構設計與技術實現-資源調度器
Yarn源碼分析5-資源調度


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 C++初識 1.1 變數 作用:給一段指定的記憶體空間起名,方便操作這段記憶體 **註意:**C++在創建變數時,必須給變數一個初始值,否則會報錯 1.2 常量 作用:用於記錄程式中不可更改的數據 C++定義常量兩種方式 #define 巨集常量: #define 常量名 常量值 通常在文件上方定義, ...
  • 以下是一個基於C語言和Win32API的記憶體掃描器的實現代碼 首先定義一個結構體MEMBLOCK,用來存儲記憶體塊的信息 點擊查看代碼 typedef struct _MEMBLOCK { HANDLE hProcess; //進程句柄 PVOID addr; //記憶體塊地址 int size; // ...
  • 一、PHP簡介 Hypertext Preprocessor,又稱為超文本預處理器(HTML為超文本標簽語言),就是我們所說的PHP。它是一種糅雜百家的後臺語言,在PHP中,可以見到C、Java等語言的寫法和它自創的一些寫法,這也就是為什麼說學過其他語言的人會比較容易接受PHP。 PHP開發時需要去 ...
  • 巨集定義是什麼 巨集定義(macro definition)是 C/C++ 中的一種預處理指令,可以在編譯之前替換源代碼中的一些文本。簡單來說就是用巨集自定義了一些其它符號,這些符號在使用時全等於被替換的內容。 #define DATE "2023_01_20" #define FILE_NUM 250 ...
  • 說明 使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。 1. 使用前的準備 參考本人另一篇博客 安裝 Visual Leak Detector 下載 vld-2.5.1-setup.exe 並按步驟安裝 VLD。這一種使用方式的特點是,在一臺電腦上安裝完成後,需在項目 pro 文件中指明庫及 ...
  • 伺服器渲染技術-Thymeleaf 1.基本介紹 官方線上文檔:Read online 文檔下載:Thymeleaf 3.1 PDF, EPUB, MOBI Thymeleaf 是什麼 Thymeleaf是一個現代的伺服器端Java模板引擎,適用於Web和獨立環境,能夠處理HTML,XML,Java ...
  • ###1.起因: 工作中對接平臺需要將設備的GPS數據傳給平臺,但是平臺採用的不是回調函數將數據直接作為參數返回而是格式化的字元串命令,所以需要將double類型的gps數據格式化輸出到字元串中,項目中之前採用的是sprintf進行格式化輸出,但是通過列印對比發現有精度損失,所以改成先放大數據100 ...
  • 模塊化的基本概念 什麼是模塊化? 模塊化是解決一個複雜問題時,自頂向下逐層把系統劃分為若幹個模塊的過程,編程中,就是遵守一定規則,把一個大文件拆成獨立並相互依賴的多個小模塊。 模塊化規範 使用什麼樣的語法格式引用模塊和向外暴露成員 CommonJS規範 Node.js 遵循了 CommonJS 的模 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...