【深入淺出 Yarn 架構與實現】4-3 RM 管理 NodeManager

来源:https://www.cnblogs.com/shuofxz/archive/2022/12/26/17006550.html
-Advertisement-
Play Games

本篇繼續對 RM 中管理 NodeManager 的部分進行深入的講解。主要有三個部分:檢查 NM 是否存活;管理 NM 的黑白名單;響應 NM RPC 請求。 ...


本篇繼續對 RM 中管理 NodeManager 的部分進行深入的講解。主要有三個部分:檢查 NM 是否存活;管理 NM 的黑白名單;響應 NM RPC 請求。

一、簡介

在 RM 的主從結構中,最主要的就是 RM 和 NM 之間的主從結構。RM 作為「管理員」,管理下麵多個 NM 節點。如何檢測 NM 是否存活,劃分黑白名單,以及如何相應 NM RPC 請求,將在下麵進行詳細介紹。

二、NM 管理主要組成

一)NMLivelinessMonitor

  • 檢測 NM 活性的服務,是否有心跳
  • 當前正在運行的 NM 會保存在 RM 的一個數據結構中,NMLivelinessMonitor 就周期遍歷,若一個 NM 在一定時間(預設10分鐘)未彙報心跳,則任務其掛了
  • NM 被認為掛了後,其上的 Container 會自動置為運行失敗,並通知給 AM,由 AM 決定後續處理方案

二)NodesListManager

  • 管理 exclude(類似黑名單)和 include(類似白名單)列表
  • 啟動時,它們分別從yarn.resourcemanager.nodes.include-path 以及 yarn.resourcemanager.nodes.exclude-path中讀取
  • 黑名單列表中的nodes不能夠和RM直接通信(直接拋出RPC異常)
  • 可以動態載入,使用命令 yarn rmadmin -refreshNodes

三)ResourceTrackerService

ResourceTrackerService 是 RPC 協議 ResourceTracker 的一個實現,它作為一個 RPC Server 端接收 NodeManager 的 RPC 請求。
請求主要包含2種信息,1)註冊NodeManager。2)處理心跳信息。

  • 註冊 NodeManager 處理:ResourceTrackerService#registerNodeManager
// ResourceTrackerService#registerNodeManager
  public RegisterNodeManagerResponse registerNodeManager(
      RegisterNodeManagerRequest request) throws YarnException,
      IOException {
    // nm 節點信息 - ip、埠、資源、版本
    NodeId nodeId = request.getNodeId();
    String host = nodeId.getHost();
    int cmPort = nodeId.getPort();
    int httpPort = request.getHttpPort();
    Resource capability = request.getResource();
    String nodeManagerVersion = request.getNMVersion();

    RegisterNodeManagerResponse response = recordFactory
        .newRecordInstance(RegisterNodeManagerResponse.class);

    // 檢查版本
    if (!minimumNodeManagerVersion.equals("NONE")) {
      if (minimumNodeManagerVersion.equals("EqualToRM")) {
        minimumNodeManagerVersion = YarnVersionInfo.getVersion();
      }

      if ((nodeManagerVersion == null) ||
          (VersionUtil.compareVersions(nodeManagerVersion,minimumNodeManagerVersion)) < 0) {
        String message =
            "Disallowed NodeManager Version " + nodeManagerVersion
                + ", is less than the minimum version "
                + minimumNodeManagerVersion + " sending SHUTDOWN signal to "
                + "NodeManager.";
        LOG.info(message);
        response.setDiagnosticsMessage(message);
        response.setNodeAction(NodeAction.SHUTDOWN);
        return response;
      }
    }
  • 處理心跳
    • 可以到源碼中查看具體邏輯 ResourceTracker#nodeHeart
    • 接收並檢查 nm 彙報的心跳信息
    • NodeHeartbeatResponse 中 set 需要釋放的 Container 列表、Application 列表等信息
    • 向 RMNode 發送該 NodeManager 的狀態信息並且保存最近一次心跳應答信息
    • 返回 `NodeHeartbeatResponse

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在 JavaScript 中,巨集任務和微任務是指在執行代碼的過程中的兩種不同的任務類型。 巨集任務(macro task)指的是瀏覽器在執行代碼的過程中會調度的任務,比如事件迴圈中的每一次迭代、setTimeout 和 setInterval 等。巨集任務會在瀏覽器完成當前同步任務之後執行。 微任務(m... ...
  • 今天,收到一個很有意思的提問,如何實現類似如下的背景效果圖: 嗯?核心主體是由多個六邊形網格疊加形成。 那麼我們該如何實現它呢?使用純 CSS 能夠實現嗎? 當然可以,下麵我們就將嘗試如何使用 CSS 去實現這樣一個背景效果。 如何繪製六邊形? 首先,看到這樣一個圖形,如果想要使用一個標簽完成整個背 ...
  • 序 2020 年 10 月 17 日,我正式發佈了 Fantastic-admin 這款基於 Vue 的中後臺管理系統框架。在這兩年多的時間里,我陸續寫了幾篇我在開發這套框架中的一些心得和技術總結: 2020 年《我是如何設計後臺框架里那些錦上添花的動畫效果》 2020 年《一勞永逸,解決基於 ke ...
  • 1 String不可變性 String類被聲明為 final,因此它不可被繼承。 內部使用char數組存儲數據,該數組被聲明為final,這意味著value數組初始化之後就不能再指向其它數組。 String內部沒有改變value數組的方法 String類中所有修改String值的方法,如果內容沒有改 ...
  • ​ 一、前言 本篇文章內容為個人學習分享,讀代碼須知以下 樂理的基本知識,以及十二平均律(波的頻率與音高的標準),個人推薦在維基百科中搜索十二平均律表。 二、整體思想 在主函數中,將一些簡單的樂譜按照節拍,按鍵,基調,半音改變經行拆解。 然後我個人學習時,以440hz為標準的do依次類推,得到的基礎 ...
  • 家居網購項目實現08 以下皆為部分代碼,詳見 https://github.com/liyuelian/furniture_mall.git 19.功能18-添加家居到購物車 19.1需求分析/圖解 會員登錄後,可以添加家居到購物車 完成購物車的設計和實現 每添加一個家居,購物車的數量+1並顯示 1 ...
  • 怎麼用WordPress給自己搭建了一個網站?可能很多人都想擁有屬於自己的網站,這篇文章就找你怎麼利用WordPress搭建屬於自己的網站。如果你也正好有搭建個人網站的想法,那麼本文會給你一個參考,我儘量寫的比較詳細,給自己做一個記錄,也給大家一個參考。 寫在前面 在教程之前,先給大家show 一下 ...
  • 用了這麼多年的 SpringBoot 那麼你知道什麼是 SpringBoot 的 web 類型推斷嗎? 估計很多小伙伴都不知道,畢竟平時開發做項目的時候做的都是普通的 web 項目並不需要什麼特別的瞭解,不過抱著學習的心態,阿粉今天帶大家看一下什麼是 SpringBoot 的 web 類型推斷。 S ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...