ResourceManager學習之ApplicationMaster,NodeManager管理

-Advertisement-

ApplicationMaster管理部分主要由三個服務構成，分別是ApplicationMasterLauncher、AMLivelinessMonitor和ApplicationMasterService，它們共同管理應用程式的ApplicationMaster的生命周期 Application ...

ApplicationMaster管理部分主要由三個服務構成，分別是ApplicationMasterLauncher、AMLivelinessMonitor和ApplicationMasterService，它們共同管理應用程式的ApplicationMaster的生命周期 ApplicationMasterLauncher、AMLivelinessMonitor和ApplicationMasterService這三個組件是如何協同管理ApplicationMaster生命周期，介紹從ResourceManager獲得資源啟動ApplicationMaster ：

用戶向YARN ResourceManager提交應用程式，ResourceManager收到提交請求後，先向資源調度器申請用以啟動ApplicationMaster的資源，待申請到資源後，再由ApplicationMasterLauncher與對應的NodeManager通信，從而啟動應用程式的ApplicationMaster
ApplicationMaster啟動完成後，ApplicationMasterLauncher會通過事件的形式，將剛剛啟動的ApplicationMaster註冊到AMLivelinessMonitor，以啟動心跳監控
ApplicationMaster啟動後，先向ApplicationMasterService註冊，並將自己所在host、埠號等信息彙報給它
ApplicationMaster運行過程中，周期性地向ApplicationMasterService彙報心跳信息
ApplicationMasterService每次收到ApplicationMaster的心跳信息後，將通知AMLivelinessMonitor更新該應用程式的最近彙報心跳的時間
當應用程式運行完成後，ApplicationMaster向ApplicationMasterService發送請求，註銷自己
ApplicationMasterService收到註銷請求後，標註應用程式運行狀態為完成，同時通知AMLivelinessMonitor移除對它的心跳監控

介紹三個服務 (1) ApplicationMasterLauncher ApplicationMasterLauncher即是一個服務，也是一個事件處理器，它處理AMLauncherEvent類型的事件，該類型事件有兩種，分別是請求啟動一個ApplicationMaster的"LAUNCH"事件和請求清理一個ApplicationMaster的"CLEANUP"事件。ApplicationMasterLauncher維護了一個線程池，從而能夠儘快地處理這兩種事件

如果ApplicationMasterLauncher收到了"LAUNCH"類型的事件，它會與對應的NodeManager通信，要求它啟動ApplicationMaster。整個過程比較簡單，首先創建一個ContainerManagementProtocol協議的客戶端，然後向對應的NodeManager發起連接請求，接著將啟動AM所需的各種信息，包括啟動命令、JAR包、環境變數等信息，封裝成一個StartContainerRequest對象，然後通過RPC函數ContainerManagementProtocol#startContainer發送給對應的NM
如果ApplicationMasterLauncher收到了"CLEANUP"類型的事件，它與對應的NodeManager通信，要求它殺死ApplicationMaster。整個過程與啟動AM的過程類似

(2) AMLivelinessMonitor 該服務周期性遍歷所有應用程式的ApplicationMaster，如果一個ApplicationMaster在一定時間內未彙報心跳信息，則認為它死掉了，它上面所有正在運行的Container將被置為運行失敗；如果AM運行失敗，則由RM重新為它申請資源，以便能夠重新分配到另外一個節點上執行 (3) ApplicationMasterService ApplicationMasterService實現了RPC協議ApplicationMasterProtocol，負責處理來自ApplicationMaster的請求，請求主要包括註冊、心跳和清理三種，其中，註冊是ApplicationMaster啟動時發生的行為，請求包中包含AM所在節點、RPC埠號和tracking URL等信息；心跳是周期性行為，包含請求資源的類型描述、待釋放的Container列表等，而AMS為之返回新分配的Container、失敗的Container等信息；清理是應用程式運行結束時發生的行為，ApplicationMaster向RM發送清理應用程式的請求，以回收資源和清理各種記憶體空間 ApplicationMasterLauncher啟動AM後，AM做的第一件事是向RM註冊，這是通過RPC函數ApplicationMasterProtocol#registerApplicationMaster實現的 AM運行過程中，需要周期性地通過RPC函數ApplicationMasterProtocol#allocate與RM通信，這主要有以下三個作用：

請求資源
獲取新分配的資源
形成周期性心跳，告訴RM自己還活著

AM運行結束後，需要通過RPC函數ApplicationMasterProtocol#finishApplicationMaster告訴RM自己運行結束，可以回收資源和清理各種數據結果了

NodeManager管理部分主要由三個服務構成，分別是NMLivelinessMonitor，NodesListManager和ResourceTrackerService，它們共同管理NodeManager的生命周期 介紹三個服務 (1) NMLivelinessMonitor 該服務周期性的遍歷集群中所有NodeManager，如果一個NodeManager在一定時間內未彙報心跳信息，則認為它死掉了，它上面所有正在運行的Container將被置為運行失敗。需要註意的是，RM不會重新執行這些Container，它只會通過心跳機制告訴對應的AM，由AM決定是否重新執行。如果需要，則AM重新向RM申請資源，然後由AM與對應的NodeManager通信以重新運行失敗的Container (2) NodesListManager NodesListManager管理exlude(類似於黑名單)和inlude(類似於白名單)節點列表，這兩個列表所在的文件分別可通過yarn.resourcemanager.nodes.include-path和yarn.resourcemanager.nodes.exclude-path配置，其中，exlude節點列表可認為是黑名單，它們不允許直接與RM通信，而inlude節點列表可認為是白名單。預設情況下，這兩個列表均為空，表示任何節點均被允許接入RM。需要註意的是，管理員可通過命令"bin/yarn rmadmin -refreshNodes"動態載入這兩個文件 (3) ResourceTrackerService ResourceTrackerService實現了RPC協議ResourceTracker，負責處理來自各個NodeManager的請求，請求主要包括註冊和心跳兩種，其中，註冊是NodeManager啟動時發生的行為，請求包中包含節點ID，可用的資源上限等信息；而心跳時周期性行為，包含各個Container運行狀態，運行的Application列表，節點健康狀況，而ResourceTrackerService則為NM返回待釋放的Container列表、Application列表等 NM啟動時，它所作的第一件事是向RM註冊，這是通過RPC函數ResourceTracker#registerNodeManager實現的，註冊信息包括節點可用資源總量，對外開放的HTTP埠號等 NM啟動後，他會周期性地通過RPC函數ResourceTracker#nodeHeartbeat彙報心跳，心跳信息包含各個Container運行狀態，運行的Application列表，節點健康狀況等信息，而RM則為之返回需要釋放的Container列表，Application列表等我每天會寫文章記錄大數據技術學習之路,另外我自己整理了些大數據的學習資料,目前全部放在我的公眾號"SmallBird技術分享",加入我們一起學習交流,並且回覆'分享'會有大數據資源驚喜等著你~

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

面試題：InnoDB中一棵B+樹能存多少行數據？

1.一個問題 InnoDB一棵B+樹可以存放多少行數據？這個問題的簡單回答是：約2千萬。為什麼是這麼多呢？因為這是可以算出來的，要搞清楚這個問題，我們先從InnoDB索引數據結構、數據組織方式說起。我們都知道電腦在存儲數據的時候，有最小存儲單元，這就好比我們今天進行現金的流通最小單位是一毛。在計 ...
【風控】非平衡樣本問題的定義和解決辦法

定義各類別的出現概率不均衡的情況如信用風險中正常用戶遠多於逾期、違約用戶；流失風險中留存用戶多於流失用戶隱患降低對少類樣本的靈敏性。但我們建模就是要找到這少類樣本，所以必須對數據加以處理，來提高靈敏性。解決方案 1. 過採樣對壞的人群提高權重，即複製壞樣本，提高壞樣本的占比。優點：簡 ...
Flink的Job啟動TaskManager端(源碼分析)

前面說到了 Flink的TaskManager啟動(源碼分析) 啟動了TaskManager 然後 Flink的Job啟動JobManager端(源碼分析) 說到JobManager會將轉化得到的TDD發送到TaskManager的RPC 這篇主要就講一下，Job在TaskManager端是如何啟動 ...
超越Storm，SparkStreaming——Flink如何實現有狀態的計算

流式計算分為無狀態和有狀態兩種情況。無狀態計算觀察每個獨立的事件，Storm就是無狀態的計算框架，每一條消息來了以後和前後都沒有關係，一條是一條。比如我們接收電力系統感測器的數據，當電壓超過240v就報警，這就是無狀態的數據。但是如果我們需要同時判斷多個電壓，比如三相電路，我們判斷三相電都高於某個值 ...
Failed to set session cookie. Maybe you are using HTTP instead of HTTPS to access phpMyAdmin.

原因:使用負載均衡的時候,第一次請求phpMyAdmin主頁的時候web01進行處理,頁面返回的cookie存放在web01上.填寫用戶名密碼提交之後,是web02進行處理的,此時給頁面的cookie不是web01上的cookie,所以會報錯解決方法:將cookie都放到單獨的資料庫redis中 ...
javascript當中火狐的firebug如何單步調試程式？

javascript當中火狐的firebug如何單步調試程式 ...
python連接mysql服務端

python連接mysql的客戶端 MySQL註入問題之前我們進行用戶名密碼認證是先將用戶名和密碼保存到一個文件中，然後通過讀文件裡面的內容，來和客戶端發送過來的用戶名密碼進行匹配，現在我們學了資料庫，我們可以將這些用戶數據保存到資料庫中，然後通過資料庫裡面的數據來對客戶端進行用戶名和密碼的認證。 ...
大數據之路【第十二篇】：數據挖掘--NLP文本相似度

一、詞頻 TF • 假設：如果一個詞很重要，應該會在文章中多次出現 • 詞頻——TF（Term Frequency）：一個詞在文章中出現的次數 • 也不是絕對的！出現次數最多的是“的”“是”“在”，這類最常用的詞，叫做停用詞（stop words）• 停用詞對結果毫無幫助，必須過濾掉的詞 • 過濾掉 ...