本文翻譯自http://hadoop.apache.org/docs/r2.8.0/hadoop-yarn/hadoop-yarn-site/YARN.html 譯註:原文說得有些過於簡單的,並且有些混亂。 yarn由兩個部分的守護程式構成:資源管理、調度/監控。 這樣就要求有個全局資源管理器(re ...
本文翻譯自http://hadoop.apache.org/docs/r2.8.0/hadoop-yarn/hadoop-yarn-site/YARN.html
譯註:原文說得有些過於簡單的,並且有些混亂。
yarn由兩個部分的守護程式構成:資源管理、調度/監控。
這樣就要求有個全局資源管理器(resoureManager-rm)和與應用一一對應的管理程式(applicationMaster-am).
一個應用要麼是一個作業,要麼就是由作業構成的dag(多個job--多個job)
Yarn的數據計算框架由rm和節點管理器(nodemanager -nm)構成.rm負責管理所有應用的資源。nm其實是容器的代理,負責監控資源使用(cpu,記憶體,磁碟,網路),並向rm/調度器報告有關信息。
am從rm獲取資源,並和nm協調工作,執行和監控任務。
譯註: dag-directed acycli graph --有向無環圖
參閱:
- https://en.wikipedia.org/wiki/Directed_acyclic_graph
- http://baike.baidu.com/item/%E6%9C%89%E5%90%91%E6%97%A0%E7%8E%AF%E5%9B%BE
dag圖相對比較簡單,適合yarn的作業結構,如果太複雜,實現起來有點困難,而且目前暫時沒有那個必要。一個有向有環圖更可能用於流程處理。
圖1-yarn框架
譯註:在上圖中,有兩個客戶,分別提交了一個作業。yarn集群的組件分佈在4個節點上,其中一個運行rm,另外三個運行nm。am則運行在兩個數據節點上,分別用於關於關於兩個客戶的需求。
- 紫色客戶的應用主程式運行在右上節點,但它的工作實際中右邊中間一個節點執行。
- 粉褐客戶的應用主程式運行在右中節點,實際工作分佈在右上和右下兩個節點上。
- 粉褐客戶的資源需求大體是紫色的兩倍。
- 註意:一個節點上可以有多個容器
nm必須和dn運行在一起,可以方便地收集dn的資源信息。
資源管理器
資源管理器有兩個主要的部分:作業調度器和應用主程式.
作業調度器
作業調度器負責為應用分配資源(譯註,如果是這麼說,也許理解為資源調度器,就好比生活中火車調度站-負責為每個商業合同分配車皮)。
調度器不監控也不追蹤應用的狀態。
調度器不保證任務的成功,不管任務是因為由於應用還是硬體的故障。
調度器根據應用的資源需求,執行調度功能;它僅僅工作於資源容器上,後者包含諸如記憶體,cpu,磁碟和網路等等。
調度器具有一個可拔插的策略--根據不同隊列,應用等,把集群資源進行劃分。當前版本的調度器具有CapacityScheduler 和 FairScheduler 這兩個策略。
譯註:
- CapacityScheduler--容量調度器,大體可以理解為根據要求來分配資源。瞭解這個很重要,因為不是所有客戶的需求都是一樣的,需要分輕重緩急。
- FairScheduler--公平到調度器,大體可以理解為所有的應用的資源需求都是一致的。
應用主程式
應用主程式負責接收作業提交,並找到第一個可用的容器,如果容器有故障,能重啟容器。此外am還負責從調度器中獲得資源,並追蹤和監測任務。
資源預訂(resource reservation)
yarn支持預訂系統(ReservationSystem),用戶可以提前預定資源,這樣保留出來的資源可以用於執行一些重要的作業。
預訂系統不停地追蹤資源,處理預訂,並不時提醒調度器,讓後者確保所有的預訂能夠得到滿足。
譯註:yarn的預訂,不失為一個有趣有用的功能。很多系統中,這些功能的實現,主要靠認為操作來實現。