hadoop是什麼?學習大數據乾貨分享

来源:https://www.cnblogs.com/guilina/archive/2018/08/15/9479701.html
-Advertisement-
Play Games

hadoop是大數據的一個總稱,hadoop Yarn是dadoop2的一個基礎框架。現在常用的就是hadoop Yarn,hadoop Yarn可以說是大數據入門必須瞭解的部分。 1.介紹 YARN(Yet Another Resource Negotiator)是一個通用的資源管理平臺,可為各類 ...


hadoop是大數據的一個總稱,hadoop Yarn是dadoop2的一個基礎框架。現在常用的就是hadoop Yarn,hadoop Yarn可以說是大數據入門必須瞭解的部分。

 

1.介紹

YARN(Yet Another Resource Negotiator)是一個通用的資源管理平臺,可為各類計算框架提供資源的管理和調度。

之前有提到過,Yarn主要是為了減輕Hadoop1中JobTracker的負擔,對其進行瞭解耦。現在通常都會使用Hadoop Yarn,因為其穩定性更加優秀,YARN是對Mapreduce V1重構得到的,有時候也稱為MapReduce V2。

2.YARN體系架構

首先,整個Hadoop Yarn和Hadoop1一樣,也是建立在hdfs分散式文件系統上,hdfs是為了集群而生的,它依托於整個Hadoop集群所有的硬碟容量。例如整個集群有100台伺服器,每個伺服器有都有5T的容量,那麼整個hdfs最大可以有500T容量(這裡只是打個比喻,因為伺服器本身操作系統需要占用空間,並且還需要安裝一些必要的組件,Hadoop本身程式也需要占用空間,因此肯定會小於500T)。用戶在使用hdfs文件系統的時候,需要先將本地的文件put到文件系統上,然後集群才能使用這些數據,具體如何使用後續會有詳細的圖文講解。

YARN架構如下圖所示:

YARN總體上是Master/Slave結構,主要由ResourceManager、NodeManager、 ApplicationMaster和Container等幾個組件構成。

ResourceManager(RM)

負責對各NM上的資源進行統一管理和調度。將AM分配空閑的Container運行並監控其運行狀態。對AM申請的資源請求分配相應的空閑Container。主要由兩個組件構成:調度器和應用程式管理器:

調度器(Scheduler):調度器根據容量、隊列等限制條件(如每個隊列分配一定的資源,最多執行一定數量的作業等),將系統中的資源分配給各個正在運行的應用程式。調度器僅根據各個應用程式的資源需求進行資源分配,而資源分配單位是Container,從而限定每個任務使用的資源量。Shceduler不負責監控或者跟蹤應用程式的狀態,也不負責任務因為各種原因而需要的重啟(由ApplicationMaster負責)。總之,調度器根據應用程式的資源要求,以及集群機器的資源情況,為應用程式分配封裝在Container中的資源。

調度器是可插拔的,例如CapacityScheduler、FairScheduler。具體看下文的調度演算法。

應用程式管理器(Applications Manager):應用程式管理器負責管理整個系統中所有應用程式,包括應用程式提交、與調度器協商資源以啟動AM、監控AM運行狀態併在失敗時重新啟動等,跟蹤分給的Container的進度、狀態也是其職責。

NodeManager (NM)

NM是每個節點上的資源和任務管理器。它會定時地向RM彙報本節點上的資源使用情況和各個Container的運行狀態;同時會接收並處理來自AM的Container 啟動/停止等請求。

ApplicationMaster (AM):

用戶提交的應用程式均包含一個AM,負責應用的監控,跟蹤應用執行狀態,重啟失敗任務等。ApplicationMaster是應用框架,它負責向ResourceManager協調資源,並且與NodeManager協同工作完成Task的執行和監控。MapReduce就是原生支持的一種框架,可以在YARN上運行Mapreduce作業。有很多分散式應用都開發了對應的應用程式框架,用於在YARN上運行任務,例如Spark,Storm等。如果需要,我們也可以自己寫一個符合規範的YARN application。

Container:

Container是YARN中的資源抽象,它封裝了某個節點上的多維度資源,如記憶體、CPU、磁碟、網路等,當AM向RM申請資源時,RM為AM返回的資源便是用Container 表示的。 YARN會為每個任務分配一個Container且該任務只能使用該Container中描述的資源。

3. YARN應用工作流程

如下圖所示用戶向YARN中提交一個應用程式後,YARN將分兩個階段運行該應用程式:

啟動AM ,如下步驟1~3;

由AM創建應用程式為它申請資源並監控它的整個運行過程,直到運行完成,如下步驟4~7。

YARN應用工作流程圖

1、用戶向YARN中提交應用程式,其中包括AM程式、啟動AM的命令、命令參數、用戶程式等;事實上,需要準確描述運行ApplicationMaster的unix進程的所有信息。提交工作通常由YarnClient來完成。

2、RM為該應用程式分配第一個Container,並與對應的NM通信,要求它在這個Container中啟動AM;

3、AM首先向RM註冊,這樣用戶可以直接通過RM査看應用程式的運行狀態,運行狀態通過 AMRMClientAsync.CallbackHandler的getProgress() 方法來傳遞給RM。 然後它將為各個任務申請資源,並監控它的運行狀態,直到運行結束,即重覆步驟4〜7;

4、AM採用輪詢的方式通過RPC協議向RM申請和領取資源;資源的協調通過 AMRMClientAsync非同步完成,相應的處理方法封裝在AMRMClientAsync.CallbackHandler中。

5、—旦AM申請到資源後,便與對應的NM通信,要求它啟動任務;通常需要指定一個ContainerLaunchContext,提供Container啟動時需要的信息。

6、NM為任務設置好運行環境(包括環境變數、JAR包、二進位程式等)後,將任務啟動命令寫到一個腳本中,並通過運行該腳本啟動任務;

7、各個任務通過某個RPC協議向AM彙報自己的狀態和進度,以讓AM隨時掌握各個任務的運行狀態,從而可以在任務失敗時重新啟動任務;ApplicationMaster與NM的通信通過NMClientAsync object來完成,容器的所有事件通過NMClientAsync.CallbackHandler來處理。例如啟動、狀態更新、停止等。

8、應用程式運行完成後,AM向RM註銷並關閉自己。大數據學習資料分享群119599574 不管你是小白還是大牛,小編我都挺歡迎,今天的源碼已經上傳到群文件,不定期分享乾貨,包括我自己整理的一份最新的適合2018年學習的大數據開發和零基礎入門教程,歡迎初學和進階中的小伙伴。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Flink+Kafka整合實例 1.使用工具Intellig IDEA新建一個maven項目,為項目命名為kafka01。 2.我的pom.xml文件配置如下。 3.在項目的目錄/src/main/java在創建兩個Java類,分別命名為KafkaDemo和CustomWatermarkEmitte ...
  • 所有萌生入行的想法與想要學習Java的同學的初衷是一樣的。崗位非常火,就業薪資比較高,,前景非常可觀。基本都是這個原因而嚮往大數據,但是對大數據卻不甚瞭解。 如果你想學習,那麼首先你需要學會編程,其次你需要掌握數學,統計學的知識,最後融合應用,就可以想在數據方向發展,籠統來說,就是這樣的。但是僅僅這 ...
  • 1 下載並安裝MySQL官方的 Yum Repository //下載安裝Yum Repository wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm //yum安裝 yum -y ins ...
  • MongoDB 一、下載MongoDB資料庫 1、進入MongoDB官網進行下載,網址:https://www.mongodb.com/。 2、下載完成後可進行安裝,安裝後,並有了MongoDB服務。 二、配置環境變數 1、在環境變數中的系統變數新建一個名為MONGODB_HOME變數名,變數值為M ...
  • 具體方法如下 一:update 表2 set (要插入的列名)= select 表1.某一列 from 表1 left jion 表2 on 表1和表2的關聯 where ..... 二:update 表1 set 表1.列=表2.列 from 表2 where 表2.id=表1.id 三:upda ...
  • Sqlserver類型 Oracle類型 binary RAW(50) bit NUMBER(2) char CHAR(10) datetime DATE decimal NUMBER(18) float BINARY_DOUBLE image BLOB int NUMBER(10) money N ...
  • 資料庫版本:9.3.23(Windows xp系統) 步驟: 1、需要修改資料庫安裝目錄下的pg_hba.conf文件 修改成: 2、並使用psql執行pg_ctl reload重新載入配置文件 ...
  • Oracle 高級子查詢 高級子查詢相對於簡單子查詢來說,返回的數據行不再是一列,而是多列數據。 1,多列子查詢 主查詢與子查詢返回的多個列進行比較 查詢與141號或174號員工的manager_id和department_id相同的其他員工的employee_id, manager_id, dep ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...