hadoop是什麼?學習大數據乾貨分享

来源:https://www.cnblogs.com/guilina/archive/2018/08/15/9479701.html
-Advertisement-
Play Games

hadoop是大數據的一個總稱,hadoop Yarn是dadoop2的一個基礎框架。現在常用的就是hadoop Yarn,hadoop Yarn可以說是大數據入門必須瞭解的部分。 1.介紹 YARN(Yet Another Resource Negotiator)是一個通用的資源管理平臺,可為各類 ...


hadoop是大數據的一個總稱,hadoop Yarn是dadoop2的一個基礎框架。現在常用的就是hadoop Yarn,hadoop Yarn可以說是大數據入門必須瞭解的部分。

 

1.介紹

YARN(Yet Another Resource Negotiator)是一個通用的資源管理平臺,可為各類計算框架提供資源的管理和調度。

之前有提到過,Yarn主要是為了減輕Hadoop1中JobTracker的負擔,對其進行瞭解耦。現在通常都會使用Hadoop Yarn,因為其穩定性更加優秀,YARN是對Mapreduce V1重構得到的,有時候也稱為MapReduce V2。

2.YARN體系架構

首先,整個Hadoop Yarn和Hadoop1一樣,也是建立在hdfs分散式文件系統上,hdfs是為了集群而生的,它依托於整個Hadoop集群所有的硬碟容量。例如整個集群有100台伺服器,每個伺服器有都有5T的容量,那麼整個hdfs最大可以有500T容量(這裡只是打個比喻,因為伺服器本身操作系統需要占用空間,並且還需要安裝一些必要的組件,Hadoop本身程式也需要占用空間,因此肯定會小於500T)。用戶在使用hdfs文件系統的時候,需要先將本地的文件put到文件系統上,然後集群才能使用這些數據,具體如何使用後續會有詳細的圖文講解。

YARN架構如下圖所示:

YARN總體上是Master/Slave結構,主要由ResourceManager、NodeManager、 ApplicationMaster和Container等幾個組件構成。

ResourceManager(RM)

負責對各NM上的資源進行統一管理和調度。將AM分配空閑的Container運行並監控其運行狀態。對AM申請的資源請求分配相應的空閑Container。主要由兩個組件構成:調度器和應用程式管理器:

調度器(Scheduler):調度器根據容量、隊列等限制條件(如每個隊列分配一定的資源,最多執行一定數量的作業等),將系統中的資源分配給各個正在運行的應用程式。調度器僅根據各個應用程式的資源需求進行資源分配,而資源分配單位是Container,從而限定每個任務使用的資源量。Shceduler不負責監控或者跟蹤應用程式的狀態,也不負責任務因為各種原因而需要的重啟(由ApplicationMaster負責)。總之,調度器根據應用程式的資源要求,以及集群機器的資源情況,為應用程式分配封裝在Container中的資源。

調度器是可插拔的,例如CapacityScheduler、FairScheduler。具體看下文的調度演算法。

應用程式管理器(Applications Manager):應用程式管理器負責管理整個系統中所有應用程式,包括應用程式提交、與調度器協商資源以啟動AM、監控AM運行狀態併在失敗時重新啟動等,跟蹤分給的Container的進度、狀態也是其職責。

NodeManager (NM)

NM是每個節點上的資源和任務管理器。它會定時地向RM彙報本節點上的資源使用情況和各個Container的運行狀態;同時會接收並處理來自AM的Container 啟動/停止等請求。

ApplicationMaster (AM):

用戶提交的應用程式均包含一個AM,負責應用的監控,跟蹤應用執行狀態,重啟失敗任務等。ApplicationMaster是應用框架,它負責向ResourceManager協調資源,並且與NodeManager協同工作完成Task的執行和監控。MapReduce就是原生支持的一種框架,可以在YARN上運行Mapreduce作業。有很多分散式應用都開發了對應的應用程式框架,用於在YARN上運行任務,例如Spark,Storm等。如果需要,我們也可以自己寫一個符合規範的YARN application。

Container:

Container是YARN中的資源抽象,它封裝了某個節點上的多維度資源,如記憶體、CPU、磁碟、網路等,當AM向RM申請資源時,RM為AM返回的資源便是用Container 表示的。 YARN會為每個任務分配一個Container且該任務只能使用該Container中描述的資源。

3. YARN應用工作流程

如下圖所示用戶向YARN中提交一個應用程式後,YARN將分兩個階段運行該應用程式:

啟動AM ,如下步驟1~3;

由AM創建應用程式為它申請資源並監控它的整個運行過程,直到運行完成,如下步驟4~7。

YARN應用工作流程圖

1、用戶向YARN中提交應用程式,其中包括AM程式、啟動AM的命令、命令參數、用戶程式等;事實上,需要準確描述運行ApplicationMaster的unix進程的所有信息。提交工作通常由YarnClient來完成。

2、RM為該應用程式分配第一個Container,並與對應的NM通信,要求它在這個Container中啟動AM;

3、AM首先向RM註冊,這樣用戶可以直接通過RM査看應用程式的運行狀態,運行狀態通過 AMRMClientAsync.CallbackHandler的getProgress() 方法來傳遞給RM。 然後它將為各個任務申請資源,並監控它的運行狀態,直到運行結束,即重覆步驟4〜7;

4、AM採用輪詢的方式通過RPC協議向RM申請和領取資源;資源的協調通過 AMRMClientAsync非同步完成,相應的處理方法封裝在AMRMClientAsync.CallbackHandler中。

5、—旦AM申請到資源後,便與對應的NM通信,要求它啟動任務;通常需要指定一個ContainerLaunchContext,提供Container啟動時需要的信息。

6、NM為任務設置好運行環境(包括環境變數、JAR包、二進位程式等)後,將任務啟動命令寫到一個腳本中,並通過運行該腳本啟動任務;

7、各個任務通過某個RPC協議向AM彙報自己的狀態和進度,以讓AM隨時掌握各個任務的運行狀態,從而可以在任務失敗時重新啟動任務;ApplicationMaster與NM的通信通過NMClientAsync object來完成,容器的所有事件通過NMClientAsync.CallbackHandler來處理。例如啟動、狀態更新、停止等。

8、應用程式運行完成後,AM向RM註銷並關閉自己。大數據學習資料分享群119599574 不管你是小白還是大牛,小編我都挺歡迎,今天的源碼已經上傳到群文件,不定期分享乾貨,包括我自己整理的一份最新的適合2018年學習的大數據開發和零基礎入門教程,歡迎初學和進階中的小伙伴。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Flink+Kafka整合實例 1.使用工具Intellig IDEA新建一個maven項目,為項目命名為kafka01。 2.我的pom.xml文件配置如下。 3.在項目的目錄/src/main/java在創建兩個Java類,分別命名為KafkaDemo和CustomWatermarkEmitte ...
  • 所有萌生入行的想法與想要學習Java的同學的初衷是一樣的。崗位非常火,就業薪資比較高,,前景非常可觀。基本都是這個原因而嚮往大數據,但是對大數據卻不甚瞭解。 如果你想學習,那麼首先你需要學會編程,其次你需要掌握數學,統計學的知識,最後融合應用,就可以想在數據方向發展,籠統來說,就是這樣的。但是僅僅這 ...
  • 1 下載並安裝MySQL官方的 Yum Repository //下載安裝Yum Repository wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm //yum安裝 yum -y ins ...
  • MongoDB 一、下載MongoDB資料庫 1、進入MongoDB官網進行下載,網址:https://www.mongodb.com/。 2、下載完成後可進行安裝,安裝後,並有了MongoDB服務。 二、配置環境變數 1、在環境變數中的系統變數新建一個名為MONGODB_HOME變數名,變數值為M ...
  • 具體方法如下 一:update 表2 set (要插入的列名)= select 表1.某一列 from 表1 left jion 表2 on 表1和表2的關聯 where ..... 二:update 表1 set 表1.列=表2.列 from 表2 where 表2.id=表1.id 三:upda ...
  • Sqlserver類型 Oracle類型 binary RAW(50) bit NUMBER(2) char CHAR(10) datetime DATE decimal NUMBER(18) float BINARY_DOUBLE image BLOB int NUMBER(10) money N ...
  • 資料庫版本:9.3.23(Windows xp系統) 步驟: 1、需要修改資料庫安裝目錄下的pg_hba.conf文件 修改成: 2、並使用psql執行pg_ctl reload重新載入配置文件 ...
  • Oracle 高級子查詢 高級子查詢相對於簡單子查詢來說,返回的數據行不再是一列,而是多列數據。 1,多列子查詢 主查詢與子查詢返回的多個列進行比較 查詢與141號或174號員工的manager_id和department_id相同的其他員工的employee_id, manager_id, dep ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...