1.3 Apache Hadoop的重要組成-hadoop-最全最完整的保姆級的java大數據學習資料

-Advertisement-

1.3 Apache Hadoop的重要組成 Hadoop=HDFS(分散式文件系統)+MapReduce(分散式計算框架)+Yarn(資源協調框架)+Common模塊 Hadoop HDFS：（Hadoop Distribute File System ）一個高可靠、高吞吐量的分散式文件系統比如 ...

1.3 Apache Hadoop的重要組成

1.3 Apache Hadoop的重要組成

Hadoop=HDFS(分散式文件系統)+MapReduce(分散式計算框架)+Yarn(資源協調框架)+Common模塊

Hadoop HDFS：（Hadoop Distribute File System ）一個高可靠、高吞吐量的分散式文件系統

比如：100T數據存儲， “分而治之” 。分：拆分-->數據切割，100T數據拆分為10G一個數據塊由一個電腦節點存儲這個數據塊。

數據切割、製作副本、分散儲存

在這裡插入圖片描述

圖中涉及到幾個角色
NameNode（nn）：存儲文件的元數據，比如文件名、文件目錄結構、文件屬性（生成時間、副本數、文件許可權），以及每個文件的塊列表和塊所在的DataNode等。
SecondaryNameNode（2nn）：輔助NameNode更好的工作，用來監控HDFS狀態的輔助後臺程式，每隔一段時間獲取HDFS元數據快照。
DataNode（dn）：在本地文件系統存儲文件塊數據，以及塊數據的校驗

註意：NN，2NN,DN這些既是角色名稱，進程名稱，代指電腦節點名稱！！

Hadoop MapReduce：一個分散式的離線並行計算框架

拆解任務、分散處理、彙整結果
MapReduce計算 = Map階段 + Reduce階段

Map階段就是“分”的階段，並行處理輸入數據

Reduce階段就是“合”的階段，對Map階段結果進行彙總

在這裡插入圖片描述

Hadoop YARN：作業調度與集群資源管理的框架

計算資源協調

在這裡插入圖片描述

Yarn中有如下幾個主要角色，同樣，既是角色名、也是進程名，也指代所在電腦節點名稱。

ResourceManager(rm)：處理客戶端請求、啟動/監控ApplicationMaster、監控NodeManager、資源分配與調度；

NodeManager(nm)：單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令；

ApplicationMaster(am)：數據切分、為應用程式申請資源，並分配給內部任務、任務監控與容錯。

Container：對任務運行環境的抽象，封裝了CPU、記憶體等多維資源以及環境變數、啟動命令等任務運行相關的信息。

ResourceManager是老大，NodeManager是小弟，ApplicationMaster是計算任務專員。

在這裡插入圖片描述

Hadoop Common：支持其他模塊的工具模塊（Configuration、RPC、序列化機制、日誌操作）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【Python】筆記：序列的修改、散列和切片

序列的修改、散列和切片 from array import array import reprlib, math, numbers from functools import reduce from operator import xor from itertools import chain # ...
每日演算法之樹的子結構

JZ26 樹的子結構描述輸入兩棵二叉樹A，B，判斷B是不是A的子結構。（我們約定空樹不是任意一個樹的子結構）假如給定A為{8,8,7,9,2,#,#,#,#,4,7}，B為{8,9,2}，2個樹的結構如下，可以看出B是A的子結構題解1 深度遍歷思路既然是要找到A樹中是否有B樹這樣子樹，如 ...
SpringCloud Alibaba(六) - Seata 分散式事務鎖

1、Seata 簡介 1.1 Seata是什麼 Seata 是一款開源的分散式事務解決方案，致力於提供高性能和簡單易用的分散式事務服務。Seata 將為用戶提供了 AT、TCC、SAGA 和 XA 事務模式，為用戶打造一站式的分散式解決方案。AT模式是阿裡首推的模式，阿裡雲上有商用版本的GTS（Gl ...
詳解藍牙模塊的分類

從藍牙模塊的不同的分類方式上去梳理藍牙模塊的類型，詳細的從分類方式的角度去瞭解藍牙模塊所具備一些特性和功能。 ...
基礎shell編程

題目：監控記憶體剩餘空間，小於10M則發出信號，給出錯誤代碼，要求調試，如下： #!/bin/bash #mem monitor mem_size=$(free | awk ‘/mem /{print $4}’) if [$mem_size -le 102400] then echo “warning ...
CAN數據鏈路層的幀格式介紹——錯誤幀

前言在CAN協議中，CAN匯流排除了眾多優秀的特點外，還具有錯誤監測功能、錯誤通知功能、和錯誤恢復功能、故障封閉功能。下麵系統瞭解以下CAN匯流排上的錯誤幀。 ###錯誤檢測所有ECU均有可以檢測錯誤的功能。 ###錯誤通知檢測出錯誤的ECU會立即通知其他ECU ###錯誤恢復正常發送消息的EC ...
驅動開發學習筆記---塊設備

一、塊設備簡介塊設備驅動是存儲設備驅動，塊設備驅動相比字元設備驅動的主要區別如下： ①、塊設備只能以塊為單位進行讀寫訪問，塊是 linux 虛擬文件系統(VFS)基本的數據傳輸單位。字元設備是以位元組為單位進行數據傳輸的，不需要緩衝。 ②、塊設備在結構上是可以進行隨機訪問的，對於這些設備的讀寫都是按 ...
Redis--回顧提要

一、寫在前知識學了就忘！不用就忘！我太健忘！特此記錄！用於複習打卡！Redis乾就完事了！二、來辣！ Redis做非同步隊列：一般list結構做隊列，rpush生產消息，lpop消費消息，當lpop沒有消息的時候，要適當sleep一會兒；如果不sleep，就用blpop，會阻塞；生產一次消費多次， ...