大家好，我是大D。今天開始給大家分享關於大數據入門技術棧——Hadoop的學習內容。初識 Hadoop 為瞭解決大數據中海量數據的存儲與計算問題，Hadoop 提供了一套分散式系統基礎架構，核心內容包含HDFS ( Hadoop Distributed File System, 分散式文件系統) ...

大家好，我是大D。

今天開始給大家分享關於大數據入門技術棧——Hadoop的學習內容。

初識 Hadoop

為瞭解決大數據中海量數據的存儲與計算問題，Hadoop 提供了一套分散式系統基礎架構，核心內容包含HDFS ( Hadoop Distributed File System, 分散式文件系統)、MapReduce計算引擎和YARN (Yet Another Resource Negotiator,另一種資源協調者)統一資源管理調度。

隨著大數據技術的更新迭代，如今 Hadoop 不再是一個單獨的技術，而是一套大數據處理的生態圈，如下圖所示。

除了上述提到的 Hadoop 三個核心組件之外，還有數據採集工具Sqoop與Flume，它們可以將海量數據抽取到Hadoop平臺上，進行後續的大數據分析；ZooKeeper能夠保證Hadoop集群在部分節點宕機的情況下依然可靠運行（乾貨總結！一文搞定 ZooKeeper ，面試再也不用背八股（文末送PDF））；基於Hadoop運算平臺的數據倉庫Hive、流式計算Storm、數據挖掘工具Mahout和分散式資料庫HBase等大數據技術框架。

HDFS

HDFS (Hadoop Distributed File System, 分散式文件系統) 是Google公司的GFS論文思想的實現，也作為 Hadoop 的存儲系統，它包含客戶端(Client)、元數據節點(NameNode)、備份節點(Secondary NameNode)以及數據存儲節點(DataNode)。

Client

HDFS 利用分散式集群節點來存儲數據，並提供統一的文件系統訪問介面。這樣，用戶在使用分散式文件系統時就如同在使用普通的單節點文件系統一樣，僅通過對 NameNode 進行交互訪問就可以實現操作HDFS中的文件。HDFS提供了非常多的客戶端，包括命令行介面、Java API、Thrift介面、Web界面等。

NameNode

NameNode 作為 HDFS 的管理節點，負責保存和管理分散式系統中所有文件的元數據信息，如果將 HDFS 比作一本書，那麼 NameNode 可以理解為這本書的目錄。

其職責主要有以下三點：

負責接收 Client 發送過來的讀寫請求；
管理和維護HDFS的命名空間: 元數據是以鏡像文件(fsimage)和編輯日誌(editlog)兩種形式存放在本地磁碟上的，可以記錄 Client 對 HDFS 的各種操作，比如修改時間、訪問時間、數據塊信息等。
監控和管理DataNode：負責監控集群中DataNode的健康狀態，一旦發現某個DataNode宕掉，則將該 DataNode 從 HDFS 集群移除併在其他 DataNode 上重新備份該 DataNode 的數據(該過程被稱為數據重平衡，即rebalance)，以保障數據副本的完整性和集群的高可用性。

SecondaryNameNode

SecondaryNameNode 是 NameNode 元數據的備份，在NameNode宕機後，SecondaryNameNode 會接替 NameNode 的工作，負責整個集群的管理。並且出於可靠性考慮，SecondaryNameNode 節點與 NameNode 節點運行在不同的機器上，且 SecondaryNameNode 節點與 NameNode 節點的記憶體要一樣大。

同時，為了減小 NameNode 的壓力，NameNode 並不會自動合併 HDFS中的元數據鏡像文件(fsimage)和編輯日誌(editlog)，而是將該任務交由 SecondaryNameNode 來完成，在合併完成後將結果發送到NameNode, 並再將合併後的結果存儲到本地磁碟。

DataNode

存放在HDFS上的文件是由數據塊組成的，所有這些塊都存儲在DataNode節點上。DataNode 負責具體的數據存儲，並將數據的元信息定期彙報給 NameNode，併在 NameNode 的指導下完成數據的 I/O 操作。

實際上，在DataNode節點上，數據塊就是一個普通文件，可以在DataNode存儲塊的對應目錄下看到（預設在$(dfs.data.dir)/current的子目錄下），塊的名稱是 blk_ID，其大小可以通過dfs.blocksize設置，預設為128MB。

初始化時，集群中的每個 DataNode 會將本節點當前存儲的塊信息以塊報告的形式彙報給 NameNode。在集群正常工作時，DataNode 仍然會定期地把最新的塊信息彙報給 NameNode，同時接收 NameNode 的指令，比如創建、移動或刪除本地磁碟上的數據塊等操作。

HDFS數據副本

HDFS 文件系統在設計之初就充分考慮到了容錯問題，會將同一個數據塊對應的數據副本（副本個數可設置，預設為3）存放在多個不同的 DataNode 上。在某個 DataNode 節點宕機後，HDFS 會從備份的節點上讀取數據，這種容錯性機制能夠很好地實現即使節點故障而數據不會丟失。

HDFS的工作機制

NameNode 工作機制

NameNode簡稱NN

NN 啟動後,會將鏡像文件(fsimage)和編輯日誌(editlog)載入進記憶體中；
客戶端發來增刪改查等操作的請求；
NN 會記錄下操作，並滾動日誌，然後在記憶體中對操作進行處理。

SecondaryNameNode工作機制

SecondaryNameNode簡稱2NN

當編輯日誌數據達到一定量或者每隔一定時間，就會觸發 2NN 向 NN 發出 checkpoint請求；
如果發出的請求有回應，2NN 將會請求執行 checkpoint 請求；
2NN 會引導 NN 滾動更新編輯日誌，並將編輯日誌複製到 2NN 中；
同編輯日誌一樣，將鏡像文件複製到 2NN 本地的 checkpoint 目錄中；
2NN 將鏡像文件導入記憶體中，回放編輯日誌，將其合併到新的fsimage.ckpt；
將 fsimage.ckpt 壓縮後寫入到本地磁碟；
2NN 將 fsimage.ckpt 傳給 NN；
NN 會將新的 fsimage.ckpt 文件替換掉原來的 fsimage，然後直接載入和啟用該文件。

HDFS文件的讀取流程

客戶端調用 FileSystem 對象的open()方法，其實獲取的是一個分散式文件系統（DistributedFileSystem）實例；
將所要讀取文件的請求發送給 NameNode，然後 NameNode 返迴文件數據塊所在的 DataNode 列表（是按照 Client 距離 DataNode 網路拓撲的遠近進行排序的），同時也會返回一個文件系統數據輸入流（FSDataInputStream）對象；
客戶端調用 read() 方法，會找出最近的 DataNode 並連接；
數據從 DataNode 源源不斷地流向客戶端。

HDFS文件的寫入流程

客戶端通過調用分散式文件系統（DistributedFileSystem）的create()方法創建新文件；
DistributedFileSystem 將文件寫入請求發送給 NameNode，此時 NameNode 會做各種校驗，比如文件是否存在，客戶端有無許可權去創建等；
如果校驗不通過則會拋出I/O異常。如果校驗通過，NameNode 會將該操作寫入到編輯日誌中，並返回一個可寫入的 DataNode 列表，同時，也會返迴文件系統數據輸出流（FSDataOutputStream）的對象；
客戶端在收到可寫入列表之後，會調用 write() 方法將文件切分為固定大小的數據包，併排成數據隊列；
數據隊列中的數據包會寫入到第一個 DataNode，然後第一個 DataNode 會將數據包發送給第二個 DataNode，依此類推。
DataNode 收到數據後會返回確認信息，等收到所有 DataNode 的確認信息之後，寫入操作完成。

最後

更多圖解大數據技術的乾貨文章，關註公眾號： Data跳動，回覆：圖解系列。
另外，非常歡迎大家掃描下方二維碼，加我VX：Abox_0226，備註「進群」，有關大數據技術的問題在群里一起探討。

圖文詳解 HDFS 的工作機制及其原理