圖文詳解 HDFS 的工作機制及其原理

-Advertisement-

大家好，我是大D。今天開始給大家分享關於大數據入門技術棧——Hadoop的學習內容。初識 Hadoop 為瞭解決大數據中海量數據的存儲與計算問題，Hadoop 提供了一套分散式系統基礎架構，核心內容包含HDFS ( Hadoop Distributed File System, 分散式文件系統) ...

大家好，我是大D。

今天開始給大家分享關於大數據入門技術棧——Hadoop的學習內容。

初識 Hadoop

為瞭解決大數據中海量數據的存儲與計算問題，Hadoop 提供了一套分散式系統基礎架構，核心內容包含HDFS ( Hadoop Distributed File System, 分散式文件系統)、MapReduce計算引擎和YARN (Yet Another Resource Negotiator,另一種資源協調者)統一資源管理調度。

隨著大數據技術的更新迭代，如今 Hadoop 不再是一個單獨的技術，而是一套大數據處理的生態圈，如下圖所示。

除了上述提到的 Hadoop 三個核心組件之外，還有數據採集工具Sqoop與Flume，它們可以將海量數據抽取到Hadoop平臺上，進行後續的大數據分析；ZooKeeper能夠保證Hadoop集群在部分節點宕機的情況下依然可靠運行（乾貨總結！一文搞定 ZooKeeper ，面試再也不用背八股（文末送PDF））；基於Hadoop運算平臺的數據倉庫Hive、流式計算Storm、數據挖掘工具Mahout和分散式資料庫HBase等大數據技術框架。

HDFS

HDFS (Hadoop Distributed File System, 分散式文件系統) 是Google公司的GFS論文思想的實現，也作為 Hadoop 的存儲系統，它包含客戶端(Client)、元數據節點(NameNode)、備份節點(Secondary NameNode)以及數據存儲節點(DataNode)。

Client

HDFS 利用分散式集群節點來存儲數據，並提供統一的文件系統訪問介面。這樣，用戶在使用分散式文件系統時就如同在使用普通的單節點文件系統一樣，僅通過對 NameNode 進行交互訪問就可以實現操作HDFS中的文件。HDFS提供了非常多的客戶端，包括命令行介面、Java API、Thrift介面、Web界面等。

NameNode

NameNode 作為 HDFS 的管理節點，負責保存和管理分散式系統中所有文件的元數據信息，如果將 HDFS 比作一本書，那麼 NameNode 可以理解為這本書的目錄。

其職責主要有以下三點：

負責接收 Client 發送過來的讀寫請求；
管理和維護HDFS的命名空間: 元數據是以鏡像文件(fsimage)和編輯日誌(editlog)兩種形式存放在本地磁碟上的，可以記錄 Client 對 HDFS 的各種操作，比如修改時間、訪問時間、數據塊信息等。
監控和管理DataNode：負責監控集群中DataNode的健康狀態，一旦發現某個DataNode宕掉，則將該 DataNode 從 HDFS 集群移除併在其他 DataNode 上重新備份該 DataNode 的數據(該過程被稱為數據重平衡，即rebalance)，以保障數據副本的完整性和集群的高可用性。

SecondaryNameNode

SecondaryNameNode 是 NameNode 元數據的備份，在NameNode宕機後，SecondaryNameNode 會接替 NameNode 的工作，負責整個集群的管理。並且出於可靠性考慮，SecondaryNameNode 節點與 NameNode 節點運行在不同的機器上，且 SecondaryNameNode 節點與 NameNode 節點的記憶體要一樣大。

同時，為了減小 NameNode 的壓力，NameNode 並不會自動合併 HDFS中的元數據鏡像文件(fsimage)和編輯日誌(editlog)，而是將該任務交由 SecondaryNameNode 來完成，在合併完成後將結果發送到NameNode, 並再將合併後的結果存儲到本地磁碟。

DataNode

存放在HDFS上的文件是由數據塊組成的，所有這些塊都存儲在DataNode節點上。DataNode 負責具體的數據存儲，並將數據的元信息定期彙報給 NameNode，併在 NameNode 的指導下完成數據的 I/O 操作。

實際上，在DataNode節點上，數據塊就是一個普通文件，可以在DataNode存儲塊的對應目錄下看到（預設在$(dfs.data.dir)/current的子目錄下），塊的名稱是 blk_ID，其大小可以通過dfs.blocksize設置，預設為128MB。

初始化時，集群中的每個 DataNode 會將本節點當前存儲的塊信息以塊報告的形式彙報給 NameNode。在集群正常工作時，DataNode 仍然會定期地把最新的塊信息彙報給 NameNode，同時接收 NameNode 的指令，比如創建、移動或刪除本地磁碟上的數據塊等操作。

HDFS數據副本

HDFS 文件系統在設計之初就充分考慮到了容錯問題，會將同一個數據塊對應的數據副本（副本個數可設置，預設為3）存放在多個不同的 DataNode 上。在某個 DataNode 節點宕機後，HDFS 會從備份的節點上讀取數據，這種容錯性機制能夠很好地實現即使節點故障而數據不會丟失。

HDFS的工作機制

NameNode 工作機制

NameNode簡稱NN

NN 啟動後,會將鏡像文件(fsimage)和編輯日誌(editlog)載入進記憶體中；
客戶端發來增刪改查等操作的請求；
NN 會記錄下操作，並滾動日誌，然後在記憶體中對操作進行處理。

SecondaryNameNode工作機制

SecondaryNameNode簡稱2NN

當編輯日誌數據達到一定量或者每隔一定時間，就會觸發 2NN 向 NN 發出 checkpoint請求；
如果發出的請求有回應，2NN 將會請求執行 checkpoint 請求；
2NN 會引導 NN 滾動更新編輯日誌，並將編輯日誌複製到 2NN 中；
同編輯日誌一樣，將鏡像文件複製到 2NN 本地的 checkpoint 目錄中；
2NN 將鏡像文件導入記憶體中，回放編輯日誌，將其合併到新的fsimage.ckpt；
將 fsimage.ckpt 壓縮後寫入到本地磁碟；
2NN 將 fsimage.ckpt 傳給 NN；
NN 會將新的 fsimage.ckpt 文件替換掉原來的 fsimage，然後直接載入和啟用該文件。

HDFS文件的讀取流程

客戶端調用 FileSystem 對象的open()方法，其實獲取的是一個分散式文件系統（DistributedFileSystem）實例；
將所要讀取文件的請求發送給 NameNode，然後 NameNode 返迴文件數據塊所在的 DataNode 列表（是按照 Client 距離 DataNode 網路拓撲的遠近進行排序的），同時也會返回一個文件系統數據輸入流（FSDataInputStream）對象；
客戶端調用 read() 方法，會找出最近的 DataNode 並連接；
數據從 DataNode 源源不斷地流向客戶端。

HDFS文件的寫入流程

客戶端通過調用分散式文件系統（DistributedFileSystem）的create()方法創建新文件；
DistributedFileSystem 將文件寫入請求發送給 NameNode，此時 NameNode 會做各種校驗，比如文件是否存在，客戶端有無許可權去創建等；
如果校驗不通過則會拋出I/O異常。如果校驗通過，NameNode 會將該操作寫入到編輯日誌中，並返回一個可寫入的 DataNode 列表，同時，也會返迴文件系統數據輸出流（FSDataOutputStream）的對象；
客戶端在收到可寫入列表之後，會調用 write() 方法將文件切分為固定大小的數據包，併排成數據隊列；
數據隊列中的數據包會寫入到第一個 DataNode，然後第一個 DataNode 會將數據包發送給第二個 DataNode，依此類推。
DataNode 收到數據後會返回確認信息，等收到所有 DataNode 的確認信息之後，寫入操作完成。

最後

更多圖解大數據技術的乾貨文章，關註公眾號： Data跳動，回覆：圖解系列。
另外，非常歡迎大家掃描下方二維碼，加我VX：Abox_0226，備註「進群」，有關大數據技術的問題在群里一起探討。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

大數據Hadoop之——基於Hive的記憶體型SQL查詢引擎Impala（Impala環境部署）

一、概述 Impala 直接針對存儲在 HDFS、HBase或 Amazon Simple Storage Service (S3)中的 Apache Hadoop 數據提供快速的互動式 SQL 查詢。Impala是一個基於Hive、分散式、大規模並行處理(MPP：Massively Paralle ...
達夢-DBLINK資料庫鏈接

軟硬體環境軟體版本操作系統 Redhat 7 及以上版本，麒麟V10 DM 資料庫 DM 8.0 及以上版本 CPU 架構 x86、ARM、龍芯、飛騰等國內外主流 CPU DM-Oracle 環境準備在DM伺服器中完成Dblink環境準備工作。配置Oracle oci客戶端在Oracle ...
陳胡：Apache SeaTunnel實現非CDC數據抽取實踐

導讀：隨著全球數據量的不斷增長，越來越多的業務需要支撐高併發、高可用、可擴展、以及海量的數據存儲，在這種情況下，適應各種場景的數據存儲技術也不斷的產生和發展。與此同時，各種資料庫之間的同步與轉化的需求也不斷增多，數據集成成為大數據領域的熱門方向，於是SeaTunnel應運而生。SeaTunnel是 ...
hive從入門到放棄(六)——常用文件存儲格式

hive 存儲格式有很多，但常用的一般是 TextFile、ORC、Parquet 格式，在我們單位最多的也是這三種 hive 預設的文件存儲格式是 TextFile。除 TextFile 外的其他格式的表不能直接從本地文件導入數據，要先導入到 TextFile 格式的表中，再從表中用 inser ...
如何使用 SQL 約束、索引和觸發器

本文介紹 SQL 所涉及的幾個數據處理特性：約束、索引和觸發器。約束是實施引用完整性的重要部分，索引可改善數據檢索的性能，觸發器可以用來執行運行前後的處理。一、約束 SQL 已經改進過多個版本，成為非常完善和強大的語言。許多強有力的特性給用戶提供了高級的數據處理技術，如約束。關聯表和引用完整性已 ...
如何創建和使用 SQL 游標

本文介紹什麼是 SQL 游標，為什麼使用游標，如何使用游標。你使用的 DBMS 可能會提供某種形式的游標，以及這裡沒有提及的功能。更詳細的內容請參閱具體的 DBMS 文檔。一、游標 SQL 檢索操作返回一組稱為結果集的行，這組返回的行都是與 SQL 語句相匹配的行（零行到多行）。簡單地使用 SE ...
如何使用 SQL COMMIT 和 ROLLBACK 語句管理事務處理

本文介紹什麼是 SQL 事務處理，如何利用 COMMIT 和 ROLLBACK 語句對何時寫數據、何時撤銷進行明確的管理；還學習瞭如何使用保留點，更好地控制回退操作。一、事務處理使用事務處理（transaction processing），通過確保成批的 SQL 操作要麼完全執行，要麼完全不執行 ...
如何使用 SQL 存儲過程簡化複雜的操作

本文介紹什麼是 SQL 存儲過程，為什麼要使用存儲過程，如何使用存儲過程，以及創建和使用存儲過程的基本語法。一、存儲過程迄今為止，我們使用的大多數 SQL 語句都是針對一個或多個表的單條語句。並非所有操作都這麼簡單，經常會有一些複雜的操作需要多條語句才能完成，例如以下的情形。為了處理訂單，必須 ...