圖文詳解 HDFS 的工作機制及其原理

来源:https://www.cnblogs.com/datadance/archive/2022/05/19/16287802.html
-Advertisement-
Play Games

大家好,我是大D。 今天開始給大家分享關於大數據入門技術棧——Hadoop的學習內容。 初識 Hadoop 為瞭解決大數據中海量數據的存儲與計算問題,Hadoop 提供了一套分散式系統基礎架構,核心內容包含HDFS ( Hadoop Distributed File System, 分散式文件系統) ...


大家好,我是大D。

今天開始給大家分享關於大數據入門技術棧——Hadoop的學習內容。

初識 Hadoop

為瞭解決大數據中海量數據的存儲與計算問題,Hadoop 提供了一套分散式系統基礎架構,核心內容包含HDFS ( Hadoop Distributed File System, 分散式文件系統)、MapReduce計算引擎和YARN (Yet Another Resource Negotiator,另一種資源協調者)統一資源管理調度。

隨著大數據技術的更新迭代,如今 Hadoop 不再是一個單獨的技術,而是一套大數據處理的生態圈,如下圖所示。
image

除了上述提到的 Hadoop 三個核心組件之外,還有數據採集工具Sqoop與Flume,它們可以將海量數據抽取到Hadoop平臺上,進行後續的大數據分析;ZooKeeper能夠保證Hadoop集群在部分節點宕機的情況下依然可靠運行(乾貨總結!一文搞定 ZooKeeper ,面試再也不用背八股(文末送PDF));基於Hadoop運算平臺的數據倉庫Hive、流式計算Storm、數據挖掘工具Mahout和分散式資料庫HBase等大數據技術框架。

HDFS

HDFS (Hadoop Distributed File System, 分散式文件系統) 是Google公司的GFS論文思想的實現,也作為 Hadoop 的存儲系統,它包含客戶端(Client)、元數據節點(NameNode)、備份節點(Secondary NameNode)以及數據存儲節點(DataNode)。
image

Client

HDFS 利用分散式集群節點來存儲數據,並提供統一的文件系統訪問介面。這樣,用戶在使用分散式文件系統時就如同在使用普通的單節點文件系統一樣,僅通過對 NameNode 進行交互訪問就可以實現操作HDFS中的文件。HDFS提供了非常多的客戶端,包括命令行介面、Java API、Thrift介面、Web界面等。

NameNode

NameNode 作為 HDFS 的管理節點,負責保存和管理分散式系統中所有文件的元數據信息,如果將 HDFS 比作一本書,那麼 NameNode 可以理解為這本書的目錄。

其職責主要有以下三點:

  1. 負責接收 Client 發送過來的讀寫請求;
  2. 管理和維護HDFS的命名空間: 元數據是以鏡像文件(fsimage)和編輯日誌(editlog)兩種形式存放在本地磁碟上的,可以記錄 Client 對 HDFS 的各種操作,比如修改時間、訪問時間、數據塊信息等。
  3. 監控和管理DataNode:負責監控集群中DataNode的健康狀態,一旦發現某個DataNode宕掉,則將該 DataNode 從 HDFS 集群移除併在其他 DataNode 上重新備份該 DataNode 的數據(該過程被稱為數據重平衡,即rebalance),以保障數據副本的完整性和集群的高可用性。

SecondaryNameNode

SecondaryNameNode 是 NameNode 元數據的備份,在NameNode宕機後,SecondaryNameNode 會接替 NameNode 的工作,負責整個集群的管理。並且出於可靠性考慮,SecondaryNameNode 節點與 NameNode 節點運行在不同的機器上,且 SecondaryNameNode 節點與 NameNode 節點的記憶體要一樣大。

同時,為了減小 NameNode 的壓力,NameNode 並不會自動合併 HDFS中的元數據鏡像文件(fsimage)和編輯日誌(editlog),而是將該任務交由 SecondaryNameNode 來完成,在合併完成後將結果發送到NameNode, 並再將合併後的結果存儲到本地磁碟。

DataNode

存放在HDFS上的文件是由數據塊組成的,所有這些塊都存儲在DataNode節點上。DataNode 負責具體的數據存儲,並將數據的元信息定期彙報給 NameNode,併在 NameNode 的指導下完成數據的 I/O 操作。

實際上,在DataNode節點上,數據塊就是一個普通文件,可以在DataNode存儲塊的對應目錄下看到(預設在$(dfs.data.dir)/current的子目錄下),塊的名稱是 blk_ID,其大小可以通過dfs.blocksize設置,預設為128MB。

初始化時,集群中的每個 DataNode 會將本節點當前存儲的塊信息以塊報告的形式彙報給 NameNode。在集群正常工作時,DataNode 仍然會定期地把最新的塊信息彙報給 NameNode,同時接收 NameNode 的指令,比如創建、移動或刪除本地磁碟上的數據塊等操作。

HDFS數據副本

HDFS 文件系統在設計之初就充分考慮到了容錯問題,會將同一個數據塊對應的數據副本(副本個數可設置,預設為3)存放在多個不同的 DataNode 上。在某個 DataNode 節點宕機後,HDFS 會從備份的節點上讀取數據,這種容錯性機制能夠很好地實現即使節點故障而數據不會丟失。

HDFS的工作機制

NameNode 工作機制

NameNode簡稱NN

  • NN 啟動後,會將鏡像文件(fsimage)和編輯日誌(editlog)載入進記憶體中;
  • 客戶端發來增刪改查等操作的請求;
  • NN 會記錄下操作,並滾動日誌,然後在記憶體中對操作進行處理。

image

SecondaryNameNode工作機制

SecondaryNameNode簡稱2NN

  • 當編輯日誌數據達到一定量或者每隔一定時間,就會觸發 2NN 向 NN 發出 checkpoint請求;
  • 如果發出的請求有回應,2NN 將會請求執行 checkpoint 請求;
  • 2NN 會引導 NN 滾動更新編輯日誌,並將編輯日誌複製到 2NN 中;
  • 同編輯日誌一樣,將鏡像文件複製到 2NN 本地的 checkpoint 目錄中;
  • 2NN 將鏡像文件導入記憶體中,回放編輯日誌,將其合併到新的fsimage.ckpt;
  • 將 fsimage.ckpt 壓縮後寫入到本地磁碟;
  • 2NN 將 fsimage.ckpt 傳給 NN;
  • NN 會將新的 fsimage.ckpt 文件替換掉原來的 fsimage,然後直接載入和啟用該文件。

HDFS文件的讀取流程

image

  • 客戶端調用 FileSystem 對象的open()方法,其實獲取的是一個分散式文件系統(DistributedFileSystem)實例;
  • 將所要讀取文件的請求發送給 NameNode,然後 NameNode 返迴文件數據塊所在的 DataNode 列表(是按照 Client 距離 DataNode 網路拓撲的遠近進行排序的),同時也會返回一個文件系統數據輸入流(FSDataInputStream)對象;
  • 客戶端調用 read() 方法,會找出最近的 DataNode 並連接;
  • 數據從 DataNode 源源不斷地流向客戶端。

HDFS文件的寫入流程

image

  • 客戶端通過調用分散式文件系統(DistributedFileSystem)的create()方法創建新文件;
  • DistributedFileSystem 將文件寫入請求發送給 NameNode,此時 NameNode 會做各種校驗,比如文件是否存在,客戶端有無許可權去創建等;
  • 如果校驗不通過則會拋出I/O異常。如果校驗通過,NameNode 會將該操作寫入到編輯日誌中,並返回一個可寫入的 DataNode 列表,同時,也會返迴文件系統數據輸出流(FSDataOutputStream)的對象;
  • 客戶端在收到可寫入列表之後,會調用 write() 方法將文件切分為固定大小的數據包,併排成數據隊列;
  • 數據隊列中的數據包會寫入到第一個 DataNode,然後第一個 DataNode 會將數據包發送給第二個 DataNode,依此類推。
  • DataNode 收到數據後會返回確認信息,等收到所有 DataNode 的確認信息之後,寫入操作完成。

最後

更多圖解大數據技術的乾貨文章,關註公眾號: Data跳動,回覆:圖解系列。
另外,非常歡迎大家掃描下方二維碼,加我VX:Abox_0226,備註「進群」,有關大數據技術的問題在群里一起探討。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、概述 Impala 直接針對存儲在 HDFS、HBase或 Amazon Simple Storage Service (S3)中的 Apache Hadoop 數據提供快速的互動式 SQL 查詢。Impala是一個基於Hive、分散式、大規模並行處理(MPP:Massively Paralle ...
  • 軟硬體環境 軟體 版本 操作系統 Redhat 7 及以上版本,麒麟V10 DM 資料庫 DM 8.0 及以上版本 CPU 架構 x86、ARM、龍芯、飛騰等國內外主流 CPU DM-Oracle 環境準備 在DM伺服器中完成Dblink環境準備工作。 配置Oracle oci客戶端 在Oracle ...
  • 導讀: 隨著全球數據量的不斷增長,越來越多的業務需要支撐高併發、高可用、可擴展、以及海量的數據存儲,在這種情況下,適應各種場景的數據存儲技術也不斷的產生和發展。與此同時,各種資料庫之間的同步與轉化的需求也不斷增多,數據集成成為大數據領域的熱門方向,於是SeaTunnel應運而生。SeaTunnel是 ...
  • hive 存儲格式有很多,但常用的一般是 TextFile、ORC、Parquet 格式,在我們單位最多的也是這三種 hive 預設的文件存儲格式是 TextFile。 除 TextFile 外的其他格式的表不能直接從本地文件導入數據,要先導入到 TextFile 格式的表中,再從表中用 inser ...
  • 本文介紹 SQL 所涉及的幾個數據處理特性:約束、索引和觸發器。約束是實施引用完整性的重要部分,索引可改善數據檢索的性能,觸發器可以用來執行運行前後的處理。 一、約束 SQL 已經改進過多個版本,成為非常完善和強大的語言。許多強有力的特性給用戶提供了高級的數據處理技術,如約束。 關聯表和引用完整性已 ...
  • 本文介紹什麼是 SQL 游標,為什麼使用游標,如何使用游標。你使用的 DBMS 可能會提供某種形式的游標,以及這裡沒有提及的功能。更詳細的內容請參閱具體的 DBMS 文檔。 一、游標 SQL 檢索操作返回一組稱為結果集的行,這組返回的行都是與 SQL 語句相匹配的行(零行到多行)。 簡單地使用 SE ...
  • 本文介紹什麼是 SQL 事務處理,如何利用 COMMIT 和 ROLLBACK 語句對何時寫數據、何時撤銷進行明確的管理;還學習瞭如何使用保留點,更好地控制回退操作。 一、事務處理 使用事務處理(transaction processing),通過確保成批的 SQL 操作要麼完全執行,要麼完全不執行 ...
  • 本文介紹什麼是 SQL 存儲過程,為什麼要使用存儲過程,如何使用存儲過程,以及創建和使用存儲過程的基本語法。 一、存儲過程 迄今為止,我們使用的大多數 SQL 語句都是針對一個或多個表的單條語句。並非所有操作都這麼簡單,經常會有一些複雜的操作需要多條語句才能完成,例如以下的情形。 為了處理訂單,必須 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文將以 C# 語言來實現一個簡單的布隆過濾器,為簡化說明,設計得很簡單,僅供學習使用。 感謝@時總百忙之中的指導。 布隆過濾器簡介 布隆過濾器(Bloom filter)是一種特殊的 Hash Table,能夠以較小的存儲空間較快地判斷出數據是否存在。常用於允許一定誤判率的數據過濾及防止緩存 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 「簡單有價值的事情長期堅持做」 這是成功最簡單,但也最難學的秘訣。不經過訓練,人很難意識到時間複利的威力。 仙劍奇俠傳的「十里坡劍神」和金庸群俠傳的「十級野球拳」,就是簡單的事情持之以恆反覆做,最後就有巨大的威力 唐家三少成為網文收入第一,最重要的一步是十四年從未斷日更 這樣的案例很多,一開始可能成 ...
  • 迎面走來了你的面試官,身穿格子衫,挺著啤酒肚,髮際線嚴重後移的中年男子。 手拿泡著枸杞的保溫杯,胳膊夾著MacBook,MacBook上還貼著公司標語:“我愛加班”。 面試開始,直入正題。 面試官: 看你簡歷上面寫著精通MySQL,我先問你事務的特性是什麼? 老生常談,這個還有誰不會背的嗎? 我: ...
  • 基礎知識 python是一門腳本語言,它是解釋執行的。 python使用縮進做為語法,而且python2環境下同一個py文件中不能同時存在tab和空格縮進,否則會出錯,建議在IDE中顯示縮進符。 python在聲明變數時不寫數據類型,可以type(xx)來獲取欄位的類型,然後可以int(),list ...
  • 為什麼要多線程下載 俗話說要以終為始,那麼我們首先要明確多線程下載的目標是什麼,不外乎是為了更快的下載文件。那麼問題來了,多線程下載文件相比於單線程是不是更快? 對於這個問題可以看下圖。 橫坐標是線程數,縱坐標是使用對應線程數下載對應文件時花費的時間,藍橙綠代表下載文件的大小,每個線程下載對應文件2 ...
  • 詳細講解python爬蟲代碼,爬微博搜索結果的博文數據。 爬取欄位: 頁碼、微博id、微博bid、微博作者、發佈時間、微博內容、轉發數、評論數、點贊數。 爬蟲技術: 1、requests 發送請求 2、datetime 時間格式轉換 3、jsonpath 快速解析json數據 4、re 正則表達式提... ...
  • 背景: 一般我們可以用HashMap做本地緩存,但是HashMap功能比較弱,不支持Key過期,不支持數據範圍查找等。故在此實現了一個簡易的本地緩存,取名叫fastmap。 功能: 1.支持數據過期 2.支持等值查找 3.支持範圍查找 4.支持key排序 實現思路: 1.等值查找採用HashMap2 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 本章是系列文章的第八章,用著色演算法進行寄存器的分配過程。 本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技 寄存器分配 寄存器分配是為程式處理的值找到存儲位置的問題 這些值可以存放到寄存器,也可以存放在記憶體中 寄存器更快,但數量有限 記憶體很多,但 ...