HDFS及其各組件的機制

来源:https://www.cnblogs.com/HelloBigTable/archive/2019/03/23/10583939.html
-Advertisement-
Play Games

一、HDFS運行機制 概述:用戶的文件會被切塊後存儲在多台datanode節點中,並且每個文件在整個集群中存放多個副本,副本的數量可以通過修改配置自己設定。 HDFS:Hadoop Distributed file system,分散式文件系統。 HDFS的機制: HDFS集群中,有兩種節點,分別為 ...


一、HDFS運行機制

  概述:用戶的文件會被切塊後存儲在多台datanode節點中,並且每個文件在整個集群中存放多個副本,副本的數量可以通過修改配置自己設定。

  HDFS:Hadoop Distributed file system,分散式文件系統。

  HDFS的機制:

   HDFS集群中,有兩種節點,分別為Namenode,Datanode;

   Namenode它的作用時記錄元數據信息,記錄塊信息和對節點進行統一管理。比如用戶要存儲一個很大的文件,HDFS系統會對這個文件進行切分,然後存儲在多台Namenode節點當中,那麼每個切的大小,存儲的路徑信息,文件的副本數等元數據信息會存儲在元數據當中,由Namenode進行管理和記錄。

   Datanode節點的作用是存儲數據,Namenode將數據切塊後的分配給多個Datanode節點,Datanode對數據塊進行存儲,Datanode它預設的塊大小在hadoop1.x的版本中是64M,而hadoop2.x之後的版本預設塊大小為128M。

   HDFS還有一個副本機制,它會預設給存在Datanode當中的每塊文件進行備份,預設的副本數量(republication)為3,這樣保證了數據的安全性。

   大致如圖:

二、HDFS寫數據流程

  1.客戶端向Namenode請求上傳文件數據Hunter.txt(大小:200M);

  2.Namenode響應可以上傳文件;

  3.客戶端向Namenode請求上傳第一個block(0~128M),請求返回Datanode節點;

  4.Namenode返回三個Datanode節點(副本數預設為3),採用這三個節點存儲數據;

  5.客戶端向Datanode請求建立一個block的傳輸通道;

  6.Datanode應答通道建立成功;

  7.客戶端向Datanode傳輸數據,數據寫入到HDFS文件系統當中。

三、hdfs讀數據流程

  1.客戶端向Namenode請求下載文件hunter.txt(200M);

  2.Namenode返回目標文件的元數據信息(block所在的datanode);

  3.客戶端向Datanode請求讀取數據文件;

  4.Datanode以FSDataInputStream流的形式向客戶端傳輸數據;

  5.客戶端生成hunter.txt文件。

 

四、Namenode運行機制

  首先去到主節點namenode的元數據信息dfs目錄中,可以看到很多種文件,如下:

  edits:存放HDFS系統所有的更新操作的日誌文件

  fsimage:HDFS元數據的永久性的檢查點,其中包含了hdfs系統所有的目錄和文件

  seen_txid:最有一個edits文件的數字,即edits文件個數

  VERSION:記錄了很多的id,如下:

    namespaceID:每個節點的id,每個節點都不同

    ClusterID:一個集群統一的id,是唯一的,一個集群中所有節點的ClusterID都相同

    CTime:Namenode存儲系統的使用時間的時間戳

    storageType:節點類型

    blockpoolID:跨集群的全局唯一

    layoutVersion:版本號

  Namenode的運行機制:

   1.首先啟動集群,會啟動Namenode和SecondaryNamenode,兩個節點的記憶體會載入日誌文件和鏡像文件(edits、fsimage文件);

   2.當客戶端對HDFS集群進行增刪改查等操作時,日誌文件會更新滾動;

   3.當eidts文件數量達到預設閾值,或checkpoint時間到達預設觸發時間時;

    (dfs.namenode.checkpoint.period :多久checkpoint一次、

    dfs.namenode.checkpoint.check.period:多久檢查一次操作的次數、
      dfs.namenode.checkpoint.txns:多少次操作後chechpoint一次)

   4.Namenode將edits文件拷貝到SecondarNamenode;

   5.SecondarNamenode的記憶體會載入拷貝的edits文件併合並;

   6.SecondarNamenode會生成新的鏡像文件fsimage.checkpoint;

   7.SecondarNamenode將新生產的鏡像文件拷貝到Namenode;

   8.Namenode將收到的鏡像文件重命名為fsimage;

   9.Namenode將新的fsimage鏡像文件發送到SecondarNamenode

   這樣兩個節點的元數據信息就相同了!!!

 

五、Datanode運行機制

  1.HDFS集群啟動後,Datanode現象Namenode發送註冊信息;

  2.Namenode返回註冊成功;

  3.每隔一段時間Datanode會上傳所有的塊信息到Namenode;

  (塊信息:數據、數據長度、校驗和、時間戳等)

  4.預設如果超過10分鐘Namenode沒有收到Datanode的信息信息,則認為節點不可用

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 0.前言 最近刷LeetCode 刷資料庫題目 由於資料庫課上的是SQL,而MySQL有許多自己的函數的,怕把剛學會的函數忘記 特在此記錄! 1.題目 2.用到的知識點 前者表示查詢顯示前10行 後者表示從第0行的往後10行,也就是第1行到第10行 如果expression_1不為NULL 就顯示自 ...
  • 報錯信息:com.microsoft.sqlserver.jdbc.SQLServerException: 到主機 的 TCP/IP 連接失敗。 java.net.ConnectException: Connection refused: connect Exception in thread "m ...
  • Oracle 18c 資料庫中scott用戶不存在的解決方法 註:該文為轉載 上面標題可直接跳轉 原文地址:http://www.cnblogs.com/zangdalei/p/5482732.html -- 使用超級管理員登錄 CONN sys/change_on_install AS SYSDB ...
  • 直接上圖比較直觀 tips one:先看看自己 控制台的 SQLplus 可以登錄不 可以直接往下麵走 ,如果不可以就現在服務裡面找到 Oracle 開頭的服務啟動就好 實在不會可以百度 註:由於該步太簡單且Oracle的服務預設開啟 博主就不多贅述了 tips two: 如果自己的資料庫提示沒有S ...
  • 資料庫的介紹 mysql資料庫介紹 開放源碼的輕量級關係型資料庫管理系統,體積小、速度快、操作便捷。 資料庫的啟動和連接 mysql資料庫啟動 在終端輸入以下命令,啟動mysql伺服器 輸入命令,查詢mysql伺服器狀態 出現如下提示表示mysql伺服器以啟動成功 mysql資料庫連接 輸入賬戶和密 ...
  • CREATE TRIGGER m_trigger AFTER UPDATE ON table1 FOR EACH ROW BEGIN IF( old.status!= new.status) THEN SELECT COUNT(id) FROM table1 WHERE stats='Y' INTO ...
  • MySQL資料庫備份與還原 資料庫備份也叫SQL數據備份,備份的結果都是SQL指令。 在MySQL中專門提供了一個用於資料庫備份的SQL客戶端:mysqldump.exe(MySql document copy),sql備份是一種MySQL非常常見的備份與還原方式,SQL備份不只是備份數據,還備份對 ...
  • 安裝環境:CentOS 6.5 MySQL 5.7.22 MHA 0.56 1、找不到mysql 命令 Sat Mar 23 07:17:50 2019 - [info] Connecting to [email protected](server2:22).. Checking slave r ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...