HDFS及其各組件的機制_ZenDei技術網路在線

HDFS及其各組件的機制

-Advertisement-

一、HDFS運行機制概述：用戶的文件會被切塊後存儲在多台datanode節點中，並且每個文件在整個集群中存放多個副本，副本的數量可以通過修改配置自己設定。 HDFS：Hadoop Distributed file system，分散式文件系統。 HDFS的機制： HDFS集群中，有兩種節點，分別為 ...

一、HDFS運行機制

　　概述：用戶的文件會被切塊後存儲在多台datanode節點中，並且每個文件在整個集群中存放多個副本，副本的數量可以通過修改配置自己設定。

　　HDFS：Hadoop Distributed file system，分散式文件系統。

　　HDFS的機制：

　　　HDFS集群中，有兩種節點，分別為Namenode，Datanode；

　　　Namenode它的作用時記錄元數據信息，記錄塊信息和對節點進行統一管理。比如用戶要存儲一個很大的文件，HDFS系統會對這個文件進行切分，然後存儲在多台Namenode節點當中，那麼每個切的大小，存儲的路徑信息，文件的副本數等元數據信息會存儲在元數據當中，由Namenode進行管理和記錄。

　　　Datanode節點的作用是存儲數據，Namenode將數據切塊後的分配給多個Datanode節點，Datanode對數據塊進行存儲，Datanode它預設的塊大小在hadoop1.x的版本中是64M，而hadoop2.x之後的版本預設塊大小為128M。

　　　HDFS還有一個副本機制，它會預設給存在Datanode當中的每塊文件進行備份，預設的副本數量(republication)為3，這樣保證了數據的安全性。

　　　大致如圖：

二、HDFS寫數據流程

　　1.客戶端向Namenode請求上傳文件數據Hunter.txt(大小：200M)；

　　2.Namenode響應可以上傳文件；

　　3.客戶端向Namenode請求上傳第一個block(0~128M),請求返回Datanode節點；

　　4.Namenode返回三個Datanode節點(副本數預設為3),採用這三個節點存儲數據；

　　5.客戶端向Datanode請求建立一個block的傳輸通道；

　　6.Datanode應答通道建立成功；

　　7.客戶端向Datanode傳輸數據，數據寫入到HDFS文件系統當中。

三、hdfs讀數據流程

　　1.客戶端向Namenode請求下載文件hunter.txt(200M)；

　　2.Namenode返回目標文件的元數據信息(block所在的datanode)；

　　3.客戶端向Datanode請求讀取數據文件；

　　4.Datanode以FSDataInputStream流的形式向客戶端傳輸數據；

　　5.客戶端生成hunter.txt文件。

四、Namenode運行機制

　　首先去到主節點namenode的元數據信息dfs目錄中，可以看到很多種文件，如下：

　　edits:存放HDFS系統所有的更新操作的日誌文件

　　fsimage:HDFS元數據的永久性的檢查點，其中包含了hdfs系統所有的目錄和文件

　　seen_txid:最有一個edits文件的數字，即edits文件個數

　　VERSION:記錄了很多的id，如下：

　　　　namespaceID:每個節點的id，每個節點都不同

　　　　ClusterID:一個集群統一的id，是唯一的，一個集群中所有節點的ClusterID都相同

　　　　CTime:Namenode存儲系統的使用時間的時間戳

　　　　storageType:節點類型

　　　　blockpoolID:跨集群的全局唯一

　　　　layoutVersion:版本號

　　Namenode的運行機制：

　　　1.首先啟動集群，會啟動Namenode和SecondaryNamenode，兩個節點的記憶體會載入日誌文件和鏡像文件(edits、fsimage文件)；

　　　2.當客戶端對HDFS集群進行增刪改查等操作時，日誌文件會更新滾動；

　　　3.當eidts文件數量達到預設閾值，或checkpoint時間到達預設觸發時間時；

　　　　(dfs.namenode.checkpoint.period :多久checkpoint一次、

　　　　dfs.namenode.checkpoint.check.period:多久檢查一次操作的次數、
　　　 dfs.namenode.checkpoint.txns:多少次操作後chechpoint一次)

　　　4.Namenode將edits文件拷貝到SecondarNamenode；

　　　5.SecondarNamenode的記憶體會載入拷貝的edits文件併合並；

　　　6.SecondarNamenode會生成新的鏡像文件fsimage.checkpoint；

　　　7.SecondarNamenode將新生產的鏡像文件拷貝到Namenode；

　　　8.Namenode將收到的鏡像文件重命名為fsimage；

　　　9.Namenode將新的fsimage鏡像文件發送到SecondarNamenode

　　　這樣兩個節點的元數據信息就相同了！！！

五、Datanode運行機制

　　1.HDFS集群啟動後，Datanode現象Namenode發送註冊信息；

　　2.Namenode返回註冊成功；

　　3.每隔一段時間Datanode會上傳所有的塊信息到Namenode；

　　(塊信息：數據、數據長度、校驗和、時間戳等)

　　4.預設如果超過10分鐘Namenode沒有收到Datanode的信息信息，則認為節點不可用

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

LeetCode 176. 第二高的薪水(MySQL版）

0.前言最近刷LeetCode 刷資料庫題目由於資料庫課上的是SQL，而MySQL有許多自己的函數的，怕把剛學會的函數忘記特在此記錄！ 1.題目 2.用到的知識點前者表示查詢顯示前10行後者表示從第0行的往後10行，也就是第1行到第10行如果expression_1不為NULL 就顯示自 ...
JDBC：SqlServer連接TCP/IP連接失敗，到主機的 TCP/IP 連接失敗。

報錯信息：com.microsoft.sqlserver.jdbc.SQLServerException: 到主機的 TCP/IP 連接失敗。 java.net.ConnectException: Connection refused: connect Exception in thread "m ...
Oracle 18c 資料庫中scott用戶不存在的解決方法

Oracle 18c 資料庫中scott用戶不存在的解決方法註：該文為轉載上面標題可直接跳轉原文地址：http://www.cnblogs.com/zangdalei/p/5482732.html -- 使用超級管理員登錄 CONN sys/change_on_install AS SYSDB ...
oracle sql developer 出現：適配器無法建立連接問題解決方案 The Network Adapter could not establish the connection

直接上圖比較直觀 tips one：先看看自己控制台的 SQLplus 可以登錄不可以直接往下麵走，如果不可以就現在服務裡面找到 Oracle 開頭的服務啟動就好實在不會可以百度註：由於該步太簡單且Oracle的服務預設開啟博主就不多贅述了 tips two: 如果自己的資料庫提示沒有S ...
學習筆記—MySQL基礎

資料庫的介紹 mysql資料庫介紹開放源碼的輕量級關係型資料庫管理系統，體積小、速度快、操作便捷。資料庫的啟動和連接 mysql資料庫啟動在終端輸入以下命令，啟動mysql伺服器輸入命令，查詢mysql伺服器狀態出現如下提示表示mysql伺服器以啟動成功 mysql資料庫連接輸入賬戶和密 ...
Mysql5.7.21 Navicat觸發器創建

CREATE TRIGGER m_trigger AFTER UPDATE ON table1 FOR EACH ROW BEGIN IF( old.status!= new.status) THEN SELECT COUNT(id) FROM table1 WHERE stats='Y' INTO ...
MySQL學習之備份

MySQL資料庫備份與還原資料庫備份也叫SQL數據備份，備份的結果都是SQL指令。在MySQL中專門提供了一個用於資料庫備份的SQL客戶端：mysqldump.exe(MySql document copy),sql備份是一種MySQL非常常見的備份與還原方式，SQL備份不只是備份數據，還備份對 ...
MySQL MHA 報錯處理

安裝環境：CentOS 6.5 MySQL 5.7.22 MHA 0.56 1、找不到mysql 命令 Sat Mar 23 07:17:50 2019 - [info] Connecting to [email protected](server2:22).. Checking slave r ...