1.5 HDFS分散式文件系統-hadoop-最全最完整的保姆級的java大數據學習資料

-Advertisement-

1.5 HDFS分散式文件系統 1.5.1 HDFS 簡介 HDFS（全稱：Hadoop Distribute File System，Hadoop 分散式文件系統）是 Hadoop 核心組成，是分散式存儲服務。分散式文件系統橫跨多台電腦，在大數據時代有著廣泛的應用前景，它們為存儲和處理超大規模 ...

1.5 HDFS分散式文件系統

1.5 HDFS分散式文件系統

1.5.1 HDFS 簡介

HDFS（全稱：Hadoop Distribute File System，Hadoop 分散式文件系統）是 Hadoop 核心組成，是分散式存儲服務。

分散式文件系統橫跨多台電腦，在大數據時代有著廣泛的應用前景，它們為存儲和處理超大規模數據提供所需的擴展能力。

HDFS是分散式文件系統中的一種。

1.5.2 HDFS的重要概念

HDFS 通過統一的命名空間目錄樹來定位文件；另外，它是分散式的，由很多伺服器聯合起來實現其功能，集群中的伺服器有各自的角色（分散式本質是拆分，各司其職）

典型的 Master/Slave 架構

HDFS 的架構是典型的 Master/Slave 結構。

HDFS集群往往是一個NameNode（HA架構會有兩個NameNode,聯邦機制）+ 多個DataNode組成。

NameNode是集群的主節點，DataNode是集群的從節點。
分塊存儲（block機制）

HDFS中的文件在物理上是分塊存儲（block）的，塊的大小可以通過配置參數來規定。

Hadoop2.x版本中預設的block大小是128M。
命名空間（NameSpace）

HDFS支持傳統的層次型文件組織結構。用戶或者應用程式可以創建目錄，然後將文件保存在這些目錄里。文件系統名字空間的層次結構和大多數現有的文件系統類似：用戶可以創建、刪除、移動或重命名文件。

Namenode 負責維護文件系統的名字空間，任何對文件系統名字空間或屬性的修改都將被 Namenode 記錄下來。

HDFS提供給客戶單一個抽象目錄樹，訪問形式：hdfs://namenode的hostname:port/test/input

hdfs://linux121:9000/test/input
NameNode元數據管理

我們把目錄結構及文件分塊位置信息叫做元數據。

NameNode的元數據記錄每一個文件所對應的block信息（block的id,以及所在的DataNode節點的信息）
DataNode數據存儲

文件的各個 block 的具體存儲管理由 DataNode 節點承擔。一個block會有多個DataNode來存儲，DataNode會定時向NameNode來彙報自己持有的block信息。
副本機制
為了容錯，文件的所有 block 都會有副本。每個文件的 block 大小和副本繫數都是可配置的。應用程式可以指定某個文件的副本數目。副本繫數可以在文件創建的時候指定，也可以在之後改變。副本數量預設是3個。
一次寫入，多次讀出

HDFS是設計成適應一次寫入，多次讀出的場景，且不支持文件的隨機修改。（支持追加寫入，不只支持隨機更新）

正因為如此，HDFS適合用來做大數據分析的底層存儲服務，並不適合用來做網盤等應用（修改不方便，延遲大，網路開銷大，成本太高）

1.5.3 HDFS架構

在這裡插入圖片描述

NameNode(nn):hdfs集群的管理者，Master
- 維護管理hdfs的名稱空間（NameSpace）
- 維護副本策略
- 記錄文件塊（Block）的映射信息
- 負責處理客戶端讀寫請求
DataNode:NameNode下達命令，DataNode執行實際操作，Slave節點。
- 保存實際的數據塊
- 負責數據塊的讀寫
Client:客戶端
- 上傳文件到HDFS的時候，Client負責將文件切分成Block,然後進行上傳
- 請求NameNode交互，獲取文件的位置信息
- 讀取或寫入文件，與DataNode交互
- Client可以使用一些命令來管理HDFS或者訪問HDFS

在這裡插入圖片描述

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

TinyShell（CSAPP實驗）

簡介 CSAPP實驗介紹學生實現他們自己的帶有作業控制的Unix Shell程式，包括Ctrl + C和Ctrl + Z按鍵，fg，bg，和 jobs命令。這是學生第一次接觸併發，並且讓他們對Unix的進程式控制制、信號和信號處理有清晰的瞭解。什麼是Shell？ Shell就是用戶與操作系統內核 ...
每日演算法之二叉搜索樹的後序遍歷序列

JZ33 二叉搜索樹的後序遍歷序列描述輸入一個整數數組，判斷該數組是不是某二叉搜索樹的後序遍歷的結果。如果是則返回 true ,否則返回 false 。假設輸入的數組的任意兩個數字都互不相同。提示： 1.二叉搜索樹是指父親節點大於左子樹中的全部節點，但是小於右子樹中的全部節點的樹。 2.該題我 ...
源碼解析：Dubbo3 的 Spring 適配原理與初始化流程

前言在使用mybatis框架進行開發時，編寫sql少不了<=，>=，>，<，<>等比較符號，但是直接在mapper文件中，直接使用這些符號是不行的，此時就需要對類似於這種的符號進行轉換。正文直接符號轉義以下羅列出sql中的比較符合和對應的轉義符號：大於 > ==> > 大於等於 >= ...
Java8新特性之方法引用

本文主要介紹方法引用的5種形式：對象的非靜態方法引用、類的靜態方法引用、類的非靜態方法引用、構造器的引用、數組的引用。 ...
有來實驗室|第一篇：Seata1.5.2版本部署和開源全棧商城訂單支付業務實戰

有來實驗室結合正式的商城訂單支付業務場景將 Seata 分散式事務可視化，通過現象去看本質(原理和源碼)，告別被動式輸入的短期記憶學習。 ...
.NET 6 基於IDistributedCache實現Redis與MemoryCache的緩存幫助類

C# 簡介 C#是微軟公司發佈的一種由C和C++衍生出來的面向對象的編程語言，它不僅去掉了 C++ 和 Java 語言中的一些複雜特性，還提供了可視化工具，能夠高效地編寫程式。 C#是由C和C++衍生出來的一種安全的、穩定的、簡單的、優雅的面向對象編程語言。它在繼承C和C++強大功能的同時去掉了一些 ...
Ubuntu20.04更換國內鏡像源（阿裡、網易163、清華、中科大）

防禦式編程的重點就是需要防禦一些程式未曾預料的錯誤，這是一種提高軟體質量的輔助性方法，斷言assert就用於防禦式編程，編寫代碼時，我們總是會做出一些假設，斷言就是用於在代碼中捕捉這些假設。使用斷言是為了驗證預期的結果——當程式執行到斷言的位置時，對應的斷言應該為真；若斷言不為真時，程式會終止執行， ...
《MySQL必知必會》知識彙總四

十七、插入數據本章將介紹如何利用sql的INSERT語句將數據插入表中數據插入插入分為以下幾種方式：插入完整的行、插入行的一部分、插入多行、插入某些查詢結果插入完整的行 INSERT INTO Customers VALUES(NULL, 'Pep E. LaPew', '100 Main ...