1.5.5 HDFS讀寫解析-hadoop-最全最完整的保姆級的java大數據學習資料

-Advertisement-

1.5.5 HDFS讀寫解析 1.5.5.1 HDFS讀數據流程客戶端通過Distributed FileSystem向NameNode請求下載文件，NameNode通過查詢元數據，找到文件塊所在的DataNode地址。挑選一臺DataNode（就近原則，然後隨機）伺服器，請求讀取數據。 Da ...

1.5.5 HDFS讀寫解析
- 1.5.5.1 HDFS讀數據流程
- 1.5.5.2 HDFS寫數據流程

1.5.5 HDFS讀寫解析

1.5.5.1 HDFS讀數據流程

在這裡插入圖片描述

客戶端通過Distributed FileSystem向NameNode請求下載文件，NameNode通過查詢元數據，找到文件塊所在的DataNode地址。
挑選一臺DataNode（就近原則，然後隨機）伺服器，請求讀取數據。
DataNode開始傳輸數據給客戶端（從磁碟裡面讀取數據輸入流，以Packet為單位來做校驗）。
客戶端以Packet為單位接收，先在本地緩存，然後寫入目標文件。

1.5.5.2 HDFS寫數據流程

在這裡插入圖片描述

客戶端通過Distributed FileSystem模塊向NameNode請求上傳文件，NameNode檢查目標文件是否已存在，父目錄是否存在。
NameNode返回是否可以上傳。
客戶端請求第一個 Block上傳到哪幾個DataNode伺服器上。
NameNode返回3個DataNode節點，分別為dn1、dn2、dn3。
客戶端通過FSDataOutputStream模塊請求dn1上傳數據，dn1收到請求會繼續調用dn2，然後dn2調用dn3，將這個通信管道建立完成。
dn1、dn2、dn3逐級應答客戶端。
客戶端開始往dn1上傳第一個Block（先從磁碟讀取數據放到一個本地記憶體緩存），以Packet為單位，dn1收到一個Packet就會傳給dn2，dn2傳給dn3；dn1每傳一個packet會放入一個確認隊列等待確認。
當一個Block傳輸完成之後，客戶端再次請求NameNode上傳第二個Block的伺服器。（重覆執行 3-7步）。

驗證Packet代碼

@Test
public void testUploadPacket() throws IOException {
    //1 準備讀取本地文件的輸入流
    final FileInputStream in = new FileInputStream(new File("e:/lagou.txt"));
    //2 準備好寫出數據到hdfs的輸出流
    final FSDataOutputStream out = fs.create(new Path("/lagou.txt"), new Progressable() {
        public void progress () { //這個progress方法就是每傳輸64KB（packet）就會執行一次，
            System.out.println("&");
        }
    });
    //3 實現流拷貝
    IOUtils.copyBytes(in, out, configuration); //預設關閉流選項是true，所以會自動 關閉
    //4 關流         可以再次關閉也可以不關了
}

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

以騰訊會議為例基於OBS Studio的虛擬攝像頭應用

大家好，我是痞子衡，是正經搞技術的痞子。今天痞子衡給大家講的是存儲器大廠Micron的NOR Flash晶元特殊絲印設計(FBGA代碼)。痞子衡之前寫過一篇文章《J-Flash在Micron Flash固定區域下載校驗失敗的故事》，這篇文章里提及了 Micron 家的串列 NOR Flash 與 ...
BIO和NIO的區別和原理

大家好，我是痞子衡，是正經搞技術的痞子。今天痞子衡給大家講的是國內外串列NOR Flash廠商官網Cross Reference功能。串列 NOR Flash 是一個相對發展穩定的市場，目前全球市場約 90% 的份額被中國的三家廠商（Winbond華邦/MXIC旺巨集/GigaDevice兆易創新） ...
大數據 - DWD&DIM 行為數據

我們前面採集的日誌數據已經保存到 Kafka 中，作為日誌數據的 ODS 層，從 Kafka 的ODS 層讀取的日誌數據分為 3 類, 頁面日誌、啟動日誌和曝光日誌。這三類數據雖然都是用戶行為數據，但是有著完全不一樣的數據結構，所以要拆分處理。將拆分後的不同的日誌寫回 Kafka 不同主題中，作為日 ...
詳解redis網路IO模型

前言 "redis是單線程的" 這句話我們耳熟能詳。但它有一定的前提，redis整個服務不可能只用到一個線程完成所有工作，它還有持久化、key過期刪除、集群管理等其它模塊，redis會通過fork子進程或開啟額外的線程去處理。所謂的單線程是指從網路連接(accept) -> 讀取請求內容(read) ...
一鍵部署MySQL8+keepalived雙主熱備高可用

作者：李紅建責編：宇亭在第一期研發分享中，我們解釋了，為什麼Tinamu作為一款列式存儲引擎在初期不支持 Delete 功能的原因，然後對一些友商列式存儲引擎的 Delete 方案進行了一些調研和總結，感興趣的同學可以查看我們上一期的分享：關於列式資料庫實現 Delete 功能的調研之旅。本期 ...
CloudCanal實現跨互聯網數據安全同步(進階)

簡介 CloudCanal 實現的基於 Kafka 構建安全的跨互聯網數據同步方案被客戶用於生產後，又出現了新的需求，主要集中在方案能否更加輕量化和可控性上，簡而言之，去掉 Kafka 中轉，直接在 CloudCanal 中實現跨網路安全互通。本篇文章即介紹 CloudCanal 實現的更加輕 ...
雲資料庫技術行業動態：ClickHouse Cloud正式GA或有融資；openGauss社區引入新成員

行業動態 ClickHouse Cloud正式GA，同時，B輪融資得到進一步增加這是由ClickHouse官方推出雲服務，啟用新功能變數名稱：clickhouse.cloud ，類似於MongoDB的Atlas服務。目前支持在AWS構建，從Roadmap看，很快會推出GCP和Azure的版本。當前，官方會 ...
MYSQL-INNODB索引構成詳解

作者：鄭啟龍摘要：對於MYSQL的INNODB存儲引擎的索引，大家是不陌生的，都能想到是 B+樹結構，可以加速SQL查詢。但對於B+樹索引，它到底“長”得什麼樣子，它具體如何由一個個位元組構成的，這些的基礎知識鮮有人深究。本篇文章從MYSQL行記錄開始說起，層層遞進，包括數據頁，B+樹聚簇索引，B ...