1.5.5 HDFS讀寫解析-hadoop-最全最完整的保姆級的java大數據學習資料

来源:https://www.cnblogs.com/gitBook/archive/2022/12/09/16967974.html
-Advertisement-
Play Games

1.5.5 HDFS讀寫解析 1.5.5.1 HDFS讀數據流程 客戶端通過Distributed FileSystem向NameNode請求下載文件,NameNode通過查詢元數據, 找到文件塊所在的DataNode地址。 挑選一臺DataNode(就近原則,然後隨機)伺服器,請求讀取數據。 Da ...


目錄

1.5.5 HDFS讀寫解析

1.5.5.1 HDFS讀數據流程

在這裡插入圖片描述

  1. 客戶端通過Distributed FileSystem向NameNode請求下載文件,NameNode通過查詢元數據, 找到文件塊所在的DataNode地址。
  2. 挑選一臺DataNode(就近原則,然後隨機)伺服器,請求讀取數據。
  3. DataNode開始傳輸數據給客戶端(從磁碟裡面讀取數據輸入流,以Packet為單位來做校驗)。
  4. 客戶端以Packet為單位接收,先在本地緩存,然後寫入目標文件。

1.5.5.2 HDFS寫數據流程

在這裡插入圖片描述

  1. 客戶端通過Distributed FileSystem模塊向NameNode請求上傳文件,NameNode檢查目標文件是否已存在,父目錄是否存在。

  2. NameNode返回是否可以上傳。

  3. 客戶端請求第一個 Block上傳到哪幾個DataNode伺服器上。

  4. NameNode返回3個DataNode節點,分別為dn1、dn2、dn3。

  5. 客戶端通過FSDataOutputStream模塊請求dn1上傳數據,dn1收到請求會繼續調用dn2,然後dn2調用dn3,將這個通信管道建立完成。

  6. dn1、dn2、dn3逐級應答客戶端。

  7. 客戶端開始往dn1上傳第一個Block(先從磁碟讀取數據放到一個本地記憶體緩存),以Packet為單位,dn1收到一個Packet就會傳給dn2,dn2傳給dn3;dn1每傳一個packet會放入一個確認隊列等待確認。

  8. 當一個Block傳輸完成之後,客戶端再次請求NameNode上傳第二個Block的伺服器。(重覆執行 3-7步)。

驗證Packet代碼

@Test
public void testUploadPacket() throws IOException {
    //1 準備讀取本地文件的輸入流
    final FileInputStream in = new FileInputStream(new File("e:/lagou.txt"));
    //2 準備好寫出數據到hdfs的輸出流
    final FSDataOutputStream out = fs.create(new Path("/lagou.txt"), new Progressable() {
        public void progress () { //這個progress方法就是每傳輸64KB(packet)就會執行一次,
            System.out.println("&");
        }
    });
    //3 實現流拷貝
    IOUtils.copyBytes(in, out, configuration); //預設關閉流選項是true,所以會自動 關閉
    //4 關流         可以再次關閉也可以不關了
}

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 大家好,我是痞子衡,是正經搞技術的痞子。今天痞子衡給大家講的是存儲器大廠Micron的NOR Flash晶元特殊絲印設計(FBGA代碼)。 痞子衡之前寫過一篇文章 《J-Flash在Micron Flash固定區域下載校驗失敗的故事》,這篇文章里提及了 Micron 家的串列 NOR Flash 與 ...
  • 大家好,我是痞子衡,是正經搞技術的痞子。今天痞子衡給大家講的是國內外串列NOR Flash廠商官網Cross Reference功能。 串列 NOR Flash 是一個相對發展穩定的市場,目前全球市場約 90% 的份額被中國的三家廠商(Winbond華邦/MXIC旺巨集/GigaDevice兆易創新) ...
  • 我們前面採集的日誌數據已經保存到 Kafka 中,作為日誌數據的 ODS 層,從 Kafka 的ODS 層讀取的日誌數據分為 3 類, 頁面日誌、啟動日誌和曝光日誌。這三類數據雖然都是用戶行為數據,但是有著完全不一樣的數據結構,所以要拆分處理。將拆分後的不同的日誌寫回 Kafka 不同主題中,作為日 ...
  • 前言 "redis是單線程的" 這句話我們耳熟能詳。但它有一定的前提,redis整個服務不可能只用到一個線程完成所有工作,它還有持久化、key過期刪除、集群管理等其它模塊,redis會通過fork子進程或開啟額外的線程去處理。所謂的單線程是指從網路連接(accept) -> 讀取請求內容(read) ...
  • 作者:李紅建 責編:宇亭 在第一期研發分享中,我們解釋了,為什麼Tinamu作為一款列式存儲引擎在初期不支持 Delete 功能的原因,然後對一些友商列式存儲引擎的 Delete 方案進行了一些調研和總結,感興趣的同學可以查看我們上一期的分享:關於列式資料庫實現 Delete 功能的調研之旅。 本期 ...
  • 簡介 CloudCanal 實現的 基於 Kafka 構建安全的跨互聯網數據同步 方案被客戶用於生產後,又出現了新的需求,主要集中在方案能否更加輕量化和可控性上,簡而言之,去掉 Kafka 中轉,直接在 CloudCanal 中實現跨網路安全互通。 本篇文章即介紹 CloudCanal 實現的更加輕 ...
  • 行業動態 ClickHouse Cloud正式GA,同時,B輪融資得到進一步增加 這是由ClickHouse官方推出雲服務,啟用新功能變數名稱:clickhouse.cloud ,類似於MongoDB的Atlas服務。目前支持在AWS構建,從Roadmap看,很快會推出GCP和Azure的版本。當前,官方會 ...
  • 作者:鄭啟龍 摘要: 對於MYSQL的INNODB存儲引擎的索引,大家是不陌生的,都能想到是 B+樹結構,可以加速SQL查詢。但對於B+樹索引,它到底“長”得什麼樣子,它具體如何由一個個位元組構成的,這些的基礎知識鮮有人深究。本篇文章從MYSQL行記錄開始說起,層層遞進,包括數據頁,B+樹聚簇索引,B ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...