Hadoop源碼學習筆記之NameNode啟動流程分析一:源碼環境搭建和項目模塊及NameNode結構簡單介紹

来源:https://www.cnblogs.com/bornot/archive/2019/01/24/10310720.html
-Advertisement-
Play Games

最近在跟著一個大佬學習Hadoop底層源碼及架構等知識點,覺得有必要記錄下來這個學習過程。想到了這個廢棄已久的blog賬號,決定重新開始更新。 主要分以下幾步來進行源碼學習: 一、搭建源碼閱讀環境二、源碼項目結構概覽及hdfs源碼包結構簡介三、NameNode介紹 第一步,搭建源碼閱讀環境。 把Ha ...


最近在跟著一個大佬學習Hadoop底層源碼及架構等知識點,覺得有必要記錄下來這個學習過程。想到了這個廢棄已久的blog賬號,決定重新開始更新。

主要分以下幾步來進行源碼學習:

一、搭建源碼閱讀環境
二、源碼項目結構概覽及hdfs源碼包結構簡介
三、NameNode介紹

 

第一步,搭建源碼閱讀環境。

把Hadoop源碼包導入到開發工具,eclipse或者idea都行。這裡我的環境是mac os,使用的工具是idea,Hadoop版本為2.6.5。

首先,解壓縮Hadoop源碼包,可以選擇移動解壓之後的源碼包到idea工作空間

然後打開idea,選擇import project,指定工作空間里的源碼包路徑

選擇maven,下一步

勾選紅框內選項,下一步。

勾選紅框內選項選項,下一步。

繼續下一步,

繼續下一步,

點擊完成,等待maven下載依賴,然後就導入成功了。

需要註意的是導入的時候maven需要下載很多依賴,所以這個過程可能會稍微長一些,耐心等候即可。

項目結構如下,

 

參考鏈接:https://blog.csdn.net/twj0823/article/details/84560878

第二步,項目結構概覽及hdfs項目包簡介。

Hadoop是一個龐大的項目,源碼包導入idea之後,可以發現裡面又按照功能分為很多不同的小項目,比較耳熟能詳的有hdfs、mapreduce、yarn等,

還有別的一些功能性的組件以及新增的特性功能。點開Packages視圖,包結構如下:

此處暫時只針對hdfs模塊的NameNode進行分析。點開hadoop-hdfs之後,發現也是按照功能進行分包的結構:

  可以自己查看一下各個包里的內容。namenode屬於伺服器上的一個進程,所以是在server包下。server包除了有namenode,還有datanode、

  blockmanagement、common、protocol等包。先把目標鎖定在namenode,裡面大致有ha高可用、快照處理、啟動進程、網路資源等模塊

  

第三步,NameNode類簡單介紹。

  NameNode類在下邊一堆的類文件中間的位置,至此,目標終於找到,開始切入正題了。閱讀源碼是一個非常好的學習方法,不僅可以學習到底層的

  技術實現機制,還可以通過查看核心代碼梳理整個調用流程。

  首先,要學會看註釋,除了通過梳理核心代碼流程可以得知整個代碼結構之外,通過註釋可以更清晰的知道代碼的意圖。比如看一段繁雜的代碼繞來繞去、

  暈頭轉向,而註釋就是專門給人看的東西,幫助我們在看代碼的時候有一個大致的推測方向。

  所以,NameNode的這段註釋已經很明白的說明瞭NameNode的功能和構成:

/**********************************************************
 * NameNode serves as both directory namespace manager and
 * "inode table" for the Hadoop DFS.  There is a single NameNode
 * running in any DFS deployment.  (Well, except when there
 * is a second backup/failover NameNode, or when using federated NameNodes.)
 *
 * The NameNode controls two critical tables:
 *   1)  filename->blocksequence (namespace)
 *   2)  block->machinelist ("inodes")
 * 
 * The first table is stored on disk and is very precious.
 * The second table is rebuilt every time the NameNode comes up.
 *
 * 'NameNode' refers to both this class as well as the 'NameNode server'.
 * The 'FSNamesystem' class actually performs most of the filesystem
 * management.  The majority of the 'NameNode' class itself is concerned
 * with exposing the IPC interface and the HTTP server to the outside world,
 * plus some configuration management.
 **********************************************************/

  上面兩段話 主要是說,NameNode管理兩類數據:

    1.filename -> blocksequence (namespace) 

     文件到block的映射,上傳的文件被切分為多個block(128m),這份映射數據就是namespace,存儲在磁碟上。

    2.block -> machinelist (inodes)
     
block到datanode的映射,每個block都會分配給一個datanode,每個block還有3個副本,也就是每個block對應多個datanode,

     這個映射數據就是inodes。在NameNode每次啟動的時候,由datanode彙報過來的。

  最下麵一段話的字面意思是,NameNode主要由FSNamesystem、NameNode本身、NameNodeServer三部分構成。

  其中,FSNamesystem是用來執行文件系統管理的,NameNode被用來處理外部的遠程調用,包括HTTP服務以及一些配置管理。

  這段話想表達什麼意思呢?

  FSNamesystem執行文件系統管理,這個好理解,就是負責管理元數據。

  NameNode處理外部遠程調用以及Http服務怎麼理解?其實就是說,NameNode主要幹了兩件事情:

    1.處理一些配置屬性,就是core-site.xml、hdfs-site.xml等文件里的配置;

    2.啟動NameNodeServer(分為NameNodeHttpServer和NameNodeRpcServer),對外監聽某個埠,處理接收到的http/rpc請求。比如請求

     這兩個server進行創建目錄、上傳/下載文件等一些操作。

  以上就是NameNode的功能和組成的大概介紹。

  然後,結合Linux上運行jar文件的經驗,查看該jar的進程,發現進程名字其實就是jar中被指定執行的Java類文件名。Hadoop集群的主節點NameNode

  進程也是如此,由此想進一步知道NameNode的啟動流程,可以通過NameNode類的main()入口進去查看。下一篇繼續進行源碼深入剖析。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 總結幾個剛接觸到的sql語句,以後慢慢完善。 一、添加數據,insert語句 insert into table set columnName1 = value1,columnName2 = value2,…; sq1 = 'insert into boke_articles set ?'此處的問號 ...
  • 作為一個新手,第一次接觸資料庫,搞了兩天才創建自己的第一個資料庫,走了不少彎路,現總結一下: 一、設置MySql環境 安裝的XAMPP,下載了Navigate for MySql。 啟動Apache 和Mysql,連接伺服器 綠色代表啟動成功。 二、打開Navigate for MySql 創建服務 ...
  • 背景描述 問題分析 Q1:為什麼會產生臨時表? 這個不多說,SQL寫的惹不起,反正就是半個小時看不懂的那種,就是一眼就知道一定會產生臨時表的😂~~~ Q2:登錄到機器上去查看記憶體使用偏小? 因為這個物理機的記憶體是125G,但是mysql的總數據量不超過1G,所有實際並不需要多少記憶體就可以將所有數據 ...
  • 1.下載壓縮包,地址1(官網下載):https://www.mysql.com/downloads/ 地址2(百度網盤):https://pan.baidu.com/s/12lnpcr3thBe9k-6CyxvHeg 提取碼: j9ya 官網下載方法如下: 2.解壓壓縮包到自己喜歡的文件夾中;(以我 ...
  • 前言 java連接資料庫完整流程為: 1,獲得驅動(driver),資料庫連接(url),用戶名(username),密碼(password)基本信息的三種方式。 2,通過獲得的信息完成JDBC實現連接資料庫。 註:連接前請導入jar包,例:連接mysql資料庫需要導入mysql-connector ...
  • JDBC全稱為:Java Data Base Connectivity (java資料庫連接),主要用於java與資料庫的鏈接。 整個鏈接過程如下圖: 1.資料庫驅動:Driver 載入mysql驅動:Class.forName("com.mysql.jdbc.Driver"); 載入oracle驅 ...
  • 備註: 直接使用Count(*)或Count(1)這些大家基本都會,主要是Count函數還可以加滿足表達式的統計:express 關於Count函數表達式的用法,目前個人只知道2種: a:使用:Count(表達式 Or null) b:使用:Count(Case when 表達式 then 1 E... ...
  • 網有很多相關內容,我在此做記錄和總結 1、主要是sql server 配置管理工具的配置 在此參考 https://www.cnblogs.com/yougmi/p/4616273.html(再次感謝!) (1)打開 sqlserver配置管理器 (2)三處配置,一處重啟: 一處配置: 二處配置: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...