Hadoop HDFS負載均衡

来源:http://www.cnblogs.com/BYRans/archive/2016/01/13/5128162.html
-Advertisement-
Play Games

Hadoop HDFS負載均衡 轉載請註明出處: "http://www.cnblogs.com/BYRans/" <br/ Hadoop HDFSHadoop 分散式文件系統(Hadoop Distributed File System),簡稱 HDFS,被設計成適合運行在通用硬體上的分散式...


Hadoop HDFS負載均衡


轉載請註明出處:http://www.cnblogs.com/BYRans/

Hadoop HDFS

Hadoop 分散式文件系統(Hadoop Distributed File System),簡稱 HDFS,被設計成適合運行在通用硬體上的分散式文件系統。它和現有的分散式文件系統有很多的共同點。HDFS 是一個高容錯性的文件系統,提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。

HDFS副本擺放策略

第一副本:放置在上傳文件的DataNode上;如果是集群外提交,則隨機挑選一臺磁碟不太慢、CPU不太忙的節點上;
第二副本:放置在於第一個副本不同的機架的節點上;
第三副本:與第二個副本相同機架的不同節點上;
如果還有更多的副本:隨機放在節點中;
HDFS副本策略

需要註意的是:

  • HDFS中存儲的文件的副本數由上傳文件時設置的副本數決定。無論以後怎麼更改系統副本繫數,這個文件的副本數都不會改變;
  • 在上傳文件時優先使用啟動命令中指定的副本數,如果啟動命令中沒有指定則使用hdfs-site.xml中dfs.replication設置的預設值;

HDFS負載均衡

Hadoop的HDFS集群非常容易出現機器與機器之間磁碟利用率不平衡的情況,例如:當集群內新增、刪除節點,或者某個節點機器內硬碟存儲達到飽和值。當數據不平衡時,Map任務可能會分配到沒有存儲數據的機器,這將導致網路帶寬的消耗,也無法很好的進行本地計算。
當HDFS負載不均衡時,需要對HDFS進行數據的負載均衡調整,即對各節點機器上數據的存儲分佈進行調整。從而,讓數據均勻的分佈在各個DataNode上,均衡IO性能,防止熱點的發生。進行數據的負載均衡調整,必須要滿足如下原則:

  • 數據平衡不能導致數據塊減少,數據塊備份丟失
  • 管理員可以中止數據平衡進程
  • 每次移動的數據量以及占用的網路資源,必須是可控的
  • 數據均衡過程,不能影響namenode的正常工作

Hadoop HDFS數據負載均衡原理

數據均衡過程的核心是一個數據均衡演算法,該數據均衡演算法將不斷迭代數據均衡邏輯,直至集群內數據均衡為止。該數據均衡演算法每次迭代的邏輯如下:

Balancer邏輯

步驟分析如下:

  1. 數據均衡服務(Rebalancing Server)首先要求 NameNode 生成 DataNode 數據分佈分析報告,獲取每個DataNode磁碟使用情況
  2. Rebalancing Server彙總需要移動的數據分佈情況,計算具體數據塊遷移路線圖。數據塊遷移路線圖,確保網路內最短路徑
  3. 開始數據塊遷移任務,Proxy Source Data Node複製一塊需要移動數據塊
  4. 將複製的數據塊複製到目標DataNode上
  5. 刪除原始數據塊
  6. 目標DataNode向Proxy Source Data Node確認該數據塊遷移完成
  7. Proxy Source Data Node向Rebalancing Server確認本次數據塊遷移完成。然後繼續執行這個過程,直至集群達到數據均衡標準



DataNode分組
在第2步中,HDFS會把當前的DataNode節點,根據閾值的設定情況劃分到Over、Above、Below、Under四個組中。在移動數據塊的時候,Over組、Above組中的塊向Below組、Under組移動。四個組定義如下:

HDFSGroup

  • Over組:此組中的DataNode的均滿足

DataNode_usedSpace_percent > Cluster_usedSpace_percent + threshold

  • Above組:此組中的DataNode的均滿足

Cluster_usedSpace_percent + threshold > DataNode_ usedSpace _percent > Cluster_usedSpace_percent

  • Below組:此組中的DataNode的均滿足

Cluster_usedSpace_percent > DataNode_ usedSpace_percent > Cluster_ usedSpace_percent – threshold

  • Under組:此組中的DataNode的均滿足

Cluster_usedSpace_percent – threshold > DataNode_usedSpace_percent

Hadoop HDFS 數據自動平衡腳本使用方法

在Hadoop中,包含一個start-balancer.sh腳本,通過運行這個工具,啟動HDFS數據均衡服務。該工具可以做到熱插拔,即無須重啟電腦和 Hadoop 服務。\(Hadoop_Home/bin 目錄下的 start-balancer.sh 腳本就是該任務的啟動腳本。 啟動命令為:`\)Hadoop_home/bin/start-balancer.sh –threshold`

影響Balancer的幾個參數:

  • -threshold
    • 預設設置:10,參數取值範圍:0-100
    • 參數含義:判斷集群是否平衡的閾值。理論上,該參數設置的越小,整個集群就越平衡
  • dfs.balance.bandwidthPerSec
    • 預設設置:1048576(1M/S)
    • 參數含義:Balancer運行時允許占用的帶寬

示例如下:

#啟動數據均衡,預設閾值為 10%
$Hadoop_home/bin/start-balancer.sh

#啟動數據均衡,閾值 5%
bin/start-balancer.sh –threshold 5

#停止數據均衡
$Hadoop_home/bin/stop-balancer.sh

在hdfs-site.xml文件中可以設置數據均衡占用的網路帶寬限制

<property>
    <name>dfs.balance.bandwidthPerSec</name>
    <value>1048576</value>
    <description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
    </property>




您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 哈希表的使用Hashtable hashtable = new Hashtable();hashtable.ContainsValue(tmp);//判斷哈希表中有沒有tmphashtable.add(tmp,tmp);//加入哈希表DataSet的使用SqlDataAdapter sda = ne...
  • Icinga是Nagios的一個變種,配置,使用方式幾乎一樣,而且完全相容Nagios的插件。所以下麵的部署方案對Nagios同樣使用。它還推出了兩個中文版本,icinga-cn原版和icinga-pnp4nagios-cn,前者和Nagios幾乎一模一樣,只不過界面是中文的,而後者則集成了php4...
  • 環境的操作系統為 CentOS 6。1 進入終端2 執行 yum -y install python-setuptools 安裝python的包管理工具3 執行 yum -yeasy_install pip 安裝python的包管理工具 接著,創建一個Shadowsocks配置文件,放在哪裡都可以4...
  • 本系統是10月5日最新完整版本的Windows10安裝版鏡像,win10正式版,更新了重要補丁,提升應用載入速度,微軟和百度今天宣佈達成合作,百度成為win10Edge瀏覽器中國預設主頁和搜索引擎,系統增加了搜狗輸入法,安裝過程需要用戶手動創建個人賬戶等步驟,為保證系統的穩定性,win10為未激活版...
  • grub學習筆記1 首先要瞭解的幾個概念1.1 啟動管理器啟動管理器是存儲在磁碟開始扇區中的一段程式,例如,硬碟的MBR(Master Boot Record),在系統完成啟動測試後,如果系統是從MBR啟動,則BIOS(Basic Input/Output System)將控制傳送給MBR。然後存儲...
  • come from elecfans : http://www.elecfans.com/article/83/146/2014/20140912353545_a.html[導讀] 無線充電技術的原理研究可以追溯到19世紀30年代,科學家邁克爾•法拉第首先發現了電磁感應原理,即周圍磁場的變化...
  • 一、簡介 xclip命令建立了終端和剪切板之間通道,可以用於以命令的方式將終端輸出或文件的內容保存到剪切板中,也可以用於將剪切板的內容輸出到終端或文件中。 在 X 系統裡面,從一個視窗複製一段文字到另一個視窗,有兩套機制,分別是 Selections 和 cut buffers: 常用的 copy ...
  • 作為低端 VPS ,大家購買搬瓦工(banwagonhost)用得最多的就是拿來科學上網了。搬瓦工可能自己也發現了這個問題,為了滿足廣大消費者的需求,因時制宜地推出了一鍵翻牆的安裝選項,在此之前還推出了 OpenVPN 的一鍵安裝,建議不要使用OpenVPN 。它VPN協議特征明顯,GFW可以非常容...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...