Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數

来源:https://www.cnblogs.com/listenfwind/archive/2018/12/15/10122838.html
-Advertisement-
Play Games

一. Hbase 的 region 我們先簡單介紹下 Hbase 的 架構和 region : 從物理集群的角度看,Hbase 集群中,由一個 Hmaster 管理多個 HRegionServer,其中每個 HRegionServer 都對應一臺物理機器,一臺 HRegionServer 伺服器上又 ...


一. Hbase 的 region

我們先簡單介紹下 Hbase 的 架構和 region :

從物理集群的角度看,Hbase 集群中,由一個 Hmaster 管理多個 HRegionServer,其中每個 HRegionServer 都對應一臺物理機器,一臺 HRegionServer 伺服器上又可以有多個 Hregion(以下簡稱 region)。要讀取一個數據的時候,首先要先找到存放這個數據的 region。而 Spark 在讀取 Hbase 的時候,讀取的 Rdd 會根據 Hbase 的 region 數量劃分 stage。所以當 region 存儲設置得比較大導致 region 比較少,而 spark 的 cpu core 又比較多的時候,就會出現無法充分利用 spark 集群所有 cpu core 的情況。

我們再從邏輯表結構的角度看看 Hbase 表和 region 的關係。

  • Hbase是通過把數據分配到一定數量的region來達到負載均衡的。一個table會被分配到一個或多個region中,這些region會被分配到一個或者多個regionServer中。在自動split策略中,當一個region達到一定的大小就會自動split成兩個region。
  • Region由一個或者多個Store組成,每個store保存一個columns family,每個Strore又由一個memStore和0至多個StoreFile 組成。memStore存儲在記憶體中, StoreFile存儲在HDFS上
  • region是HBase中分散式存儲和負載均衡的最小單元。不同Region分佈到不同RegionServer上,但並不是存儲的最小單元。

二. Spark 讀取 Hbase 優化及 region 手動拆分

在用spark的時候,spark正是根據hbase有多少個region來劃分stage。也就是說region劃分得太少會導致spark讀取時的併發度太低,浪費性能。但如果region數目太多就會造成讀寫性能下降,也會增加ZooKeeper的負擔。所以設置每個region的大小就很關鍵了。

自0.94.0版本以來,split還有三種策略可以選擇,不過一般使用預設的分區策略就可以滿足需求,我們要修改的是會觸發 region 分區的存儲容量大小。

而在0.94.0版本中,預設的 region 大小為10G,就是說當存儲的數據達到 10 G 的時候,就會觸發 region 分區操作。有時候這個值可能太大,這時候就需要修改配置了。我們可以在 HBASE_HOME/conf/hbase-site.xml 文件中,增加如下配置:

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的觸發 region 分區的大小,要註意這個值是以 bit 為單位的,這裡是將region文件的大小改為512m。

修改之後我們就可以手動 split region了,手動分區會自動根據這個新的配置值大小,將 region 已經存儲起來的數據進行再次進行拆分。

我們可以在 hbase shell 中使用 split 來進行操作,有以下幾種方式可以進行手動拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

這裡使用的是 split ‘namespace:tableName’ 這種方式。其中 tableName 自不必多說,就是要拆分的表名,namespace可以在hbase的web界面中查看,一般會是default。

使用命令之後稍等一會,hbase會根據新的region文件大小去split,最終結果可以在web-ui的"table Details"一欄,點擊具體table查看。

以上~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在我們Winform開發中,往往需要涉及到附件的統一管理,因此我傾向於把它們獨立出來作為一個附件管理模塊,這樣各個模塊都可以使用這個附件管理模塊,更好的實現模塊重用的目的。在涉及附件管理的場景中,一個數據記錄可能對應多個附件組場景,每個附件組則涉及附件多個文件,往往這些附件可能放置的目錄會有所不同,... ...
  • 2.1 控制器的角色 MVC模式中的控制器(Controller)主要負責響應用戶的輸入,冰球在響應時修改模型(Model)。通過這種方式,MVC模式中的控制器主要關註的是應用程式流、輸入數據的處理,以及對相關視圖(View)輸出數據的提供。 URL首先告知陸游機制去實例化哪個控制器,調用哪個操作方 ...
  • C# winfrom 寫的一個搜索助手,可以按照標題和內容搜索,指定目錄後,遍歷搜索文件和子目,現在只寫了支持.DOC.DOCX.XLS.XLSX.PPT.PPTX.PDF.HTML.HTM.TXT等格式的文件搜索,讀取execl 內容使用的是NPOI組件,doc,html,txt 格式的使用Str ...
  • 我利用網路上的windows 10 純凈版來進行安裝windows 10 鏡像的時候,發現很多的windows 的服務都是不能用的。比如啟動/刪除 windows 功能就是不能用的,會出現如下信息: 發現出現了:“參照的程式集沒有安裝在系統上” 的錯誤,這應該是,你不小心安裝上精簡版系統造成的,某些 ...
  • 前幾節里,通過幾個案例,分析了各種常見的 CPU 性能問題。通過這些,相信對 CPU 的性能分析已經不再陌生和恐懼,起碼有了基本的思路,也瞭解了不少 CPU 性能的分析工 具。 不過,我猜你可能也碰到了一個我曾有過的困惑: CPU 的性能指標那麼多,CPU 性能分析工具 也是一抓一大把,如果離開專欄 ...
  • 控制台命令 運行redis # ./bin/redis-server ./redis.conf 搜索redis是否運行 # ps -ef | grep -i redis 關閉redis # ./bin/redis-cli shutdown 進入redis # ./bin/redis-cli 127. ...
  • 多表聯合查詢簡介 定義:連接查詢是關係型資料庫最主要的查詢,通過連接運算符可以實現多個表連接數據查詢。 分類:內連接,外連接,全外連接。 內連接 定義 內聯接使用比較運算符根據每個表的通用列中的值匹配兩個表中的行。 語法 select 表1.*,表2.* from 表1 as a [wtih(鎖)] ...
  • 問題描述:主庫備庫之前正常連接,但是昨天磁碟空間滿了之後,由於不知什麼原因將備庫重做日誌刪了,今天早上發現DG不同步的報警。 當時思路如下:1、通過select thread#,low_sequence#,high_sequence# from v$archive_gap; 查看是否有歸檔沒有傳到備 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...