Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數

-Advertisement-

一. Hbase 的 region 我們先簡單介紹下 Hbase 的架構和 region ：從物理集群的角度看，Hbase 集群中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer 伺服器上又 ...

一. Hbase 的 region

我們先簡單介紹下 Hbase 的架構和 region ：

從物理集群的角度看，Hbase 集群中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer 伺服器上又可以有多個 Hregion（以下簡稱 region）。要讀取一個數據的時候，首先要先找到存放這個數據的 region。而 Spark 在讀取 Hbase 的時候，讀取的 Rdd 會根據 Hbase 的 region 數量劃分 stage。所以當 region 存儲設置得比較大導致 region 比較少，而 spark 的 cpu core 又比較多的時候，就會出現無法充分利用 spark 集群所有 cpu core 的情況。

我們再從邏輯表結構的角度看看 Hbase 表和 region 的關係。

Hbase是通過把數據分配到一定數量的region來達到負載均衡的。一個table會被分配到一個或多個region中，這些region會被分配到一個或者多個regionServer中。在自動split策略中，當一個region達到一定的大小就會自動split成兩個region。
Region由一個或者多個Store組成，每個store保存一個columns family，每個Strore又由一個memStore和0至多個StoreFile 組成。memStore存儲在記憶體中， StoreFile存儲在HDFS上。
region是HBase中分散式存儲和負載均衡的最小單元。不同Region分佈到不同RegionServer上，但並不是存儲的最小單元。

二. Spark 讀取 Hbase 優化及 region 手動拆分

在用spark的時候，spark正是根據hbase有多少個region來劃分stage。也就是說region劃分得太少會導致spark讀取時的併發度太低，浪費性能。但如果region數目太多就會造成讀寫性能下降，也會增加ZooKeeper的負擔。所以設置每個region的大小就很關鍵了。

自0.94.0版本以來，split還有三種策略可以選擇，不過一般使用預設的分區策略就可以滿足需求，我們要修改的是會觸發 region 分區的存儲容量大小。

而在0.94.0版本中，預設的 region 大小為10G，就是說當存儲的數據達到 10 G 的時候，就會觸發 region 分區操作。有時候這個值可能太大，這時候就需要修改配置了。我們可以在 HBASE_HOME/conf/hbase-site.xml 文件中，增加如下配置：

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的觸發 region 分區的大小，要註意這個值是以 bit 為單位的，這裡是將region文件的大小改為512m。

修改之後我們就可以手動 split region了，手動分區會自動根據這個新的配置值大小，將 region 已經存儲起來的數據進行再次進行拆分。

我們可以在 hbase shell 中使用 split 來進行操作，有以下幾種方式可以進行手動拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

這裡使用的是 split ‘namespace:tableName’ 這種方式。其中 tableName 自不必多說，就是要拆分的表名，namespace可以在hbase的web界面中查看，一般會是default。

使用命令之後稍等一會，hbase會根據新的region文件大小去split，最終結果可以在web-ui的"table Details"一欄，點擊具體table查看。

以上~

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

在Winform開發框架中對附件文件進行集中歸檔處理

在我們Winform開發中，往往需要涉及到附件的統一管理，因此我傾向於把它們獨立出來作為一個附件管理模塊，這樣各個模塊都可以使用這個附件管理模塊，更好的實現模塊重用的目的。在涉及附件管理的場景中，一個數據記錄可能對應多個附件組場景，每個附件組則涉及附件多個文件，往往這些附件可能放置的目錄會有所不同，... ...
ASP.NET MVC5 高級編程-學習日記-第二章控制器

2.1 控制器的角色 MVC模式中的控制器(Controller)主要負責響應用戶的輸入，冰球在響應時修改模型(Model)。通過這種方式，MVC模式中的控制器主要關註的是應用程式流、輸入數據的處理，以及對相關視圖(View)輸出數據的提供。 URL首先告知陸游機制去實例化哪個控制器，調用哪個操作方 ...
C# winfrom 寫的一個搜索助手，可以按照標題和內容搜索，支持doc,xls,ppt,pdf,txt等格式的文件搜索

C# winfrom 寫的一個搜索助手，可以按照標題和內容搜索，指定目錄後，遍歷搜索文件和子目，現在只寫了支持.DOC.DOCX.XLS.XLSX.PPT.PPTX.PDF.HTML.HTM.TXT等格式的文件搜索，讀取execl 內容使用的是NPOI組件，doc,html,txt 格式的使用Str ...
安裝了精簡版的windows 的電腦如何修複？參照的程式集沒有安裝在系統上

我利用網路上的windows 10 純凈版來進行安裝windows 10 鏡像的時候，發現很多的windows 的服務都是不能用的。比如啟動/刪除 windows 功能就是不能用的，會出現如下信息：發現出現了：“參照的程式集沒有安裝在系統上” 的錯誤，這應該是，你不小心安裝上精簡版系統造成的，某些 ...
11.如何迅速分析出系統CPU的瓶頸在哪裡

前幾節里，通過幾個案例，分析了各種常見的 CPU 性能問題。通過這些，相信對 CPU 的性能分析已經不再陌生和恐懼，起碼有了基本的思路，也瞭解了不少 CPU 性能的分析工具。不過，我猜你可能也碰到了一個我曾有過的困惑： CPU 的性能指標那麼多，CPU 性能分析工具也是一抓一大把，如果離開專欄 ...
Redis命令

控制台命令運行redis # ./bin/redis-server ./redis.conf 搜索redis是否運行 # ps -ef | grep -i redis 關閉redis # ./bin/redis-cli shutdown 進入redis # ./bin/redis-cli 127. ...
SQLServer之多表聯合查詢

多表聯合查詢簡介定義：連接查詢是關係型資料庫最主要的查詢，通過連接運算符可以實現多個表連接數據查詢。分類：內連接，外連接，全外連接。內連接定義內聯接使用比較運算符根據每個表的通用列中的值匹配兩個表中的行。語法 select 表1.*,表2.* from 表1 as a [wtih(鎖)] ...
DG不同步，MRP0進程打不開

問題描述：主庫備庫之前正常連接，但是昨天磁碟空間滿了之後，由於不知什麼原因將備庫重做日誌刪了，今天早上發現DG不同步的報警。當時思路如下：1、通過select thread#,low_sequence#,high_sequence# from v$archive_gap; 查看是否有歸檔沒有傳到備 ...