hbase 預分區與自動分區_ZenDei技術網路在線

hbase 預分區與自動分區

-Advertisement-

我們知道，HBASE在創建表的時候，會自動為表分配一個Region，當一個Region過大達到預設的閾值時（預設10GB大小）,HBase中該Region將會進行split，分裂為2個Region，以此類推。表在進行split的時候，會耗費大量的資源，頻繁的分區對HBase的性能有巨大的影響。所以， ...

我們知道，HBASE在創建表的時候，會自動為表分配一個Region，
當一個Region過大達到預設的閾值時（預設10GB大小）,HBase中該Region將會進行split，分裂為2個Region，以此類推。
表在進行split的時候，會耗費大量的資源，頻繁的分區對HBase的性能有巨大的影響。
所以，HBase提供了預分區功能，即用戶可以在創建表的時候對錶按照一定的規則分區。

假設我們初始給它10個Region，那麼導入大量數據的時候，就會均衡到10個裡面，顯然比1個Region要好很多。
可是我們應該創建多少個Region呢？顯然沒有具體答案，要結合業務，根據表的rowkey進行設計。

一．強制拆分
預分區方法：
1.hbase shell 預分區
建立分區前，要先瞭解表的rowkey格式，rowkey為：兩位隨機數+時間戳+客戶id
兩位隨機數的範圍從00-99，劃分範圍：小於10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,90+
hbase(main):001:0> create 'log1', 'cf1', SPLITS => ['10','20','30','40','50','60','70','80','90']

啟動webUI
vi hbase-site.xml
添加
<property>
<name>hbase.master.info.port</name>
<value>60010</value>
</property>

瀏覽器中：
http://h201:60010

通過配置文件載入
[hadoop@h201 ~]$ cat rs.txt
10
20
30
40
50
60
70
80
90
hbase(main):003:0> create 'log2', 'cf1', SPLITS_FILE =>'/home/hadoop/rs.txt'

2.HBASE API 預分區

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.util.Bytes;

public class Cp {
    public static void main(String[] args) {
       HBaseConfiguration config = new HBaseConfiguration();
       config.set("hbase.zookeeper.quorum", "h201,h202,h203");
       String tablename = new String("ctest1");
   try{
      HBaseAdmin admin = new HBaseAdmin(config);
        if (admin.tableExists(tablename)) {
            admin.disableTable(tablename);
            admin.deleteTable(tablename);
        }

        HTableDescriptor tableDesc = new HTableDescriptor(tablename);
        tableDesc.addFamily(new HColumnDescriptor("cf1"));
       
        byte[][] splitKeys = {
            Bytes.toBytes("10"),
            Bytes.toBytes("20"),
            Bytes.toBytes("30")
        };

        admin.createTable(tableDesc, splitKeys);
        admin.close();
      }catch(IOException e) {
            e.printStackTrace();
        }
    }
}

驗證：
webUI查看
ctest1有4個預分區

====================================================

二．自動拆分（Auto splitting）
1.
0.94 版本之前採用的是 ConstantSizeRegionSplitPolicy 策略。
這個策略非常簡單，從名字上就可以看出這個策略就是按照固定大小來拆分Region。它唯一用到的參數是： hbase.hregion.max.filesize, 預設值是 10G, 也就是當 Region 的大小達到 10G 的時候, 會自動拆分成兩個 Region.

2.
0.94 版本之後，有了 IncreasingToUpperBoundRegionSplitPolicy 策略。並且預設使用的這種策略。這種策略從名字上就可以看出是限制不斷增長的文件尺寸的策略。
這種策略使用的最大store file size依據 Min(R^2 * “hbase.hregion.memstore.flush.size”, “hbase.hregion.max.filesize”)，R代表同一臺Region Server節點上的region的個數。比如，在預設memstore flush size為128MB且預設的max store size為10G時。（R為region的個數）
第一次拆分大小為：min(10G，1*1*128M)=128M
第二次拆分大小為：min(10G，3*3*128M)=1152M
第三次拆分大小為：min(10G，5*5*128M)=3200M
第四次拆分大小為：min(10G，7*7*128M)=6272M
第五次拆分大小為：min(10G，9*9*128M)=10G
第五次拆分大小為：min(10G，11*11*128M)=10G

可以看到，只有在第四次之後的拆分大小才為10G

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

redis 安裝-配置

下載鏈接： ※ 如果沒有直接複製url 到瀏覽器下載 1：下載完成 2：解壓 3: 複製放到use/local目錄下 4：進入 redis 目錄 ( 確認　/url/local/redis/ 目錄下的文件是否存在， INSTALL Makefile redis.conf ） 5: 生成 6: 測 ...
輔助排序和Mapreduce整體流程

一、輔助排序需求：先有一個訂單數據文件，包含了訂單id、商品id、商品價格，要求將訂單id正序，商品價格倒序，且生成結果文件個數為訂單id的數量，每個結果文件中只要一條該訂單最貴商品的數據。思路：1.封裝訂單類OrderBean，實現WritableComparable介面； 2.自定義Mapp ...
日常監控郵件預警(視圖無效測試分析)

第一次在博客園寫博客,寫的不好,請大家多多評論，也希望自己以後對技術探索的更深。今天下班之後,由於晚上要發版本,所以開發同事必須留下,突然收到一封公司監控預警郵件。瞄了幾眼,大致的意思就是說視圖無效。由於視圖查詢的是表,所以開始做實驗測試。實驗一: 當基表drop列的時候,視圖是否還是有效? ...
Solr 16 - 增刪改Solr中索引數據的幾種方式 (在URL上或Web頁面中操作)

本篇博文介紹瞭如何在URL中直接發起HTTP請求, 操作Solr的文檔? 如何通過Solr的Web界面添加、修改、刪除文檔? 還涉及到常見的Solr刪除文檔的方式: URL發起HTTP請求, Solr Web中的document中提交請求. ...
redis 特性

Redis 三大特性： Redis 支持數據的持久化，可以將記憶體中的數據保存在磁碟中，重啟的時候可以再次載入進行使用 Redis 不僅支持簡單的鍵 * 值類型的數據，還提供list、set、zset、hash 等數據結構存儲 Redis 支持數據的備份，即master -slave模式的數據備 ...
mysql 多主

原理：多個msyql/mariadb之間可以實時同步，任意節點的操作可以立即同步到其他節點，底層採用galera插件同步，類似rsync，上層mysql相對於galera是透明的，可以實現多節點同時讀寫（無法實現讀寫分離）。 NOTE:普通的msyql/mariadb無法集成galera，要想使用g ...
zookeeper的安裝與配置

zookeeper簡介 1.官網：http://zookeeper.apache.org/ 介紹：Apache ZooKeeper致力於開發和維護開源伺服器，實現高度可靠的分散式協調。 ZooKeeper是一種集中式服務，用於維護配置信息，命名，提供分散式同步和提供組服務。所有這些類型的服務都以分 ...
SQLServer之創建鏈接伺服器

創建鏈接伺服器註意事項當我們要跨本地資料庫，訪問另外一個資料庫表中的數據時，本地資料庫中就必須要創建遠程資料庫的DBLINK，通過DBLINNK資料庫可以像訪問本地資料庫一樣訪問遠程資料庫表中的數據。鏈接伺服器允許訪問針對OLE DB數據源的分散式異構查詢。創建鏈接伺服器後，可以針對此伺服器運行 ...