hbase 預分區與自動分區

来源:https://www.cnblogs.com/xiguage119/archive/2019/03/28/10616317.html
-Advertisement-
Play Games

我們知道,HBASE在創建表的時候,會自動為表分配一個Region,當一個Region過大達到預設的閾值時(預設10GB大小),HBase中該Region將會進行split,分裂為2個Region,以此類推。表在進行split的時候,會耗費大量的資源,頻繁的分區對HBase的性能有巨大的影響。所以, ...


我們知道,HBASE在創建表的時候,會自動為表分配一個Region
當一個
Region過大達到預設的閾值時(預設10GB大小),HBase中該Region將會進行split,分裂為2個Region,以此類推。
表在進行split的時候,會耗費大量的資源,頻繁的分區對HBase的性能有巨大的影響。
所以,HBase提供了預分區功能,即用戶可以在創建表的時候對錶按照一定的規則分區。

假設我們初始給它10個Region,那麼導入大量數據的時候,就會均衡到10個裡面,顯然比1個Region要好很多。
可是我們應該創建多少個Region呢?顯然沒有具體答案,要結合業務,根據表的rowkey進行設計。

一.強制拆分
預分區方法:
1.hbase shell 預分區
建立分區前,要先瞭解表的rowkey格式,rowkey為:兩位隨機數+時間戳+客戶id
兩位隨機數的範圍從00-99,劃分範圍:小於10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,90+
hbase(main):001:0> create 'log1', 'cf1', SPLITS => ['10','20','30','40','50','60','70','80','90']

啟動webUI
vi hbase-site.xml
添加
<property>
<name>hbase.master.info.port</name>
<value>60010</value>
</property>

瀏覽器中:
http://h201:60010

通過配置文件載入
[hadoop@h201 ~]$ cat rs.txt
10
20
30
40
50
60
70
80
90
hbase(main):003:0> create 'log2', 'cf1', SPLITS_FILE =>'/home/hadoop/rs.txt'

2.HBASE API 預分區

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Admin;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.util.Bytes;

public class Cp {
    public static void main(String[] args) {
       HBaseConfiguration config = new HBaseConfiguration();
       config.set("hbase.zookeeper.quorum", "h201,h202,h203");
       String tablename = new String("ctest1");
   try{
      HBaseAdmin admin = new HBaseAdmin(config);
        if (admin.tableExists(tablename)) {
            admin.disableTable(tablename);
            admin.deleteTable(tablename);
        }

        HTableDescriptor tableDesc = new HTableDescriptor(tablename);
        tableDesc.addFamily(new HColumnDescriptor("cf1"));
       
        byte[][] splitKeys = {
            Bytes.toBytes("10"),
            Bytes.toBytes("20"),
            Bytes.toBytes("30")
        };

        admin.createTable(tableDesc, splitKeys);
        admin.close();
      }catch(IOException e) {
            e.printStackTrace();
        }
    }
}

驗證:
webUI查看
ctest1有4個 預分區

====================================================

二.自動拆分(Auto splitting)
1.
0.94 版本之前採用的是 ConstantSizeRegionSplitPolicy 策略。
這個策略非常簡單,從名字上就可以看出這個策 略就是按照固定大小來拆分Region。它唯一用到的參數是: hbase.hregion.max.filesize, 預設值是 10G, 也就是當 Region 的大小達到 10G 的時候, 會自動拆分成兩個 Region.

2.
0.94 版本之後,有了 IncreasingToUpperBoundRegionSplitPolicy 策略。並且預設使用的這種策略。這種策略從名字上就可以看出是限制不斷增長的文件尺寸的策略。
這種策略使用的最大store file size依據 Min(R^2 * “hbase.hregion.memstore.flush.size”, “hbase.hregion.max.filesize”),R代表同一臺Region Server節點上的region的個數。比如,在預設memstore flush size為128MB且預設的max store size為10G時。(R為region的個數)
第一次拆分大小為:min(10G,1*1*128M)=128M
第二次拆分大小為:min(10G,3*3*128M)=1152M
第三次拆分大小為:min(10G,5*5*128M)=3200M
第四次拆分大小為:min(10G,7*7*128M)=6272M
第五次拆分大小為:min(10G,9*9*128M)=10G
第五次拆分大小為:min(10G,11*11*128M)=10G

可以看到,只有在第四次之後的拆分大小才為10G

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 下載鏈接: ※ 如果沒有 直接複製url 到瀏覽器下載 1:下載完成 2:解壓 3: 複製 放到use/local目錄下 4:進入 redis 目錄 ( 確認 /url/local/redis/ 目錄下的文件是否存在, INSTALL Makefile redis.conf ) 5: 生成 6: 測 ...
  • 一、輔助排序 需求:先有一個訂單數據文件,包含了訂單id、商品id、商品價格,要求將訂單id正序,商品價格倒序,且生成結果文件個數為訂單id的數量,每個結果文件中只要一條該訂單最貴商品的數據。 思路:1.封裝訂單類OrderBean,實現WritableComparable介面; 2.自定義Mapp ...
  • 第一次在博客園寫博客,寫的不好,請大家多多評論,也希望自己以後對技術探索的更深。 今天下班之後,由於晚上要發版本,所以開發同事必須留下,突然收到一封公司監控預警郵件。 瞄了幾眼,大致的意思就是說 視圖無效。由於視圖查詢的是表,所以開始做實驗測試。 實驗一: 當基表drop列的時候,視圖是否還是有效? ...
  • 本篇博文介紹瞭如何在URL中直接發起HTTP請求, 操作Solr的文檔? 如何通過Solr的Web界面添加、修改、刪除文檔? 還涉及到常見的Solr刪除文檔的方式: URL發起HTTP請求, Solr Web中的document中提交請求. ...
  • Redis 三大特性: Redis 支持數據的持久化,可以將記憶體中的數據保存在磁碟中,重啟的時候可以再次載入進行使用 Redis 不僅支持簡單的 鍵 * 值 類型的數據, 還提供list、set、zset、hash 等數據結構存儲 Redis 支持數據的備份,即master -slave模式的數據備 ...
  • 原理:多個msyql/mariadb之間可以實時同步,任意節點的操作可以立即同步到其他節點,底層採用galera插件同步,類似rsync,上層mysql相對於galera是透明的,可以實現多節點同時讀寫(無法實現讀寫分離)。 NOTE:普通的msyql/mariadb無法集成galera,要想使用g ...
  • zookeeper簡介 1.官網:http://zookeeper.apache.org/ 介紹:Apache ZooKeeper致力於開發和維護開源伺服器,實現高度可靠的分散式協調。 ZooKeeper是一種集中式服務,用於維護配置信息,命名,提供分散式同步和提供組服務。 所有這些類型的服務都以分 ...
  • 創建鏈接伺服器註意事項 當我們要跨本地資料庫,訪問另外一個資料庫表中的數據時,本地資料庫中就必須要創建遠程資料庫的DBLINK,通過DBLINNK資料庫可以像訪問本地資料庫一樣訪問遠程資料庫表中的數據。 鏈接伺服器允許訪問針對OLE DB數據源的分散式異構查詢。創建鏈接伺服器後,可以針對此伺服器運行 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...