Hbase入門(四)——表結構設計-RowKey

来源:https://www.cnblogs.com/tree1123/archive/2019/10/08/11633999.html
-Advertisement-
Play Games

Hbase的表結構設計與關係型資料庫有很多不同,主要是Hbase有Rowkey和列族、timestamp這幾個全新的概念,如何設計表結構就非常的重要。 創建 Hbase就是通過 表 Rowkey 列族 timestamp確定一行數據。 這與關係型資料庫完全不同: | 屬性 | HBase | RDB ...


file

Hbase的表結構設計與關係型資料庫有很多不同,主要是Hbase有Rowkey和列族、timestamp這幾個全新的概念,如何設計表結構就非常的重要。

file

創建

Hbase就是通過 表 Rowkey 列族 timestamp確定一行數據。

這與關係型資料庫完全不同:

屬性 HBase RDBMS
數據類型 只有字元串 豐富的數據類型
數據操作 簡單的增刪改查 不支持join 各種函數和表連接
存儲模式 基於列式存儲 基於表格結構和行式存儲
數據保護 更新後仍然保留舊版本 替換
可伸縮性 輕易的增加節點,相容性高 需要中間層,犧牲功能

所以Hbase需要考慮的因素有:

1、這個表應該有多少列族

2、列族使用什麼數據

3、每個列族有多少列

4、列名是什麼

5、單元應該存放什麼數據

6、每個單元存儲多少時間版本

7、Rowkey結構是什麼,應該包含什麼信息

需要註意的點:

1、Join

Hbase中沒有join 所以需要大表結構 行記錄加關鍵字 解決這個問題

2、Rowkey

Rowkey設計非常重要 由於Hbase是有序的 需要考慮首碼尾碼問題

可以通過Hbase Shell和 Java Api創建:

Configuration config = HBaseConfiguration.create();
Admin admin = new Admin(conf);
TableName table = TableName.valueOf("myTable");

admin.disableTable(table);

HColumnDescriptor cf1 = ...;
admin.addColumn(table, cf1);      // adding new ColumnFamily
HColumnDescriptor cf2 = ...;
admin.modifyColumn(table, cf2);    // modifying existing ColumnFamily

admin.enableTable(table);

Rowkey設計

Rowkey是不可分割的位元組數組,按字典序存儲在表中。

由於:Region基於Rowkey為一個區間的行提供服務 HFile在硬碟上存儲有序的行 所以Rowkey就極大的影響了Hbase的性能。

Rowkey就是索引,如果不清楚Rowkey就只能掃描全表,那麼性能將會大幅度下降。

這裡用影片熱度排行榜舉例:

1、Rowkey是以字典序從大到小

原生Hbase只支持從小到大排序,要想實現從大到小,可以採用 Rowkey=Integer.MAX_VALUE-Rowkey的方式,在應用層再轉回來完成需求。

2、Rowkey儘量散列

Rowkey要儘量散列,這樣可以保證數據不在一個Region上,從而避免了讀寫的集中。

比如我們可以設計 userid_videoid 拼接字元串 這樣的話user就會不均勻。

有三種辦法解決: 反轉userid 散列userid 將userid取模後進行MD5加密 取前6位加入userid中

3、Rowkey長度要儘量短

Rowkey過長,存儲開銷會大。

Rowkey過長,會導致記憶體的利用率降低,進而降低索引命中率。

列族

列族是一些列的集合,一個列族所有成員都有同樣的首碼,比如courses:history 和 courses:math都是courses列族的成員。冒號是分隔符。列族首碼必須是可輸出字元,列可由任意位元組數組組成。

列族必須在表建立的時候聲明,列則不需要特別聲明,用戶隨時可以創建新列。

經驗法則:

  • 目標是把 region 的大小限制在 10 到 50 GB 之間。
  • 目標是限制 cell 的大小在 10 MB 之內,如果使用的是 mob類型,限制在 50 MB 之內。否則,考慮把 cell 的數據存儲在 HDFS 中,併在 HBase 中存儲指向該數據的指針。
  • 典型的 scheme 每張表包含 1 到 3 個列族。HBase 表設計不應當和 RDBMS 表設計類似。
  • 對於擁有 1 或 2 個列族的表來說,50-100 個 region 是比較合適的。請記住, region 是列族的連續段。
  • 保持列族名稱儘可能短。每個值都會存儲列族的名稱(忽略首碼編碼)。它們不應該像典型 RDBMS 那樣,是自文檔化,描述性的名稱。
  • 如果你正在存儲基於時間的機器數據或者日誌信息,並且 row key 是基於設備 ID 或者服務 ID + 時間,最終會出現這樣一種情況,即更舊的數據 region 永遠不會有額外寫入。在這種情況下,最終會存在少量的活動 region 和大量不會再有新寫入的 region。對於這種情況,可以接受更多的 region 數量,因為資源的消耗只取決於活動 region。
  • 如果只有一個列族會頻繁寫,那麼只讓這個列族占用記憶體。當分配資源的時候註意寫入模式。

實例

店鋪與商品

店鋪shop 商品 item 是多對多的關係

RDBMS表結構設計:

商鋪表:

列名 列含義
id 主鍵
name 店鋪名稱
address 所在地
regdate 註冊日期

商品表:

列名 列含義
id 主鍵
name 商品名稱
price 價格
details 商品詳情
title 展示名稱

關係表:

列名 列含義
shop_id 店鋪主鍵
item_id 商品主鍵
type 關聯類型
Hbase表結構設計:

店鋪表:

file

商品表:
file

微博用戶與粉絲

用戶與粉絲是一對多

RDBMS表結構設計:

用戶表:

列名 列含義
id 主鍵
nickname 用戶名

粉絲對應表:

列名 列含義
user_id 用戶id
fans_id 粉絲id
Hbase表結構設計:

file

更多實時計算,Hbase,Flink,Kafka等相關技術博文,歡迎關註實時流式計算

file


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本篇主要寫一些 腳本的基礎知識,編程規範。 第一個shell腳本 執行腳本 source . sh ./ 符號使用 管道符 和 awk 重定向輸出 重定向輸入 [root@localhost ~] rm test.txt error.log [root@localhost ~] cat error. ...
  • 1.什麼是資料庫管理系統? 資料庫管理系統是由相互關聯的數據和管理這些數據的程式組成。 2.應用 資料庫在生產生活各行各業有著廣泛的應用: (1)銀行金融(2)互聯網應用數據存儲等等等等。資料庫無所不在,無處不在 3.資料庫管理系統DBMS出現前,怎樣用來管理數據? 使用文件處理系統。主要的弊端:( ...
  • MapReduce詳細工作流程之Map階段 如上圖所示 1. 首先有一個200M的待處理文件 2. 切片:在客戶端提交之前,根據參數配置,進行任務規劃,將文件按128M每塊進行切片 3. 提交:提交可以提交到本地工作環境或者Yarn工作環境,本地只需要提交切片信息和xml配置文件,Yarn環境還需要 ...
  • 1.創建資料庫 CREATE DATABASE 資料庫名 2.刪除資料庫 DROP DATABASE 資料庫名 3.選擇資料庫 USE 資料庫名 4.數據類型 (1)數值類型 (2)日期和時間類型 (3)字元串類型 5.創建數據表 CREATE TABLE table_name (column_na ...
  • 轉自: http://www.maomao365.com/?p=9775 摘要: 下文簡述sqlserver資料庫中 text image類型無法使用distinct的處理方法分享 實驗環境:sql server 2017 sqlserver我們常常需要對一系列值進行取distinct操作,但是當直 ...
  • 分組查詢, select 欄位名 from 表名 GROUP BY ....;(欄位部分可以指定的列有限制,1 被分組的列,2 每個分組返回一個值的表達式) 依某個欄位進行分組,可以更加容易對其進行查詢如:最大值,最小值。。。 select 欄位名 from 表名 having by ....; w ...
  • MySQL學習——操作自定義函數 摘要:本文主要學習了使用DDL語句操作自定義函數的方法。 瞭解自定義函數 是什麼 自定義函數是一種與存儲過程十分相似的過程式資料庫對象。它與存儲過程一樣,都是由SQL語句和過程式語句組成的代碼片段,並且可以被應用程式和其他SQL語句調用。 自定義函數與存儲過程的區別 ...
  • (馬蜂窩技術原創內容,公眾號ID:mfwtech) 一、馬蜂窩數據倉庫與數據中台 最近幾年,數據中台概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數據中台探索之路。 數據中台到底是什麼?要不要建?和數據倉庫有什麼本質的區別?相信很多企業都在關註這些問題。 我認為數據中台的概念非常接近傳統數 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:本文代碼示例演示瞭如何在WPF中使用LiveCharts庫創建動態條形圖。通過創建數據模型、ViewModel和在XAML中使用`CartesianChart`控制項,你可以輕鬆實現圖表的數據綁定和動態更新。我將通過清晰的步驟指南包括詳細的中文註釋,幫助你快速理解並應用這一功能。 先上效果: 在 ...
  • openGauss(GaussDB ) openGauss是一款全面友好開放,攜手伙伴共同打造的企業級開源關係型資料庫。openGauss採用木蘭寬鬆許可證v2發行,提供面向多核架構的極致性能、全鏈路的業務、數據安全、基於AI的調優和高效運維的能力。openGauss深度融合華為在資料庫領域多年的研 ...
  • openGauss(GaussDB ) openGauss是一款全面友好開放,攜手伙伴共同打造的企業級開源關係型資料庫。openGauss採用木蘭寬鬆許可證v2發行,提供面向多核架構的極致性能、全鏈路的業務、數據安全、基於AI的調優和高效運維的能力。openGauss深度融合華為在資料庫領域多年的研 ...
  • 概述:本示例演示了在WPF應用程式中實現多語言支持的詳細步驟。通過資源字典和數據綁定,以及使用語言管理器類,應用程式能夠在運行時動態切換語言。這種方法使得多語言支持更加靈活,便於維護,同時提供清晰的代碼結構。 在WPF中實現多語言的一種常見方法是使用資源字典和數據綁定。以下是一個詳細的步驟和示例源代 ...
  • 描述(做一個簡單的記錄): 事件(event)的本質是一個委托;(聲明一個事件: public event TestDelegate eventTest;) 委托(delegate)可以理解為一個符合某種簽名的方法類型;比如:TestDelegate委托的返回數據類型為string,參數為 int和 ...
  • 1、AOT適合場景 Aot適合工具類型的項目使用,優點禁止反編 ,第一次啟動快,業務型項目或者反射多的項目不適合用AOT AOT更新記錄: 實實在在經過實踐的AOT ORM 5.1.4.117 +支持AOT 5.1.4.123 +支持CodeFirst和非同步方法 5.1.4.129-preview1 ...
  • 總說周知,UWP 是運行在沙盒裡面的,所有許可權都有嚴格限制,和沙盒外交互也需要特殊的通道,所以從根本杜絕了 UWP 毒瘤的存在。但是實際上 UWP 只是一個應用模型,本身是沒有什麼許可權管理的,許可權管理全靠 App Container 沙盒控制,如果我們脫離了這個沙盒,UWP 就會放飛自我了。那麼有沒... ...
  • 目錄條款17:讓介面容易被正確使用,不易被誤用(Make interfaces easy to use correctly and hard to use incorrectly)限制類型和值規定能做和不能做的事提供行為一致的介面條款19:設計class猶如設計type(Treat class de ...
  • title: 從零開始:Django項目的創建與配置指南 date: 2024/5/2 18:29:33 updated: 2024/5/2 18:29:33 categories: 後端開發 tags: Django WebDev Python ORM Security Deployment Op ...
  • 1、BOM對象 BOM:Broswer object model,即瀏覽器提供我們開發者在javascript用於操作瀏覽器的對象。 1.1、window對象 視窗方法 // BOM Browser object model 瀏覽器對象模型 // js中最大的一個對象.整個瀏覽器視窗出現的所有東西都 ...