Hbase入門(三)——數據模型

来源:https://www.cnblogs.com/tree1123/archive/2019/09/30/11611062.html
-Advertisement-
Play Games

Hbase最核心但也是最難理解的就是數據模型,由於與傳統的關係型資料庫不同,雖然Hbase也有表(Table),也有行(Row)和列(Column),但是與關係型資料庫不同的是Hbase有一個列族(Column Family)的概念,它將一列或者多列組織在一起,HBase必須屬於某一個列族。 行和列 ...


file

Hbase最核心但也是最難理解的就是數據模型,由於與傳統的關係型資料庫不同,雖然Hbase也有表(Table),也有行(Row)和列(Column),但是與關係型資料庫不同的是Hbase有一個列族(Column Family)的概念,它將一列或者多列組織在一起,HBase必須屬於某一個列族。

行和列交叉點稱為單元格(Cell),單元格時版本化的。單元格的內容,也就是列的值是不可分割的位元組數組。

HBase沒有數據類型,任何列值都被轉換成位元組數組進行存儲。

HBase表中的行是通過行鍵(Rowkey)進行區分的。行鍵也是用來唯一確定一行的標識。

HBase中的行按Rowkey排序,排序方式採用字典順序。

這些都是HBase的邏輯結果,他的物理結構也和傳統關係型資料庫有很大不同。

file

邏輯模型

HBase的邏輯模型源自Google的BigTable模型。可以理解為一個稀疏的,長期存儲的,多維度的和排序的映射表。

以下示例是 BigTable 論文第 2 頁上的一個略微修改的形式。有一個名為webtable的表包含兩行(com.cnn.wwwcom.example.www)和三個列族,名為contentsanchorpeople

file

在此示例中,對於第一行(com.cnn.www),anchor包含兩列(anchor:cssnsi.comanchor:my.look.ca),contents包含一列(contents:html)。此示例包含具有行鍵com.cnn.www的行的 5 個版本,以及具有行鍵com.example.www的行的一個版本。 contents:html列限定符包含給定網站的整個HTML。 anchor列族的限定符每個都包含指向該行所代表的站點的外部站點的鏈接,以及它在其鏈接的anchor中使用的文本。 people列系列表示與該站點關聯的人員。

此表中看起來為空的單元格在 HBase 中不占用空間,或實際上不存在。這就是HBase“稀疏”的原因。表格視圖不是查看 HBase 中數據的唯一方法,甚至也不是最準確的方法。以下表示與多維映射相同的信息。這隻是一個出於演示目的的模型,可能並不完全準確。

{
  "com.cnn.www": {
    contents: {
      t6: contents:html: "<html>..."
      t5: contents:html: "<html>..."
      t3: contents:html: "<html>..."
    }
    anchor: {
      t9: anchor:cnnsi.com = "CNN"
      t8: anchor:my.look.ca = "CNN.com"
    }
    people: {}
  }
  "com.example.www": {
    contents: {
      t5: contents:html: "<html>..."
    }
    anchor: {}
    people: {
      t5: people:author: "John Doe"
    }
  }
} 

物理模型

雖然Hbase表可以看作一組稀疏的行,但在物理意義上它們是按照列族存儲的。所以列是可以隨時添加的。

file

Hbase是面向列的,存放行的不同列的物理文件,一個列族存放在多個HFile中,最重要的是一個列族的數據會被同一個Region管理。

file

空單元格不占據物理存儲空間。因此,在時間戳t8處對contents:html列的值的請求將不返回任何值。類似地,在時間戳t9處對anchor:my.look.ca值的請求將不返回任何值。但是,如果未提供時間戳,則將返回特定列的最新值。給定多個版本,最新版本也是第一個版本,因為時間戳按降序存儲。因此,如果沒有指定時間戳,則對行com.cnn.www中所有列的值的請求將是:來自時間戳t6contents:html的值,來自時間戳t9anchor:cnnsi.com的值,來自時間戳t8anchor:my.look.ca

數據模型操作

四個主要的數據模型操作是 Get,Put,Scan 和 Delete。通過實例化Table進行操作。

版本問題: Rowkey、Column(列族和列)、Version組合在一起稱為Hbase中的一個單元格。

Rowkey和Column的值是用位元組數組表示的,Version則是用一個長整型表示的。

Get

操作返回指定行的屬性,Get是在Scan基礎上實現的。在預設情況下,如果沒有指定版本,一旦使用Get操作,會返回最近版本的Cell。

要返回多個版本,需要設置Get.setMaxVersions()

要返回最新版本以外的其他版本,請參見 Get.setTimeRange()

預設版本Get示例

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Get get = new Get(Bytes.toBytes("row1"));
Result r = table.get(get);
byte[] b = r.getValue(CF, ATTR);  // returns current version of value 

給定版本的Get示例

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Get get = new Get(Bytes.toBytes("row1"));
get.setMaxVersions(3);  // will return last 3 versions of row
Result r = table.get(get);
byte[] b = r.getValue(CF, ATTR);  // returns current version of value
List<KeyValue> kv = r.getColumn(CF, ATTR);  // returns all versions of this column 

PUT

執行 put 總是在某個時間戳創建cell的新版本。預設情況下,系統使用伺服器的currentTimeMillis,但您可以在針對每一列指定版本(=長整數)。這意味著您可以在過去或將來指定時間,或者將long值用於非時間目的。

隱式版本示例

HBase 將使用當前時間隱式地對以下 Put 進行版本控制。

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Put put = new Put(Bytes.toBytes(row));
put.add(CF, ATTR, Bytes.toBytes( data));
table.put(put); 

顯式版本示例

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Put put = new Put( Bytes.toBytes(row));
long explicitTimeInMs = 555;  // just an example
put.add(CF, ATTR, explicitTimeInMs, Bytes.toBytes(data));
table.put(put); 

DELETE

刪除通過 Table.delete]執行。

有三種不同類型的內部刪除標記。

  • 刪除:對於特定版本的列。
  • 刪除列:適用於列的所有版本。
  • 刪除系列:適用於特定 ColumnFamily 的所有列

SCAN

掃描表

下麵是對錶進行掃描的示例。假設一個表填充了具有鍵“row1”,“row2”,“row3”的行,然後另一組是具有鍵“abc1”,“abc2”和“abc3”的行。以下示例將展示如何設置 Scan 實例以返回以“row”開頭的行。

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...

Table table = ...      // instantiate a Table instance

Scan scan = new Scan();
scan.addColumn(CF, ATTR);
scan.setRowPrefixFilter(Bytes.toBytes("row"));
ResultScanner rs = table.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
    // process result...
  }
} finally {
  rs.close();  // always close the ResultScanner!
} 

更多實時計算,Hbase,Flink,Kafka等相關技術博文,歡迎關註實時流式計算

file


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • -- mysql安裝 -- https://www.mysql.com/downloads/ 終端執行命令 (可參考本筆記MySQL環境搭建-mysql 8.0.13 解壓版安裝配置方法圖文教程) mysql 教學demo --命令行輸指令創建表 http://www.forta.com/books ...
  • Aborted_clients和 Aborted_connects狀態變數詳解 By:授客 QQ:1033553122 狀態變數定義 Aborted_clients 因客戶端消亡時未恰當的關閉連接而引起的被中斷連接數 The number of connections that were abort ...
  • 今天我們來看一下淘寶、美團和滴滴的大數據平臺,一方面進一步學習大廠大數據平臺的架構,另一方面也學習大廠的工程師如何畫架構圖。通過大廠的這些架構圖,你就會發現,不但這些知名大廠的大數據平臺設計方案大同小異,架構圖的畫法也有套路可以尋覓。 淘寶大數據平臺 淘寶可能是中國互聯網業界較早搭建了自己大數據平臺 ...
  • /* 授權命令 grant 許可權 to 用戶 授權可以授予多個許可權 grant connect,resource to baidu 收回許可權 revoke 許可權 from 用戶 revoke dba from baidu 創建用戶 分配表空間--指定用戶的預設表空間... ...
  • 學好SQL查詢:無他,概手熟耳。 1. 基礎表: 學生表: 老師表: 課程表: 成績表: 2. 題目: 1、查詢名字中含有"華"字的學生信息 select from 學生 where sname like '%華%' 2、查詢並統計同齡學生人數 select sage,count(sid) from ...
  • 存儲過程是一組為了完成某項特定功能的SQL語句集, 其實質就是一段存儲在資料庫中的代碼。 它可以由聲明式的sql語句和過程式sql語句組成。 ...
  • centos7靜默安裝oracle11gR2 文章目錄 [TOC] 一、檢查硬體要求 1、記憶體要求: 要求:記憶體最小1G,推薦2G或者更高。 PS:還有其他硬體要求可以直接去官網( "傳送門" )查看,這裡不再敘述。 2、安裝包: linux.x64_11gR2_database_1of2.zip ...
  • 一、zookeeper概要、背景及作用 zookeeper產生背景: 項目從單體到分散式轉變之後,將會產生多個節點之間協同的問題。如: 1. 每天的定時任務由誰哪個節點來執行? 2. RPC調用時的服務發現? 3. 如何保證併發請求的冪等 4. .... 這些問題可以統一歸納為多節點協調問題,如果靠 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...