Hbase基本原理

来源:https://www.cnblogs.com/jalja/archive/2019/09/01/11441801.html
-Advertisement-
Play Games

Hbase表中的每個列,都歸屬與某個列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為首碼。例如courses:history,courses:math 都屬於courses 這個列族。訪問控制、磁碟和記憶體的使用統計都是在列族層面進行的。實際應用中,列族上的控制權... ...


一、hbase是什麼

 HBase 是一種類似於資料庫的存儲層,也就是說 HBase 適用於結構化的存儲。並且 HBase 是一種列式的分散式資料庫,是由當年的 Google 公佈的 BigTable 的論文而生。HBase 底層依舊依賴 HDFS 來作為其物理存儲。

 


 

二、hbase的列式存儲結構

行式存儲:傳統的資料庫是關係型的,且是按行來存儲的

 其中只有張三把一行數據填滿了,李四王五趙六的行都沒有填滿。因為這裡的行結構是固定的,每一行都一樣,即使你不用,也必須空到那裡,而不能沒有。

 列式存儲:

 HBase是一個面向列的資料庫,在表中它由行排序。表模式定義只能列族,也就是鍵值對。一個表有多個列族以及每一個列族可以有任意數量的列。後續列的值連續地存儲在磁碟上。表中的每個單元格值都具有時間戳。總之,在一個HBase:

  • 表是行的集合。
  • 行是列族的集合。
  • 列族是列的集合。
  • 列是鍵值對的集合。

 

Row key行鍵 (Row key): 可以是任意字元串(最大長度是 64KB,實際應用中長度一般為 10-100bytes),在Hbase內部,row key保存為位元組數組。存儲時,數據按照Row key的字典序(byte order)排序存儲。設計key時,要充分排序存儲這個特性,將經常一起讀取的行存儲放到一起。(位置相關性)。

列族: Hbase表中的每個列,都歸屬與某個列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為首碼。例如courses:history,courses:math 都屬於courses 這個列族。訪問控制、磁碟和記憶體的使用統計都是在列族層面進行的。實際應用中,列族上的控制許可權能幫助我們管理不同類型的應用:我們允許一些應用可以添加新的基本數據、一些應用可以讀取基本數據並創建繼承的列族、一些應用則只允許瀏覽數據(甚至可能因為隱私的原因不能瀏覽所有數據)。

時間戳: Hbase中通過row和columns確定的為一個存貯單元稱為cell。每個 cell都保存著同一份數據的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由Hbase(在數據寫入時自動 )賦值,此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程式要避免數據版本衝突,就必須自己生成具有唯一性的時間戳。每個 cell中,不同版本的數據按照時間倒序排序,即最新的數據排在最前面。 為了避免數據存在過多版本造成的的管理 (包括存貯和索引)負擔,Hbase提供了兩種數據版本回收方式。一是保存數據的最後n個版本,二是保存最近一段時間內的版本(比如最近七天)。用戶可以針對每個列族進行設置。

Cell: 由{row key, column(= + ), version} 唯一確定的單元。cell中的數據是沒有類型的,全部是位元組碼形式存貯。

 


 三、hbase架構

 


Zookeeper

 Zookeeper 是作為 HBase Master 的 HA 解決方案。也就是說,是 Zookeeper 保證了至少有一個 HBase Master 處於運行狀態。並且 Zookeeper 負責 Region 和 Region Server 的註冊。

HMaster:

HBase Master 用於協調多個 HRegion Server,偵測各個  HRegion Server 之間的狀態,並平衡 HRegion Server 之間的負載。HBase Master 還有一個職責就是負責分配 Region 給 HRegion Server。HBase 允許多個 Master 節點共存,但是這需要 Zookeeper 的幫助。不過當多個 Master 節點共存時,只有一個 Master 是提供服務的,其他的 Master 節點處於待命的狀態。當正在工作的 Master 節點宕機時,其他的 Master 則會接管 HBase 的集群。

  1. 為Region server分配region,負責region server的負載均衡
  2. 管理用戶對Table的增、刪、改、查操作
  3. 發現失效的region server並重新分配其上的region
  4. GFS上的垃圾文件回收
  5. 在HRegionServer停機後,負責失效HRegionServer 上的Regions遷移

HDFS:

HDFS是Hbase運行的底層文件系統

HRegionServer

HRegionServer是RegionServer的實現,服務和管理Regions,集群中HRegionServer運行在DataNode上。

對於一個 HRegion Server 而言,其包括了多個 HRegion。HRegion Server 的作用只是管理表格,以及實現讀寫操作。Client 直接連接 HRegion Server,並通信獲取 HBase 中的數據。對於 Region 而言,則是真實存放 HBase 數據的地方,也就說 Region 是 HBase 可用性和分散式的基本單位。如果當一個表格很大,並由多個 CF 組成時,那麼表的數據將存放在多個 Region 之間,並且在每個 Region 中會關聯多個存儲的單元(Store)。

HRegion

Region 是真實存放 HBase 數據的地方,也就說 Region 是 HBase 可用性和分散式的基本單位;每個HRegion對應了Table中的一個Region,隨著數據的不斷加入,region會不斷增大,當region增大一個閥值時,region會等分為兩個region。當region分裂越來越多時,都將在Region Server上這時將無法滿足負載均衡,所以Hmaster 將會發起協調的作用,將給table的所有region平均分配到所有的region Server上。

HRegion中由多個HStore組成。每個HStore對應了Table中的一個Column Family的存儲,可以看出每個Column Family其實就是一個集中的存儲單元,因此最好將具備共同IO特性的column放在一個Column Family中,這樣最高效。HStore包括記憶體memstore 和位於磁碟的storeFile;數據寫入時先進入memstore,當memstore中的數據到達閥值後,HRegion Server 會啟動flashcache 進程將記憶體的數據寫入磁碟storeFile。每次寫入都會形成一個單獨的storeFile文件。當storeFile文件的數量到達一個閥值時,系統會將storeFile文件合併,在合併時會進行版本的合併和刪除文件(合併時會刪除低版本的數據),形成一個更大的storeFile。在合併期間無法訪問數據。

客服端查找數據時,先在memstroe查找,然後storeFile。

HLOG

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 卸載Hyper-V,然後重裝,再重啟已有的Hyper-V伺服器,報錯如下: 嘗試啟動選定的虛擬機時出錯。“SP2019SER”無法更改狀態。 原因:卸載後導致虛擬網卡出現問題導致的。 解決辦法: 右擊目標虛擬機 設置 網路適配器,提示有配置錯誤,將其修正即可。 ...
  • 這兩天遇到一個頭疼的問題,我們系統需要請求第三方數據,第三方收到請求後會生成相應的數據併入庫,我們通過定時任務將第三方數據同步到我們資料庫。當我們發送請求後第三方會立即返回一個值,我們會根據返回值去資料庫更新同步過來的表欄位,sql語句執行完了,沒有任何錯誤,在同步表中查看同步的數據都有且where ...
  • 引言 MySQL中定義數據欄位的類型對你資料庫的優化是非常重要的。 MySQL支持多種類型,大致可以分為三類:數值、日期/時間和字元串(字元)類型,如下腦圖所示: 數值類型 其中: 這些類型,是定長的,其容量是不會隨著後面的數字而變化的,比如int(11)和int(8),都是一樣的占4位元組。tiny ...
  • 某大師曾說過,像瞭解自己的老婆 一樣瞭解自己管理的資料庫,個人認為包含了兩個方面的瞭解: 1,在穩定性層面來說,更多的是關註高可用、讀寫分離、負載均衡,災備管理等等high level層面的措施(就好比要保證生活的穩定性) 2,在實例級別的來說,需要關註記憶體、IO、網路,熱點表,熱點索引,top s ...
  • [學習筆記] 結果分析:shuffle的英文是洗牌,混洗的意思,洗牌就是越亂越好的意思。當在集群的情況下是這樣的,假如有三個map節點和三個reduce節點,一號reduce節點的數據會來自於三個map節點,而不是就來自於一號map節點。所以說它們的數據會混合,路線會交叉, 3叉3。想象一下,像不像 ...
  • hadoop 開源軟體,可靠的、分散式、可伸縮的框架。 分佈在不同主機上的進程協同在一起構成的應用。 大數據解決了兩個問題 1T = 1024G1P = 1024T1E = 1024P1Z = 1024E1Y = 1024Z1N = 1024Y 1.存儲 分散式存儲 2.計算 分散式計算分散式 由分 ...
  • 1、創建資料庫 登錄MySQL服務後,使用create命令創建資料庫 也可以使用mysqladmin一步創建資料庫 2、連接資料庫 登錄MySQL服務後,使用use命令連接資料庫 3、刪除資料庫 登錄MySQL服務後,使用drop命令創建資料庫 也可以使用mysqladmin一步創建資料庫 ...
  • https://wangde.xin/images/article/mysql/Mysql-dolphin.png ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...