Hbase學習之概念與原理

来源:https://www.cnblogs.com/jacksontao/archive/2019/04/07/10662263.html
-Advertisement-
Play Games

一、hbase與列式存儲 hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql資料庫,同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢?簡單來講就是:傳統的關係資料庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進 ...


一、hbase與列式存儲

  hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql資料庫,同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢?簡單來講就是:傳統的關係資料庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進行存儲;而列式存儲是將每一列的數據連起來進行存儲的。

  列式存儲相對於行式存儲有哪些優點呢?

  1.壓縮空間:一張表裡面,我存儲的數據可以是非常鬆散的,就是說這一列可以有值也可以沒有值,沒有值就不會占用空間,而行式存儲不行,它的結構非常規範,就算是某一列不賦值,那麼這一行的這一列空間也是占用的,而且後期如果我想對某張表擴張欄位的話,前面的的數據都必須強制開闢這個欄位的存儲空間。

  2.查詢性能:行式存儲在查詢的時候若我們制定某一個欄位進行查詢,他會遍歷這一行的所有欄位,然後找到匹配的欄位進行返回,這樣是很耗費IO的,而列式存儲由於它本來就是按列來進行數據存儲的,就是說不同的列的數據是存儲在不同地方的,所以檢索指定列的時候只需要找到對應的列存儲的位置,然後針對性檢索就行了。

 

二、hbase的表結構

  既然hbase是一個資料庫,那麼必然會有表的概念,它也有行鍵和列名的概念,不過與傳統關係資料庫不同的是它引入了列族的概念。

  hbase的表分為兩類,一類的系統表(又稱meta表),另一類是用戶表。meta表由系統創建與維護,主要存儲表和分區的元數據信息,用戶許可權等。而用戶表是我們自己創建的表,我們用戶用來存儲業務數據的表。

  hbase的表裡面有很多概念:行、列、行鍵、單元格、值、時間戳等。

  如下圖所示是一張hbase表,RowKey就是行鍵的概念,一行只有一個用來作為唯一標示。同時下圖有兩個列族,CF1和CF2,在它們下麵又各有兩個列,分別是name/age和sex/class,每一個行可以有多個時間戳標示不同的版本,例如下麵的00001就有3個不同的時間戳版本,而hbase在查詢的時候預設是獲取最新的時間戳版本的數據。由rowkey、列(clomun)、timestamp可以確定一個唯一的單元格,如00001的t1時間的name是zhangsan。

同時我們可以看到有些列裡面是沒有值的,而hbase只對於有值的列存儲進文件系統。

  這裡有一個rowkey排序的問題,hbase是根據rowkey的位元組值進行數據排序的,且rowkey一般都是字元串形式存儲的,存儲的時候會將字元串轉換為二進位流。也就是說,對於這裡的rowkey00001和00002來說,00001是排在00002前面的。同時由於這麼一個排序的問題,如果rowkey的設計不合理的話,很有可能會導致hbase的熱點問題。

 

三、hbase的表存儲

  下圖是hbase的一個table的存儲結構,一個table有一個或者多個region組成,這也是hbase能夠支持分散式存儲的重要原因。同時一個region里由一個或者多個列族組成,一個列族有一個store實體組成,store實體裡面有MEMStore、HFil,MEMStore是記憶體實體,HFile是實際的存儲物理文件,HFile裡面又由多個block組成,block裡面存儲的就是單元格數據cell。

  Region

  如果是單機的話,所有行和列組成的單元格數據全部存儲在一張表中就可以了,但是hbase為了支持集群分散式,就必須把一張很大的表拆分成多個region。每個region都有一個起始的rowkey和一個結束的rowkey來定義它的邊界。同時每個region裡面存儲的那些rowkey都會保存在hbase的meta表中,查詢的時候可以通過meta數據快速定位到需要查詢的rowkey數據在哪個region裡面。hbase裡面有一個regionserver的角色,每個region會被分配到各自的regionserver中,這個是有hbase的負載均衡器自動完成的。同時當某個region很大的時候,它是可以分裂的,當然如果有需要,多個小的region也是可以合併的。

  列族

  列族是hbase獨有的概念,在同一個region裡面,不同的列族的數據會存儲在不同的文件中。而列族如何分配,可以根據存儲的數據的類型來決定,不同類型的數據可以存儲在不同的列族中,如文本數據和圖片數據就可以分開存儲。

  但是列族數量不宜過多,因為有一個列族就會有一個store,而region達到一定的大小之後就會進行分裂,這個時候列族過多就會出現問題。

  例如:一個region裡面有列族A和列族B,A有1000萬數據,而B有10萬數據,當region到達設定的閾值之後開始執行分裂,假設分裂為10份。那麼對於列族A來說每一份就是有100萬數據,但是對於B來說每一份就只有1萬數據,那麼當去檢索B的數據的時候就需要遍歷很多region從而導致性能降低。

  Store

  一個store對應一個列族。store對象由memstore和hfile組成,memstore是數據寫入的緩存區,而hflie是物理文件。數據寫進來的時候首先進入到memstore裡面,當memstore達到一定的閾值的時候Hfile就會被創建。

  Block

  Hflie是由block組成的,這裡的block與hdfs的block不同,一個hdfs的block可能會包含多個hfile的block。

 

四、Hbase的角色

  hbase在集群的情況下主要有兩個角色:HMaster和RegionServer。

  HMaster

  職責:1.Region分配 2.負載均衡 3.RegionServer恢復 4.監控Region分裂 5.追蹤活躍或者宕機的伺服器

  RegionServer

  RegionServer是托管並且服務Region以及Hbase數據的應用程式。

   如下圖所示是一個9台的hbase集群,其中3台主機,6台從機。主機上面運行Hmaster,hdfs的NN服務,以及zk服務,而從機上面運行RegionServer服務以及hdfs的DN服務。我們連接hbase進行讀寫的時候都是先連接主機的zk,然後zk找到對應的master伺服器,然後master伺服器通過meta數據找到數據在哪個region上面,然後找到這個region在具體哪個regionserver上面並且建立連接,由regionserver再執行數據操作。

 

五、總結

  關於hbase的概念呢以及存儲結構就寫這些好了,其實上面還有很多東西沒寫到,比如分裂合併的流程,讀寫流程什麼的,同時我們在實際應用hbase的時候也有很多技巧,比如rowkey設計,二級索引等,如果不懂hbase的原理的話,在使用的時候經常會踩很多坑,如果有寫的不對的地方也請大家多多指正,謝謝。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 有些工具,值得學習學習: 網路 iftop IO iotop 系統 top htop iftop iotop top htop 保持更新,轉載請註明出處。 https://www.cnblogs.com/xuyaowen/p/linux-performance-tools.html ...
  • 一、Mapjoin案例 1.需求:有兩個文件,分別是訂單表、商品表, 訂單表有三個屬性分別為訂單時間、商品id、訂單id(表示內容量大的表), 商品表有兩個屬性分別為商品id、商品名稱(表示內容量小的表,用於載入到記憶體), 要求結果文件為在訂單表中的每一行最後添加商品id對應的商品名稱。 2.解決思 ...
  • 前言 歡迎關註公眾號: Coder編程 獲取最新原創技術文章和相關免費學習資料,隨時隨地學習技術知識! 本章主要介紹資料庫中Join的的用法,也是我們在使用資料庫時非常基礎的一個知識點。本次會介紹資料庫中的 、`left join right join` 的用法以及它們之間的區別。 文章如有錯誤還請 ...
  • nosql資料庫出現到現在很多年了。筆者一直從事C/S模式的上開發。所以相對而言筆者只是聽過卻從來不知道他是什麼東西。時代在變化,當年所有業務都放在一個War包的時代已經不在了。微服務已經成為了世界主流了。相應的很多技術都出現了。現在互聯網沒有以3高3V來做目標都不好意思拿出手了。 3高:高性能,高 ...
  • 我也忘記是從哪裡download的了,為了加深記憶,也為了完成我的博客,我決定寫進博客里,如果有錯誤,歡迎大家指正,謝謝。 問題一、 解釋一下sum的作用? 答:求符合條件的記錄某數值欄位的和。 問題二、 table有兩個欄位,field1 varchar(10)和field2 int,請寫出向這兩 ...
  • 1. 官網下載mysql,此處下載的是.zip文件 2. 解壓下載的文件夾,並且配置環境變數:Path:E:\mysql-8.0.15-winx64\bin 3. 配置my.ini文件 4. 管理員身份運行cmd,進入到E:\mysql-8.0.15-winx64\bin,執行mysqld --in ...
  • 常見問題 Access denied for user ''@'localhost' to database 'web02' //web02是我自己創建的資料庫 原因分析:mysql資料庫的user表裡,存在用戶名為空的賬戶即匿名賬戶,導致登錄的時候是雖然用的是root,但實際是匿名登錄的 下麵對比 ...
  • 常見問題 Access denied for user 'root'@'localhost' (using password: YES) 因密碼不對而拒絕訪問,再jdbc配置中 常常忽略user和密碼配置是否和本地密碼相匹配 而一般的電腦 可能MySQL並沒有配置密碼 即空密碼 直接鍵入就可以進入數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...