Hbase學習之概念與原理

来源:https://www.cnblogs.com/jacksontao/archive/2019/04/07/10662263.html
-Advertisement-
Play Games

一、hbase與列式存儲 hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql資料庫,同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢?簡單來講就是:傳統的關係資料庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進 ...


一、hbase與列式存儲

  hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql資料庫,同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢?簡單來講就是:傳統的關係資料庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進行存儲;而列式存儲是將每一列的數據連起來進行存儲的。

  列式存儲相對於行式存儲有哪些優點呢?

  1.壓縮空間:一張表裡面,我存儲的數據可以是非常鬆散的,就是說這一列可以有值也可以沒有值,沒有值就不會占用空間,而行式存儲不行,它的結構非常規範,就算是某一列不賦值,那麼這一行的這一列空間也是占用的,而且後期如果我想對某張表擴張欄位的話,前面的的數據都必須強制開闢這個欄位的存儲空間。

  2.查詢性能:行式存儲在查詢的時候若我們制定某一個欄位進行查詢,他會遍歷這一行的所有欄位,然後找到匹配的欄位進行返回,這樣是很耗費IO的,而列式存儲由於它本來就是按列來進行數據存儲的,就是說不同的列的數據是存儲在不同地方的,所以檢索指定列的時候只需要找到對應的列存儲的位置,然後針對性檢索就行了。

 

二、hbase的表結構

  既然hbase是一個資料庫,那麼必然會有表的概念,它也有行鍵和列名的概念,不過與傳統關係資料庫不同的是它引入了列族的概念。

  hbase的表分為兩類,一類的系統表(又稱meta表),另一類是用戶表。meta表由系統創建與維護,主要存儲表和分區的元數據信息,用戶許可權等。而用戶表是我們自己創建的表,我們用戶用來存儲業務數據的表。

  hbase的表裡面有很多概念:行、列、行鍵、單元格、值、時間戳等。

  如下圖所示是一張hbase表,RowKey就是行鍵的概念,一行只有一個用來作為唯一標示。同時下圖有兩個列族,CF1和CF2,在它們下麵又各有兩個列,分別是name/age和sex/class,每一個行可以有多個時間戳標示不同的版本,例如下麵的00001就有3個不同的時間戳版本,而hbase在查詢的時候預設是獲取最新的時間戳版本的數據。由rowkey、列(clomun)、timestamp可以確定一個唯一的單元格,如00001的t1時間的name是zhangsan。

同時我們可以看到有些列裡面是沒有值的,而hbase只對於有值的列存儲進文件系統。

  這裡有一個rowkey排序的問題,hbase是根據rowkey的位元組值進行數據排序的,且rowkey一般都是字元串形式存儲的,存儲的時候會將字元串轉換為二進位流。也就是說,對於這裡的rowkey00001和00002來說,00001是排在00002前面的。同時由於這麼一個排序的問題,如果rowkey的設計不合理的話,很有可能會導致hbase的熱點問題。

 

三、hbase的表存儲

  下圖是hbase的一個table的存儲結構,一個table有一個或者多個region組成,這也是hbase能夠支持分散式存儲的重要原因。同時一個region里由一個或者多個列族組成,一個列族有一個store實體組成,store實體裡面有MEMStore、HFil,MEMStore是記憶體實體,HFile是實際的存儲物理文件,HFile裡面又由多個block組成,block裡面存儲的就是單元格數據cell。

  Region

  如果是單機的話,所有行和列組成的單元格數據全部存儲在一張表中就可以了,但是hbase為了支持集群分散式,就必須把一張很大的表拆分成多個region。每個region都有一個起始的rowkey和一個結束的rowkey來定義它的邊界。同時每個region裡面存儲的那些rowkey都會保存在hbase的meta表中,查詢的時候可以通過meta數據快速定位到需要查詢的rowkey數據在哪個region裡面。hbase裡面有一個regionserver的角色,每個region會被分配到各自的regionserver中,這個是有hbase的負載均衡器自動完成的。同時當某個region很大的時候,它是可以分裂的,當然如果有需要,多個小的region也是可以合併的。

  列族

  列族是hbase獨有的概念,在同一個region裡面,不同的列族的數據會存儲在不同的文件中。而列族如何分配,可以根據存儲的數據的類型來決定,不同類型的數據可以存儲在不同的列族中,如文本數據和圖片數據就可以分開存儲。

  但是列族數量不宜過多,因為有一個列族就會有一個store,而region達到一定的大小之後就會進行分裂,這個時候列族過多就會出現問題。

  例如:一個region裡面有列族A和列族B,A有1000萬數據,而B有10萬數據,當region到達設定的閾值之後開始執行分裂,假設分裂為10份。那麼對於列族A來說每一份就是有100萬數據,但是對於B來說每一份就只有1萬數據,那麼當去檢索B的數據的時候就需要遍歷很多region從而導致性能降低。

  Store

  一個store對應一個列族。store對象由memstore和hfile組成,memstore是數據寫入的緩存區,而hflie是物理文件。數據寫進來的時候首先進入到memstore裡面,當memstore達到一定的閾值的時候Hfile就會被創建。

  Block

  Hflie是由block組成的,這裡的block與hdfs的block不同,一個hdfs的block可能會包含多個hfile的block。

 

四、Hbase的角色

  hbase在集群的情況下主要有兩個角色:HMaster和RegionServer。

  HMaster

  職責:1.Region分配 2.負載均衡 3.RegionServer恢復 4.監控Region分裂 5.追蹤活躍或者宕機的伺服器

  RegionServer

  RegionServer是托管並且服務Region以及Hbase數據的應用程式。

   如下圖所示是一個9台的hbase集群,其中3台主機,6台從機。主機上面運行Hmaster,hdfs的NN服務,以及zk服務,而從機上面運行RegionServer服務以及hdfs的DN服務。我們連接hbase進行讀寫的時候都是先連接主機的zk,然後zk找到對應的master伺服器,然後master伺服器通過meta數據找到數據在哪個region上面,然後找到這個region在具體哪個regionserver上面並且建立連接,由regionserver再執行數據操作。

 

五、總結

  關於hbase的概念呢以及存儲結構就寫這些好了,其實上面還有很多東西沒寫到,比如分裂合併的流程,讀寫流程什麼的,同時我們在實際應用hbase的時候也有很多技巧,比如rowkey設計,二級索引等,如果不懂hbase的原理的話,在使用的時候經常會踩很多坑,如果有寫的不對的地方也請大家多多指正,謝謝。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 有些工具,值得學習學習: 網路 iftop IO iotop 系統 top htop iftop iotop top htop 保持更新,轉載請註明出處。 https://www.cnblogs.com/xuyaowen/p/linux-performance-tools.html ...
  • 一、Mapjoin案例 1.需求:有兩個文件,分別是訂單表、商品表, 訂單表有三個屬性分別為訂單時間、商品id、訂單id(表示內容量大的表), 商品表有兩個屬性分別為商品id、商品名稱(表示內容量小的表,用於載入到記憶體), 要求結果文件為在訂單表中的每一行最後添加商品id對應的商品名稱。 2.解決思 ...
  • 前言 歡迎關註公眾號: Coder編程 獲取最新原創技術文章和相關免費學習資料,隨時隨地學習技術知識! 本章主要介紹資料庫中Join的的用法,也是我們在使用資料庫時非常基礎的一個知識點。本次會介紹資料庫中的 、`left join right join` 的用法以及它們之間的區別。 文章如有錯誤還請 ...
  • nosql資料庫出現到現在很多年了。筆者一直從事C/S模式的上開發。所以相對而言筆者只是聽過卻從來不知道他是什麼東西。時代在變化,當年所有業務都放在一個War包的時代已經不在了。微服務已經成為了世界主流了。相應的很多技術都出現了。現在互聯網沒有以3高3V來做目標都不好意思拿出手了。 3高:高性能,高 ...
  • 我也忘記是從哪裡download的了,為了加深記憶,也為了完成我的博客,我決定寫進博客里,如果有錯誤,歡迎大家指正,謝謝。 問題一、 解釋一下sum的作用? 答:求符合條件的記錄某數值欄位的和。 問題二、 table有兩個欄位,field1 varchar(10)和field2 int,請寫出向這兩 ...
  • 1. 官網下載mysql,此處下載的是.zip文件 2. 解壓下載的文件夾,並且配置環境變數:Path:E:\mysql-8.0.15-winx64\bin 3. 配置my.ini文件 4. 管理員身份運行cmd,進入到E:\mysql-8.0.15-winx64\bin,執行mysqld --in ...
  • 常見問題 Access denied for user ''@'localhost' to database 'web02' //web02是我自己創建的資料庫 原因分析:mysql資料庫的user表裡,存在用戶名為空的賬戶即匿名賬戶,導致登錄的時候是雖然用的是root,但實際是匿名登錄的 下麵對比 ...
  • 常見問題 Access denied for user 'root'@'localhost' (using password: YES) 因密碼不對而拒絕訪問,再jdbc配置中 常常忽略user和密碼配置是否和本地密碼相匹配 而一般的電腦 可能MySQL並沒有配置密碼 即空密碼 直接鍵入就可以進入數 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...