Hbase學習之概念與原理_ZenDei技術網路在線

一、hbase與列式存儲 hbase最早起源於谷歌的一篇BigTable的論文，它是由java編寫的、開源的一個nosql資料庫，同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢？簡單來講就是：傳統的關係資料庫幾乎都是行式存儲的，這種存儲的特點是，將每一行的數據連起來進 ...

一、hbase與列式存儲

　　hbase最早起源於谷歌的一篇BigTable的論文，它是由java編寫的、開源的一個nosql資料庫，同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢？簡單來講就是：傳統的關係資料庫幾乎都是行式存儲的，這種存儲的特點是，將每一行的數據連起來進行存儲；而列式存儲是將每一列的數據連起來進行存儲的。

　　列式存儲相對於行式存儲有哪些優點呢？

　　1.壓縮空間：一張表裡面，我存儲的數據可以是非常鬆散的，就是說這一列可以有值也可以沒有值，沒有值就不會占用空間，而行式存儲不行，它的結構非常規範，就算是某一列不賦值，那麼這一行的這一列空間也是占用的，而且後期如果我想對某張表擴張欄位的話，前面的的數據都必須強制開闢這個欄位的存儲空間。

　　2.查詢性能：行式存儲在查詢的時候若我們制定某一個欄位進行查詢，他會遍歷這一行的所有欄位，然後找到匹配的欄位進行返回，這樣是很耗費IO的，而列式存儲由於它本來就是按列來進行數據存儲的，就是說不同的列的數據是存儲在不同地方的，所以檢索指定列的時候只需要找到對應的列存儲的位置，然後針對性檢索就行了。

二、hbase的表結構

　　既然hbase是一個資料庫，那麼必然會有表的概念，它也有行鍵和列名的概念，不過與傳統關係資料庫不同的是它引入了列族的概念。

　　hbase的表分為兩類，一類的系統表（又稱meta表），另一類是用戶表。meta表由系統創建與維護，主要存儲表和分區的元數據信息，用戶許可權等。而用戶表是我們自己創建的表，我們用戶用來存儲業務數據的表。

　　hbase的表裡面有很多概念：行、列、行鍵、單元格、值、時間戳等。

　　如下圖所示是一張hbase表，RowKey就是行鍵的概念，一行只有一個用來作為唯一標示。同時下圖有兩個列族，CF1和CF2，在它們下麵又各有兩個列，分別是name/age和sex/class，每一個行可以有多個時間戳標示不同的版本，例如下麵的00001就有3個不同的時間戳版本，而hbase在查詢的時候預設是獲取最新的時間戳版本的數據。由rowkey、列(clomun)、timestamp可以確定一個唯一的單元格，如00001的t1時間的name是zhangsan。

同時我們可以看到有些列裡面是沒有值的，而hbase只對於有值的列存儲進文件系統。

　　這裡有一個rowkey排序的問題，hbase是根據rowkey的位元組值進行數據排序的，且rowkey一般都是字元串形式存儲的，存儲的時候會將字元串轉換為二進位流。也就是說，對於這裡的rowkey00001和00002來說，00001是排在00002前面的。同時由於這麼一個排序的問題，如果rowkey的設計不合理的話，很有可能會導致hbase的熱點問題。

三、hbase的表存儲

　　下圖是hbase的一個table的存儲結構，一個table有一個或者多個region組成，這也是hbase能夠支持分散式存儲的重要原因。同時一個region里由一個或者多個列族組成，一個列族有一個store實體組成，store實體裡面有MEMStore、HFil，MEMStore是記憶體實體，HFile是實際的存儲物理文件，HFile裡面又由多個block組成，block裡面存儲的就是單元格數據cell。

　　Region

　　如果是單機的話，所有行和列組成的單元格數據全部存儲在一張表中就可以了，但是hbase為了支持集群分散式，就必須把一張很大的表拆分成多個region。每個region都有一個起始的rowkey和一個結束的rowkey來定義它的邊界。同時每個region裡面存儲的那些rowkey都會保存在hbase的meta表中，查詢的時候可以通過meta數據快速定位到需要查詢的rowkey數據在哪個region裡面。hbase裡面有一個regionserver的角色，每個region會被分配到各自的regionserver中，這個是有hbase的負載均衡器自動完成的。同時當某個region很大的時候，它是可以分裂的，當然如果有需要，多個小的region也是可以合併的。

　　列族

　　列族是hbase獨有的概念，在同一個region裡面，不同的列族的數據會存儲在不同的文件中。而列族如何分配，可以根據存儲的數據的類型來決定，不同類型的數據可以存儲在不同的列族中，如文本數據和圖片數據就可以分開存儲。

　　但是列族數量不宜過多，因為有一個列族就會有一個store，而region達到一定的大小之後就會進行分裂，這個時候列族過多就會出現問題。

　　例如：一個region裡面有列族A和列族B，A有1000萬數據，而B有10萬數據，當region到達設定的閾值之後開始執行分裂，假設分裂為10份。那麼對於列族A來說每一份就是有100萬數據，但是對於B來說每一份就只有1萬數據，那麼當去檢索B的數據的時候就需要遍歷很多region從而導致性能降低。

　　Store

　　一個store對應一個列族。store對象由memstore和hfile組成，memstore是數據寫入的緩存區，而hflie是物理文件。數據寫進來的時候首先進入到memstore裡面，當memstore達到一定的閾值的時候Hfile就會被創建。

　　Block

　　Hflie是由block組成的，這裡的block與hdfs的block不同，一個hdfs的block可能會包含多個hfile的block。

四、Hbase的角色

　　hbase在集群的情況下主要有兩個角色：HMaster和RegionServer。

　　HMaster

　　職責：1.Region分配 2.負載均衡 3.RegionServer恢復 4.監控Region分裂 5.追蹤活躍或者宕機的伺服器

　　RegionServer

　　RegionServer是托管並且服務Region以及Hbase數據的應用程式。

　　如下圖所示是一個9台的hbase集群，其中3台主機，6台從機。主機上面運行Hmaster，hdfs的NN服務，以及zk服務，而從機上面運行RegionServer服務以及hdfs的DN服務。我們連接hbase進行讀寫的時候都是先連接主機的zk，然後zk找到對應的master伺服器，然後master伺服器通過meta數據找到數據在哪個region上面，然後找到這個region在具體哪個regionserver上面並且建立連接，由regionserver再執行數據操作。

五、總結

　　關於hbase的概念呢以及存儲結構就寫這些好了，其實上面還有很多東西沒寫到，比如分裂合併的流程，讀寫流程什麼的，同時我們在實際應用hbase的時候也有很多技巧，比如rowkey設計，二級索引等，如果不懂hbase的原理的話，在使用的時候經常會踩很多坑，如果有寫的不對的地方也請大家多多指正，謝謝。