一、hbase與列式存儲 hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql資料庫,同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢?簡單來講就是:傳統的關係資料庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進 ...
一、hbase與列式存儲
hbase最早起源於谷歌的一篇BigTable的論文,它是由java編寫的、開源的一個nosql資料庫,同時它也是一個列式存儲的、支持分散式(基於hdfs)的資料庫。什麼是列式存儲呢?簡單來講就是:傳統的關係資料庫幾乎都是行式存儲的,這種存儲的特點是,將每一行的數據連起來進行存儲;而列式存儲是將每一列的數據連起來進行存儲的。
列式存儲相對於行式存儲有哪些優點呢?
1.壓縮空間:一張表裡面,我存儲的數據可以是非常鬆散的,就是說這一列可以有值也可以沒有值,沒有值就不會占用空間,而行式存儲不行,它的結構非常規範,就算是某一列不賦值,那麼這一行的這一列空間也是占用的,而且後期如果我想對某張表擴張欄位的話,前面的的數據都必須強制開闢這個欄位的存儲空間。
2.查詢性能:行式存儲在查詢的時候若我們制定某一個欄位進行查詢,他會遍歷這一行的所有欄位,然後找到匹配的欄位進行返回,這樣是很耗費IO的,而列式存儲由於它本來就是按列來進行數據存儲的,就是說不同的列的數據是存儲在不同地方的,所以檢索指定列的時候只需要找到對應的列存儲的位置,然後針對性檢索就行了。
二、hbase的表結構
既然hbase是一個資料庫,那麼必然會有表的概念,它也有行鍵和列名的概念,不過與傳統關係資料庫不同的是它引入了列族的概念。
hbase的表分為兩類,一類的系統表(又稱meta表),另一類是用戶表。meta表由系統創建與維護,主要存儲表和分區的元數據信息,用戶許可權等。而用戶表是我們自己創建的表,我們用戶用來存儲業務數據的表。
hbase的表裡面有很多概念:行、列、行鍵、單元格、值、時間戳等。
如下圖所示是一張hbase表,RowKey就是行鍵的概念,一行只有一個用來作為唯一標示。同時下圖有兩個列族,CF1和CF2,在它們下麵又各有兩個列,分別是name/age和sex/class,每一個行可以有多個時間戳標示不同的版本,例如下麵的00001就有3個不同的時間戳版本,而hbase在查詢的時候預設是獲取最新的時間戳版本的數據。由rowkey、列(clomun)、timestamp可以確定一個唯一的單元格,如00001的t1時間的name是zhangsan。
同時我們可以看到有些列裡面是沒有值的,而hbase只對於有值的列存儲進文件系統。
這裡有一個rowkey排序的問題,hbase是根據rowkey的位元組值進行數據排序的,且rowkey一般都是字元串形式存儲的,存儲的時候會將字元串轉換為二進位流。也就是說,對於這裡的rowkey00001和00002來說,00001是排在00002前面的。同時由於這麼一個排序的問題,如果rowkey的設計不合理的話,很有可能會導致hbase的熱點問題。
三、hbase的表存儲
下圖是hbase的一個table的存儲結構,一個table有一個或者多個region組成,這也是hbase能夠支持分散式存儲的重要原因。同時一個region里由一個或者多個列族組成,一個列族有一個store實體組成,store實體裡面有MEMStore、HFil,MEMStore是記憶體實體,HFile是實際的存儲物理文件,HFile裡面又由多個block組成,block裡面存儲的就是單元格數據cell。
Region
如果是單機的話,所有行和列組成的單元格數據全部存儲在一張表中就可以了,但是hbase為了支持集群分散式,就必須把一張很大的表拆分成多個region。每個region都有一個起始的rowkey和一個結束的rowkey來定義它的邊界。同時每個region裡面存儲的那些rowkey都會保存在hbase的meta表中,查詢的時候可以通過meta數據快速定位到需要查詢的rowkey數據在哪個region裡面。hbase裡面有一個regionserver的角色,每個region會被分配到各自的regionserver中,這個是有hbase的負載均衡器自動完成的。同時當某個region很大的時候,它是可以分裂的,當然如果有需要,多個小的region也是可以合併的。
列族
列族是hbase獨有的概念,在同一個region裡面,不同的列族的數據會存儲在不同的文件中。而列族如何分配,可以根據存儲的數據的類型來決定,不同類型的數據可以存儲在不同的列族中,如文本數據和圖片數據就可以分開存儲。
但是列族數量不宜過多,因為有一個列族就會有一個store,而region達到一定的大小之後就會進行分裂,這個時候列族過多就會出現問題。
例如:一個region裡面有列族A和列族B,A有1000萬數據,而B有10萬數據,當region到達設定的閾值之後開始執行分裂,假設分裂為10份。那麼對於列族A來說每一份就是有100萬數據,但是對於B來說每一份就只有1萬數據,那麼當去檢索B的數據的時候就需要遍歷很多region從而導致性能降低。
Store
一個store對應一個列族。store對象由memstore和hfile組成,memstore是數據寫入的緩存區,而hflie是物理文件。數據寫進來的時候首先進入到memstore裡面,當memstore達到一定的閾值的時候Hfile就會被創建。
Block
Hflie是由block組成的,這裡的block與hdfs的block不同,一個hdfs的block可能會包含多個hfile的block。
四、Hbase的角色
hbase在集群的情況下主要有兩個角色:HMaster和RegionServer。
HMaster
職責:1.Region分配 2.負載均衡 3.RegionServer恢復 4.監控Region分裂 5.追蹤活躍或者宕機的伺服器
RegionServer
RegionServer是托管並且服務Region以及Hbase數據的應用程式。
如下圖所示是一個9台的hbase集群,其中3台主機,6台從機。主機上面運行Hmaster,hdfs的NN服務,以及zk服務,而從機上面運行RegionServer服務以及hdfs的DN服務。我們連接hbase進行讀寫的時候都是先連接主機的zk,然後zk找到對應的master伺服器,然後master伺服器通過meta數據找到數據在哪個region上面,然後找到這個region在具體哪個regionserver上面並且建立連接,由regionserver再執行數據操作。
五、總結
關於hbase的概念呢以及存儲結構就寫這些好了,其實上面還有很多東西沒寫到,比如分裂合併的流程,讀寫流程什麼的,同時我們在實際應用hbase的時候也有很多技巧,比如rowkey設計,二級索引等,如果不懂hbase的原理的話,在使用的時候經常會踩很多坑,如果有寫的不對的地方也請大家多多指正,謝謝。