由於最近要開始深入的學習一下hbase,所以,先大概瞭解了hbase的基本架構,在此簡單的記錄一下。 Hbase的邏輯視圖 Hbase的物理存儲 HRegion Table中所有行都按照row key的字典序排列。 Table在行的方向上分割為多個HRegion。 HRegion按大小分割的,每個表 ...
由於最近要開始深入的學習一下hbase,所以,先大概瞭解了hbase的基本架構,在此簡單的記錄一下。
Hbase的邏輯視圖
Hbase的物理存儲
HRegion
- Table中所有行都按照row key的字典序排列。
- Table在行的方向上分割為多個HRegion。
- HRegion按大小分割的,每個表開始只有一個HRegion,隨著數據增多,HRegion不斷增大,當增大到一個閥值的時候,HRegion就會等分會兩個新的HRegion,之後會有越來越多的Region。
- HRegion是Hbase中分散式存儲和負載均衡的最小單元,不同HRegion分佈到不同HRegionServer上。
Store
- HRegion雖然是分散式存儲的最小單元,但並不是存儲的最小單元。
- HRegion由一個或者多個Store組成,每個Store保存一個columns family。 所以,每個column family存儲在HDFS上的一個單獨文件中,空值不會被保存。
- 每個HRtrore又由一個MemStore和0至多個StoreFile組成,StoreFile包含HFile。
- MemStore存儲在記憶體中,StoreFile存儲在HDFS上。
Hbase基本組件
Client
- 包含訪問HBase的介面,並維護cache來加快對HBase的訪問,比如HRegion的位置信息。
Master
- 為HRegionServer分配HRegion:比如在HRegion split時分配新的HRegion;在HRegionServer退出時遷移其內的HRegion到其他HRegionServer上
- 負責HRegionServer的負載均衡
- 發現失效的HRegionServer並重新分配其上的HRegion
- 管理用戶對table的增刪改查操作
- 管理namespace和table的元數據
- 許可權控制(ACL)
HRegionServer
- HRegionServer維護HRegion,處理對這些HRegion的IO請求
- 存放和管理本地Hregion
- 讀寫HDFS,管理Table中的數據 HRegionserver負責切分在運行過程中變得過大的Hregion
- Client直接通過HRegionServer讀寫數據(從HMaster中獲取元數據,找到RowKey所在的HRegion/HRegionServer後)
Zookeeper
- 通過選舉,保證任何時候,集群中只有一個master,Master與RegionServers 啟動時會向ZooKeeper註冊
- 存貯所有Region的定址入口
- 實時監控Region server的上線和下線信息。並實時通知給Master
- 存儲HBase的schema和table元數據
Zookeeper的引入使得Master不再是單點故障
上圖清晰的表達了HMaster和NameNode都支持多個熱備份,使用ZooKeeper來做協調。
- ZooKeeper一般由三台機器組成一個集群,內部使用PAXOS演算法支持三台Server中的一臺宕機,也有使用五台機器的,此時則可以支持同時兩台宕機,既少於半數的宕機。
- 然而隨著機器的增加,它的性能也會下降。
- RegionServer和DataNode一般會放在相同的Server上實現數據的本地化。
協同工作
- HBase Client通過RPC方式和HMaster、HRegionServer通信。
- 一個HRegionServer可以存放1000個HRegion。
- 底層Table數據存儲於HDFS中,而HRegion所處理的數據儘量和數據所在的DataNode在一起,實現數據的本地化。
- 數據本地化並不是總能實現,比如在HRegion移動(如因Split)時,需要等下一次Compact才能繼續回到本地化。
Hbase的數據恢復
HLog
- 每個HRegionServer中都有一個HLog對象,HLog是一個實現Write Ahead Log的類。
- 在每次用戶操作寫入MemStore的同時,也會寫一份數據到HLog文件中。
- HLog文件定期會滾動出新的,並刪除舊的文件(已持久化到StoreFile中的數據)。
恢復過程
- 當HRegionServer意外終止後,HMaster會通過Zookeeper感知到。
- HMaster首先會處理遺留的HLog文件,將其中不同Region的Log數據進行拆分,分別放到相應region的目錄下。
- 然後再將失效的region重新分配,領取到這些region的HRegionServer在Load Region的過程中,會發現有歷史HLog需要處理。
- 因此會Replay HLog中的數據到MemStore中,然後flush到StoreFiles,完成數據恢復。
- 示意圖:
-
Hbase的容錯
HRegionServer
- HRegionServer定時向Zookeeper彙報心跳。
- 如果一旦時間內未出現心跳,HMaster將該RegionServer上的Region重新分配到其他RegionServer上。
- 失效伺服器上“預寫”日誌由主伺服器進行分割並派送給新的HRegionServer。
HMaster
- 當現有Hmaster出現災難無法運轉,Zookeeper會重新選擇一個新的Master,從而保障Master不再是單點故障。
- 無Master過程中,數據讀取仍照常進行。
- 無master過程中,region切分、負載均衡等無法進行。
Zookeeper
- Zookeeper是一個可靠地服務,一般配置3或5個Zookeeper實例。
- Region定位流程:ZooKeeper--> -ROOT-(單Region)--> .META.--> 用戶表
本文只是簡單介紹一下hbase系統架構,後續會詳細地補充。