Hbase系統架構簡述_ZenDei技術網路在線

Hbase系統架構簡述

-Advertisement-

由於最近要開始深入的學習一下hbase，所以，先大概瞭解了hbase的基本架構，在此簡單的記錄一下。 Hbase的邏輯視圖 Hbase的物理存儲 HRegion Table中所有行都按照row key的字典序排列。 Table在行的方向上分割為多個HRegion。 HRegion按大小分割的，每個表 ...

由於最近要開始深入的學習一下hbase，所以，先大概瞭解了hbase的基本架構，在此簡單的記錄一下。

Hbase的邏輯視圖

Hbase的物理存儲

HRegion

Table中所有行都按照row key的字典序排列。
Table在行的方向上分割為多個HRegion。
HRegion按大小分割的，每個表開始只有一個HRegion，隨著數據增多，HRegion不斷增大，當增大到一個閥值的時候，HRegion就會等分會兩個新的HRegion，之後會有越來越多的Region。
HRegion是Hbase中分散式存儲和負載均衡的最小單元，不同HRegion分佈到不同HRegionServer上。

Store

HRegion雖然是分散式存儲的最小單元，但並不是存儲的最小單元。
HRegion由一個或者多個Store組成，每個Store保存一個columns family。所以，每個column family存儲在HDFS上的一個單獨文件中，空值不會被保存。
每個HRtrore又由一個MemStore和0至多個StoreFile組成，StoreFile包含HFile。
MemStore存儲在記憶體中，StoreFile存儲在HDFS上。

Hbase基本組件

Client

包含訪問HBase的介面，並維護cache來加快對HBase的訪問，比如HRegion的位置信息。

Master

為HRegionServer分配HRegion：比如在HRegion split時分配新的HRegion；在HRegionServer退出時遷移其內的HRegion到其他HRegionServer上
負責HRegionServer的負載均衡
發現失效的HRegionServer並重新分配其上的HRegion
管理用戶對table的增刪改查操作
管理namespace和table的元數據
許可權控制（ACL）

HRegionServer

HRegionServer維護HRegion，處理對這些HRegion的IO請求
存放和管理本地Hregion
讀寫HDFS，管理Table中的數據 HRegionserver負責切分在運行過程中變得過大的Hregion
Client直接通過HRegionServer讀寫數據（從HMaster中獲取元數據，找到RowKey所在的HRegion/HRegionServer後）

Zookeeper

通過選舉，保證任何時候，集群中只有一個master，Master與RegionServers 啟動時會向ZooKeeper註冊
存貯所有Region的定址入口
實時監控Region server的上線和下線信息。並實時通知給Master
存儲HBase的schema和table元數據

Zookeeper的引入使得Master不再是單點故障

上圖清晰的表達了HMaster和NameNode都支持多個熱備份，使用ZooKeeper來做協調。

ZooKeeper一般由三台機器組成一個集群，內部使用PAXOS演算法支持三台Server中的一臺宕機，也有使用五台機器的，此時則可以支持同時兩台宕機，既少於半數的宕機。
然而隨著機器的增加，它的性能也會下降。
RegionServer和DataNode一般會放在相同的Server上實現數據的本地化。

協同工作

HBase Client通過RPC方式和HMaster、HRegionServer通信。
一個HRegionServer可以存放1000個HRegion。
底層Table數據存儲於HDFS中，而HRegion所處理的數據儘量和數據所在的DataNode在一起，實現數據的本地化。
數據本地化並不是總能實現，比如在HRegion移動(如因Split)時，需要等下一次Compact才能繼續回到本地化。

Hbase的數據恢復

HLog

每個HRegionServer中都有一個HLog對象，HLog是一個實現Write Ahead Log的類。
在每次用戶操作寫入MemStore的同時，也會寫一份數據到HLog文件中。
HLog文件定期會滾動出新的，並刪除舊的文件（已持久化到StoreFile中的數據）。

恢復過程

當HRegionServer意外終止後，HMaster會通過Zookeeper感知到。
HMaster首先會處理遺留的HLog文件，將其中不同Region的Log數據進行拆分，分別放到相應region的目錄下。
然後再將失效的region重新分配，領取到這些region的HRegionServer在Load Region的過程中，會發現有歷史HLog需要處理。
因此會Replay HLog中的數據到MemStore中，然後flush到StoreFiles，完成數據恢復。
示意圖：

Hbase的容錯

HRegionServer

HRegionServer定時向Zookeeper彙報心跳。
如果一旦時間內未出現心跳，HMaster將該RegionServer上的Region重新分配到其他RegionServer上。
失效伺服器上“預寫”日誌由主伺服器進行分割並派送給新的HRegionServer。

HMaster

當現有Hmaster出現災難無法運轉，Zookeeper會重新選擇一個新的Master，從而保障Master不再是單點故障。

- 無Master過程中，數據讀取仍照常進行。

- 無master過程中，region切分、負載均衡等無法進行。

Zookeeper

Zookeeper是一個可靠地服務，一般配置3或5個Zookeeper實例。
Region定位流程：ZooKeeper--> -ROOT-(單Region)--> .META.--> 用戶表

本文只是簡單介紹一下hbase系統架構，後續會詳細地補充。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Server 2008 R2多用戶遠程桌面連接授權,解決120天過期問題

在工作中，我們往往需要遠程伺服器，經常會遇到以下這兩個麻煩事。一、遠程桌面的連接數限制，超出系統就會提示超過連接數。二、遠程桌面連接時，同一個用戶不能同時遠程2個桌面連接。為瞭解決這兩個麻煩事情，我們只需要配置Server 2008 R2的遠程桌面授權服務即可。實驗操作配置如下：此次實驗的前 ...
Kali學習筆記12：服務掃描

關於什麼是服務掃描不多介紹，通俗來看：我已經掃描到目標機器某個埠開放，接下來我需要知道開放這個埠的是什麼應用情景：我的Kali機器IP地址：192.168.22.130 我要掃描的Metasploitable機器IP地址：192.168.22.129 1.先介紹一個小工具：不強大，但是可以 ...
虛擬機Linux與本地虛擬網卡配置---NAT鏈接方式

虛擬機Linux與本地虛擬網卡配置 NAT鏈接方式 **********這是我親自嘗試多次實踐出來的結果，不是複製粘貼************************* 首先進行初始化，這樣避免有些設置會有影響第二步，如圖中1，取消本地DHCP服務，2、這裡的子網ip要與虛擬機內部的網段相同，最後 ...
Windows server 2008R2 搭建VPN服務

VPN英文全稱是“Virtual Private Network”，就是“虛擬專用網路”。可以遠程幫助用戶、分公司、商業伙伴及供應商同公司的內部網建立可信的安全連接，用於經濟有效地連接到商業伙伴和用戶的安全外聯網虛擬專用網。搭建環境：伺服器系統:Windows server 2008 R2 客戶 ...
Linux編程 11(shell全局環境變數與局變環境變數)

一.概述在linux中,很多程式和腳本都通過環境變數來獲取系統信息，存儲臨時數據，配置信息。環境變數是指用來存儲有關shell會話和工作環境信息，允許你在記憶體中存儲數據，以便程式或shell中運行的腳本能夠輕鬆訪問到它們。也是存儲持久數據的一種簡便方法。在bash shell中，環境變數分為：全局 ...
ELF文件的載入過程(load_elf_binary函數詳解)--Linux進程的管理與調度（十三）

載入和動態鏈接從編譯/鏈接和運行的角度看，應用程式和庫程式的連接有兩種方式。一種是固定的、靜態的連接，就是把需要用到的庫函數的目標代碼（二進位）代碼從程式庫中抽取出來，鏈接進應用軟體的目標映像中；另一種是動態鏈接，是指庫函數的代碼並不進入應用軟體的目標映像，應用軟體在編譯/鏈接階段並不完成跟庫 ...
通過Visual Studio 2012 比較SQL Server 資料庫的架構變更

一需求隨著公司業務的發展，資料庫實例也逐漸增多，資料庫也會越來越多，有時候我們會發現正式生產資料庫也測試資料庫數據不一致，也有可能是預發佈環境下的資料庫與其他資料庫架構不一致，或者，分散式資料庫上線，發現某些不可預知的原因，也會導致資料庫之間架構不一致等等。因此，在複雜的資料庫對象中，迅速全部找 ...
SQL快速入門 ( MySQL快速入門, MySQL參考, MySQL快速回顧 )

SQL 先說點廢話，很久沒發文了，整理了下自己當時入門 SQL 的筆記，無論用於入門，回顧，參考查詢，應該都是有一定價值的，可以按照目錄各取所需。SQL資料庫有很多，MySQL是一種，本文基本都是SQL通用標準，有些標準很不統一的地方就用MySQL的寫法了。希望本文幫你快速瞭解SQL的基本操作和概念 ...