Hbase系統架構簡述

来源:https://www.cnblogs.com/qinshifu/archive/2018/09/16/9656973.html
-Advertisement-
Play Games

由於最近要開始深入的學習一下hbase,所以,先大概瞭解了hbase的基本架構,在此簡單的記錄一下。 Hbase的邏輯視圖 Hbase的物理存儲 HRegion Table中所有行都按照row key的字典序排列。 Table在行的方向上分割為多個HRegion。 HRegion按大小分割的,每個表 ...


由於最近要開始深入的學習一下hbase,所以,先大概瞭解了hbase的基本架構,在此簡單的記錄一下。

Hbase的邏輯視圖

Hbase的物理存儲

HRegion

  • Table中所有行都按照row key的字典序排列。
  • Table在行的方向上分割為多個HRegion。
  • HRegion按大小分割的,每個表開始只有一個HRegion,隨著數據增多,HRegion不斷增大,當增大到一個閥值的時候,HRegion就會等分會兩個新的HRegion,之後會有越來越多的Region。
  • HRegion是Hbase中分散式存儲和負載均衡的最小單元,不同HRegion分佈到不同HRegionServer上。

 

Store

  • HRegion雖然是分散式存儲的最小單元,但並不是存儲的最小單元。
  • HRegion由一個或者多個Store組成,每個Store保存一個columns family。 所以,每個column family存儲在HDFS上的一個單獨文件中,空值不會被保存。
  • 每個HRtrore又由一個MemStore和0至多個StoreFile組成,StoreFile包含HFile。
  • MemStore存儲在記憶體中,StoreFile存儲在HDFS上。

Hbase基本組件

Client

  • 包含訪問HBase的介面,並維護cache來加快對HBase的訪問,比如HRegion的位置信息。

Master

  • 為HRegionServer分配HRegion:比如在HRegion split時分配新的HRegion;在HRegionServer退出時遷移其內的HRegion到其他HRegionServer上
  • 負責HRegionServer的負載均衡
  • 發現失效的HRegionServer並重新分配其上的HRegion
  • 管理用戶對table的增刪改查操作
  • 管理namespace和table的元數據
  • 許可權控制(ACL)

HRegionServer

  • HRegionServer維護HRegion,處理對這些HRegion的IO請求
  • 存放和管理本地Hregion
  • 讀寫HDFS,管理Table中的數據 HRegionserver負責切分在運行過程中變得過大的Hregion
  • Client直接通過HRegionServer讀寫數據(從HMaster中獲取元數據,找到RowKey所在的HRegion/HRegionServer後)

Zookeeper

  • 通過選舉,保證任何時候,集群中只有一個master,Master與RegionServers 啟動時會向ZooKeeper註冊
  • 存貯所有Region的定址入口
  • 實時監控Region server的上線和下線信息。並實時通知給Master
  • 存儲HBase的schema和table元數據

Zookeeper的引入使得Master不再是單點故障

 

上圖清晰的表達了HMaster和NameNode都支持多個熱備份,使用ZooKeeper來做協調。

  • ZooKeeper一般由三台機器組成一個集群,內部使用PAXOS演算法支持三台Server中的一臺宕機,也有使用五台機器的,此時則可以支持同時兩台宕機,既少於半數的宕機。
  • 然而隨著機器的增加,它的性能也會下降。
  • RegionServer和DataNode一般會放在相同的Server上實現數據的本地化。

 協同工作

  • HBase Client通過RPC方式和HMaster、HRegionServer通信。
  • 一個HRegionServer可以存放1000個HRegion。
  • 底層Table數據存儲於HDFS中,而HRegion所處理的數據儘量和數據所在的DataNode在一起,實現數據的本地化。
  • 數據本地化並不是總能實現,比如在HRegion移動(如因Split)時,需要等下一次Compact才能繼續回到本地化。

Hbase的數據恢復

HLog

  • 每個HRegionServer中都有一個HLog對象,HLog是一個實現Write Ahead Log的類。
  • 在每次用戶操作寫入MemStore的同時,也會寫一份數據到HLog文件中。
  • HLog文件定期會滾動出新的,並刪除舊的文件(已持久化到StoreFile中的數據)。

恢復過程

  • 當HRegionServer意外終止後,HMaster會通過Zookeeper感知到。
  • HMaster首先會處理遺留的HLog文件,將其中不同Region的Log數據進行拆分,分別放到相應region的目錄下。
  • 然後再將失效的region重新分配,領取到這些region的HRegionServer在Load Region的過程中,會發現有歷史HLog需要處理。
  • 因此會Replay HLog中的數據到MemStore中,然後flush到StoreFiles,完成數據恢復。
  • 示意圖:
  •  

Hbase的容錯

HRegionServer

  • HRegionServer定時向Zookeeper彙報心跳。
  • 如果一旦時間內未出現心跳,HMaster將該RegionServer上的Region重新分配到其他RegionServer上。
  • 失效伺服器上“預寫”日誌由主伺服器進行分割並派送給新的HRegionServer。

HMaster

  • 當現有Hmaster出現災難無法運轉,Zookeeper會重新選擇一個新的Master,從而保障Master不再是單點故障。

- 無Master過程中,數據讀取仍照常進行。

- 無master過程中,region切分、負載均衡等無法進行。

Zookeeper

  • Zookeeper是一個可靠地服務,一般配置3或5個Zookeeper實例。
  • Region定位流程:ZooKeeper--> -ROOT-(單Region)--> .META.--> 用戶表

本文只是簡單介紹一下hbase系統架構,後續會詳細地補充。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在工作中,我們往往需要遠程伺服器,經常會遇到以下這兩個麻煩事。 一、遠程桌面的連接數限制,超出系統就會提示超過連接數。 二、遠程桌面連接時,同一個用戶不能同時遠程2個桌面連接。 為瞭解決這兩個麻煩事情,我們只需要配置Server 2008 R2的遠程桌面授權服務即可。實驗操作配置如下: 此次實驗的前 ...
  • 關於什麼是服務掃描不多介紹,通俗來看: 我已經掃描到目標機器某個埠開放,接下來我需要知道開放這個埠的是什麼應用 情景: 我的Kali機器IP地址:192.168.22.130 我要掃描的Metasploitable機器IP地址:192.168.22.129 1.先介紹一個小工具:不強大,但是可以 ...
  • 虛擬機Linux與本地虛擬網卡配置 NAT鏈接方式 **********這是我親自嘗試多次實踐出來的結果,不是複製粘貼************************* 首先進行初始化,這樣避免有些設置會有影響 第二步,如圖中1,取消本地DHCP服務,2、這裡的子網ip要與虛擬機內部的網段相同,最後 ...
  • VPN英文全稱是“Virtual Private Network”,就是“虛擬專用網路”。可以遠程幫助用戶、分公司、商業伙伴及供應商同公司的內部網建立可信的安全連接,用於經濟有效地連接到商業伙伴和用戶的安全外聯網虛擬專用網。 搭建環境: 伺服器系統:Windows server 2008 R2 客戶 ...
  • 一.概述 在linux中,很多程式和腳本都通過環境變數來獲取系統信息,存儲臨時數據,配置信息。環境變數是指用來存儲有關shell會話和工作環境信息,允許你在記憶體中存儲數據,以便程式或shell中運行的腳本能夠輕鬆訪問到它們。也是存儲持久數據的一種簡便方法。在bash shell中,環境變數分為:全局 ...
  • 載入和動態鏈接 從編譯/鏈接和運行的角度看,應用程式和庫程式的連接有兩種方式。 一種是固定的、靜態的連接,就是把需要用到的庫函數的目標代碼(二進位)代碼從程式庫中抽取出來,鏈接進應用軟體的目標映像中; 另一種是動態鏈接,是指庫函數的代碼並不進入應用軟體的目標映像,應用軟體在編譯/鏈接階段並不完成跟庫 ...
  • 一 需求 隨著公司業務的發展,資料庫實例也逐漸增多,資料庫也會越來越多,有時候我們會發現正式生產資料庫也測試資料庫數據不一致,也有可能是預發佈環境下的資料庫與其他資料庫架構不一致,或者,分散式資料庫上線,發現某些不可預知的原因,也會導致資料庫之間架構不一致等等。因此,在複雜的資料庫對象中,迅速全部找 ...
  • SQL 先說點廢話,很久沒發文了,整理了下自己當時入門 SQL 的筆記,無論用於入門,回顧,參考查詢,應該都是有一定價值的,可以按照目錄各取所需。SQL資料庫有很多,MySQL是一種,本文基本都是SQL通用標準,有些標準很不統一的地方就用MySQL的寫法了。希望本文幫你快速瞭解SQL的基本操作和概念 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...