HBase 系列(九)——HBase 容災與備份

来源:https://www.cnblogs.com/heibaiying/archive/2019/08/27/11416170.html
-Advertisement-
Play Games

一、前言 本文主要介紹 Hbase 常用的三種簡單的容災備份方案,即 CopyTable 、 Export / Import 、 Snapshot 。分別介紹如下: 二、CopyTable 2.1 簡介 CopyTable 可以將現有表的數據複製到新表中,具有以下特點: 支持時間區間 、row 區間 ...


一、前言

本文主要介紹 Hbase 常用的三種簡單的容災備份方案,即CopyTableExport/ImportSnapshot。分別介紹如下:

二、CopyTable

2.1 簡介

CopyTable可以將現有表的數據複製到新表中,具有以下特點:

  • 支持時間區間 、row 區間 、改變表名稱 、改變列族名稱 、以及是否 Copy 已被刪除的數據等功能;
  • 執行命令前,需先創建與原表結構相同的新表;
  • CopyTable 的操作是基於 HBase Client API 進行的,即採用 scan 進行查詢, 採用 put 進行寫入。

2.2 命令格式

Usage: CopyTable [general options] [--starttime=X] [--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] <tablename>

2.3 常用命令

  1. 同集群下 CopyTable
hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=tableCopy  tableOrig
  1. 不同集群下 CopyTable
# 兩表名稱相同的情況
hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
--peer.adr=dstClusterZK:2181:/hbase tableOrig

# 也可以指新的表名
hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
--peer.adr=dstClusterZK:2181:/hbase \
--new.name=tableCopy tableOrig
  1. 下麵是一個官方給的比較完整的例子,指定開始和結束時間,集群地址,以及只複製指定的列族:
hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
--starttime=1265875194289 \
--endtime=1265878794289 \
--peer.adr=server1,server2,server3:2181:/hbase \
--families=myOldCf:myNewCf,cf2,cf3 TestTable

2.4 更多參數

可以通過 --help 查看更多支持的參數

# hbase org.apache.hadoop.hbase.mapreduce.CopyTable --help

三、Export/Import

3.1 簡介

  • Export 支持導出數據到 HDFS, Import 支持從 HDFS 導入數據。Export 還支持指定導出數據的開始時間和結束時間,因此可以用於增量備份。
  • Export 導出與 CopyTable 一樣,依賴 HBase 的 scan 操作

3.2 命令格式

# Export
hbase org.apache.hadoop.hbase.mapreduce.Export <tablename> <outputdir> [<versions> [<starttime> [<endtime>]]]

# Inport
hbase org.apache.hadoop.hbase.mapreduce.Import <tablename> <inputdir>
  • 導出的 outputdir 目錄可以不用預先創建,程式會自動創建。導出完成後,導出文件的所有權將由執行導出命令的用戶所擁有。
  • 預設情況下,僅導出給定 Cell 的最新版本,而不管歷史版本。要導出多個版本,需要將 <versions> 參數替換為所需的版本數。

3.3 常用命令

  1. 導出命令
hbase org.apache.hadoop.hbase.mapreduce.Export tableName  hdfs 路徑/tableName.db
  1. 導入命令
hbase org.apache.hadoop.hbase.mapreduce.Import tableName  hdfs 路徑/tableName.db

四、Snapshot

4.1 簡介

HBase 的快照 (Snapshot) 功能允許您獲取表的副本 (包括內容和元數據),並且性能開銷很小。因為快照存儲的僅僅是表的元數據和 HFiles 的信息。快照的 clone 操作會從該快照創建新表,快照的 restore 操作會將表的內容還原到快照節點。clonerestore 操作不需要複製任何數據,因為底層 HFiles(包含 HBase 表數據的文件) 不會被修改,修改的只是表的元數據信息。

4.2 配置

HBase 快照功能預設沒有開啟,如果要開啟快照,需要在 hbase-site.xml 文件中添加如下配置項:

<property>
    <name>hbase.snapshot.enabled</name>
    <value>true</value>
</property>

4.3 常用命令

快照的所有命令都需要在 Hbase Shell 互動式命令行中執行。

1. Take a Snapshot

# 拍攝快照
hbase> snapshot '表名', '快照名'

預設情況下拍攝快照之前會在記憶體中執行數據刷新。以保證記憶體中的數據包含在快照中。但是如果你不希望包含記憶體中的數據,則可以使用 SKIP_FLUSH 選項禁止刷新。

# 禁止記憶體刷新
hbase> snapshot  '表名', '快照名', {SKIP_FLUSH => true}

2. Listing Snapshots

# 獲取快照列表
hbase> list_snapshots

3. Deleting Snapshots

# 刪除快照
hbase> delete_snapshot '快照名'

4. Clone a table from snapshot

# 從現有的快照創建一張新表
hbase>  clone_snapshot '快照名', '新表名'

5. Restore a snapshot

將表恢復到快照節點,恢復操作需要先禁用表

hbase> disable '表名'
hbase> restore_snapshot '快照名'

這裡需要註意的是:是如果 HBase 配置了基於 Replication 的主從複製,由於 Replication 在日誌級別工作,而快照在文件系統級別工作,因此在還原之後,會出現副本與主伺服器處於不同的狀態的情況。這時候可以先停止同步,所有伺服器還原到一致的數據點後再重新建立同步。

參考資料

  1. Online Apache HBase Backups with CopyTable
  2. Apache HBase ™ Reference Guide

更多大數據系列文章可以參見 GitHub 開源項目大數據入門指南


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1965 年開始 Multics 工程計劃,該計劃由貝爾實驗室、美國麻省理工學院和通用電氣公司聯合發起,(目標是開發一種互動式的、具有多道程式處理能力的分時操作系統,以取代當時廣泛使用的批處理操作系統。最終失敗)。 UNIX 操作系統由肯•湯普森(Ken Thompson)和丹尼斯•里奇(Denni ...
  • Linux(常用)命令 [TOC] 系統信息 關機 (系統的關機、重啟以及登出 ) 文件和目錄 文件搜索 掛載一個文件系統 磁碟空間 用戶和群組 文件的許可權 使用 "+" 設置許可權,使用 " " 用於取消 打包和壓縮文件 RPM 包 (Fedora, Redhat及類似系統) shell rpm i ...
  • Linux 基礎學習2 [TOC] 文件目錄結構 文件和目錄被組織成一顆倒置的樹狀結構 文件系統從根開始,“/” 文件名稱嚴格區分大小寫 隱藏文件以"."開頭 路徑的分隔符為"/" 文件命名規範 文件字元最長為255個字元 包括路徑在內文件名稱最長為4095個 顏色表示 藍色文件 目錄 綠色文件 可 ...
  • vim是linux和mac中常用到的編輯器。 其分為4種模式: normal模式:普通模式,瀏覽作用 insert模式: i(insert) 在當前游標處進行插入 a(append) 在當前游標後進行插入 o(open a line below) 在當前行下進行插入 I 在當前行首進行插入 A 在當 ...
  • 分區的基礎知識: 模式:mbr分區: 1、最多支持四個主分區 2、系統只能安裝主分區 3、擴展分區要占一個主分區 4、MBR最大隻支持2TB,但擁有最好的相容性 gtp分區: 1、支持無限多個主分區(但操作系統可能限制,比如windows下最多128個分區) 2、最大支持18EB的大容量(EB=10 ...
  • DATEPART() 函數用於返回日期/時間的單獨部分,比如年、月、日、小時、分鐘等等。 DATEDIFF() 函數返回兩個日期之間的時間差。 計算兩個時間差 相差年數:SELECT DATEDIFF(YEAR,'2017-07-01 11:25:52','2018-07-02 12:25:52') ...
  • 一、Phoenix簡介 是 HBase 的開源 SQL 中間層,它允許你使用標準 JDBC 的方式來操作 HBase 上的數據。在 之前,如果你要訪問 HBase,只能調用它的 Java API,但相比於使用一行 SQL 就能實現數據查詢,HBase 的 API 還是過於複雜。 的理念是 ,即你可以 ...
  • 腳本: 腳本運行結果: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...