hbase snapshot 表備份/恢復

来源:https://www.cnblogs.com/xiguage119/archive/2019/04/02/10643767.html
-Advertisement-
Play Games

snapshot其實就是一組metadata信息的集合,它可以讓管理員將表恢復到以前的一個狀態。snapshot並不是一份拷貝,它只是一個文件名的列表,並不拷貝數據。一個全的snapshot恢復以為著你可以回滾到原來的表schema和創建snapshot之前的數據。 應用場景: 1獲取:該操作嘗試從 ...


snapshot其實就是一組metadata信息的集合,它可以讓管理員將表恢復到以前的一個狀態。snapshot並不是一份拷貝,它只是一個文件名的列表,並不拷貝數據。一個全的snapshot恢復以為著你可以回滾到原來的表schema和創建snapshot之前的數據。

應用場景

    1獲取:該操作嘗試從指定的表中獲取一個snapshot。該操作在regionsbalancingsplit或者merge等遷移工作的時候可能會失敗。
    2拷貝:該操作用指定snapshotschema和數據來創建一個新表。該操作會不會對 原表或者該snapshot造成任何影響。
    3恢復: 該操作將一個表的schemadata回滾到創建該snapshot時的狀態。
    4刪除:該操作將一個snapshot從系統中移除,釋放磁碟空間,不會對其他拷貝或者snapshot造成任何影響。
    5導出:該操作拷貝這個snapshotdatametadata到另一個集群。該操作僅影響HDFS,並不會和hbaseMaster或者Region Server通信(這些操作可能會導致集群掛掉)。

 首先我們要理解,HBase的底層存儲文件HFile是什麼,以及是怎麼被生成的、怎麼被刪除的(或者叫生命周期)。其次就不難理解Snapshot為什麼不需要複製業務數據了。
1. HFile是什麼
HBase是一個Key-Value資料庫,其基本數據操作(如PutDelete等)最後都化歸為Key-Value對,存儲在HDFS的一個個文件(HFile)中:

註意上圖綠色的Key欄位中,最後有個1 Byte的Key Type域,即是用來區分Put和Delete的。

另外更需註意的一點是,HBase的Delete操作並不是立即定位到目標數據將其刪除或者做個刪除標記,因為HDFS不支持這種隨機寫。Delete操作也跟Put一樣存儲,只是Key Type域不一樣,以及Value域為空而已。HBase在讀取時,會將擁有Delete操作的數據過濾掉。而具體何時刪除目標數據,則是在對HFile做Compaction時。

2. HFile的兩種生成方式
HFile有兩種生成方式,分別是MemStore Flush和Compaction
    MemStore Flush
    寫操作(Put、Delete等)在WAL(Write-Ahead Log)提交成功後,馬上會寫入對應Region Server的記憶體緩衝區(MemStore)中。在MemStore里這些操作是按key排好序的。當MemStore寫滿時,就會將這些數據寫入到HDFS中成為一個HFile。
    Compaction
    HFile內部的數據是按key排好序的,但HFile之間的數據並不能保證key的順序,也就是說,對於新生成的HFile,其裡面的key值並不都比老的HFile的大。因此每次檢索時,都需要在所有HFile中檢索一次,再將結果合併。雖然HBase針對這個設計了各種加速機制(如Bloom Filter),但HFile文件數目一多還是會比較吃力,因此就需要對HFile做合併操作(Compaction)。Compaction分為minor和major兩種級別,本質上都是從幾個HFile生成合併後的HFile(類似於合併幾個有序數組),然後,老的HFile被刪除,起用合併後的HFile。

3. HFile何時會被刪除
上面提到過的,在完成Compaction後,老的HFile就會被刪除,起用合併後的HFile。

4. Snapshot操作的實現
細心的你是否發現了一個事實,HFile是不會被追加或者修改的!HFile一旦生成,就不會再被改變,只有被拿去合併後,生成了新的HFile,完成自己的使命時才會被刪除。

那如果不刪除呢?
比如說,我今天建了個表開始跑業務,這個表總共生成了10個HFile,第二天又生成一些HFile,並因此觸發了合併操作,現在啟用的HFile里有一些是老的沒被合併的,有一些是新的由合併產生的。如果昨天那10個HFile還在,那我只要讓這個表啟用原來的這10個HFile,不就回滾到昨天的狀態了嘛。依靠的是什麼?就是這10個HFile自從誕生之後就不會被改動,連追加都不會。他們像琥珀一樣,記錄了這個表昨天的所有數據。

因此,建立Snapshot其實就是把當前所有啟用的HFile文件名記錄下來,並提醒系統在Compaction時不要刪除它們。恢復Snapshot就是重新啟用當時的那些HFile。當然這兩句話說得不嚴謹,還有一些細節要處理,比如建Snapshot時要把記憶體里的東西也存下來先。具體是這樣的:
    建立Snapshot
    1,Master與RegionServer同步,讓他們同時進行MemStore flush
    2,記錄MetaData,即當前表有哪些region,每個region使用的HFile是哪些
    3,“標記”HFile以防被刪除
    *建立Snapshot的過程不需要讓表下線。

    恢復Snapshot
    根據Snapshot對應的MetaData恢復各個region,該表需要先下線

5.HBase Shell: Snapshot 操作
想使用snapshot功能,請確認你的hbase-site.xml中的hbase.snapshot.enabled 配置項為true
<property>
  <name>hbase.snapshot.enabled</name>
  <value>true</value>
</property>

5.1表上創建snapshot
hbase(main):003:0> snapshot 'abc','spabc'
(abc為表名字,spabc為快照名字)

5.2查看快照
hbase(main):004:0> list_snapshots

5.3恢復快照
hbase(main):012:0> deleteall 'abc','admin'
(刪除rowkey為admin 的整行)
hbase(main):013:0> scan 'abc'
hbase(main):016:0> disable 'abc'

hbase(main):017:0> restore_snapshot 'spabc'
(spabc為快照名字)
hbase(main):018:0> enable 'abc'

hbase(main):019:0> scan 'abc'
刪除的數據又回來了

5.4刪除快照
hbase(main):001:0> delete_snapshot 'spabc'

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • iDEA啟動後報Error:Abnormal build process terminatio 報錯的原因如下:Error:Abnormal build process termination: "C:\Program Files\Java\jdk1.8.0_121\bin\java" -Xmx70 ...
  • 瞭解IO多路復用,瞭解poll和select存在的問題,深入瞭解epoll如何高效,最後使用epoll實現一個聊天室鞏固學習 ...
  • armv8 1.前言 本文的主要內容來源於ARMV8白皮書v5,對ARMV8做一個概述。包含如下的內容: 首先從背景談起,講述ARM的發展歷程; 之後介紹ARMV8體繫結構的基本特征; 介紹A64指令集 介紹異常級別 介紹記憶體管理單元 介紹編程寄存器 介紹DEBUG相關 ARMV8生態系統的演化 2 ...
  • 問題描述: centos7,偽分佈模式下,啟動datanode後,通過JPS查看發現沒有相關進程,在日誌文件里也沒有任何提示。通過百度,網上一堆說什麼vesion 的ID不一致,不能解決我的問題。 經過搜索,https://community.hortonworks.com/questions/69 ...
  • 系統信息 arch 顯示機器的處理器架構(1) uname -m 顯示機器的處理器架構(2) uname -r 顯示正在使用的內核版本 dmidecode -q 顯示硬體系統部件 - (SMBIOS / DMI) hdparm -i /dev/hda 羅列一個磁碟的架構特性 hdparm -tT / ...
  • 1.安裝DHCP伺服器角色,這樣在netsh下才會有dhcp上下文 2.編寫配置dhcp的腳本 從命令行運行netsh有兩種語法: 比如要獲取已經配置的網路介面列表 1.寫全 其中:-r RemoteComputerName 是指定要操作的遠程主機或本機的電腦名,interface ipv4 是n ...
  • shutdown shutdown 此命令用來安全關閉或重啟Linux系統,系統在關閉之前會通知所有的登錄用戶,系統即將關閉,此時所有新用戶都不可以登錄。 以下截取man手冊的內容(man shutdown): NAME shutdown - bring the system down SYNOPS ...
  • 從mysql資料庫中導出正常資料庫的腳本語句,而後使用腳本語句創建資料庫的過程中,執行語句提示Can't Create Table 'XXX' erro150的錯誤,語句執行中斷,創建table失敗,仔細分析相關語句發現導致此錯誤的原因為創建的外鍵和關聯的表的主鍵類型不匹配。 仔細查看被執行的語句, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...