好用的數據校驗&修複工具gt-checksum開源啦

来源:https://www.cnblogs.com/greatsql/archive/2023/03/06/17182674.html
-Advertisement-
Play Games

GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。 作者: GreatSQL社區 文章來源:GreatSQL社區原創 背景介紹 功能特性 gt-checksum使用 3.1 標準使用案例 3.2 直接在命 ...


  • GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。
  • GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。
  • 作者: GreatSQL社區
  • 文章來源:GreatSQL社區原創

    1. 背景介紹
    1. 功能特性
    1. gt-checksum使用
    • 3.1 標準使用案例
    • 3.2 直接在命令行模式下使用
    • 3.3 使用極簡配置文件案例
    1. 項目信息
    1. 開源發佈會

不用說,看名字也知道,gt-checksum工具是數據校驗工具。

沒錯,gt-checksum 是GreatSQL社區新增的成員,它是 一款靜態資料庫校驗修複工具,支持MySQL、Oracle等主流資料庫,採用Go語言開發,今天正式開源。

1. 背景介紹

作為MySQL DBA,相信應該都聽說過Percona出品的 pt-table-checksum & pt-table-sync 工具(沒聽說過的絕對不是合格的MySQL DBA,嘿嘿),可以用它倆進行數據校驗及修複工作,非常好用。

不過,在MySQL MGR架構中,或者是當下常見的上雲、下雲業務中,以及MySQL、Oracle間的異構數據等多種場景中,pt工具並不支持。針對這些需求痛點,我們結合平時遇到的客戶需求,開發了 gt-checksum 數據校驗&修複工具,並貢獻給GreatSQL社區,進行開源,繼續促進業內開源生態健康發展。

gt-checksum工具支持以下幾種常見業務需求場景:

  1. MySQL主從複製:主從複製中斷後較長時間才發現,且主從間差異的數據量太多,這時候通常基本上只能重建複製從庫,如果利用 pt-table-checksum 先校驗主從數據一致性後 ,再利用 pt-table-sync 工具修複差異數據,這個過程要特別久,時間代價太大。
  2. MySQL MGR組複製:MySQL MGR因故崩潰整個集群報錯退出,或某個節點異常退出,在恢復MGR集群時一般要面臨著先檢查各節點間數據一致性的需求,這時通常為了省事會選 擇其中一個節點作為主節點,其餘從節點直接複製數據重建,這個過程要特別久,時間代價大。
  3. 上雲下雲業務場景:目前上雲下雲的業務需求很多,在這個過程中要進行大量的數據遷移及校驗工作,如果出現字元集改變導致特殊數據出現亂碼或其他的情況,如果數據遷 移工具在遷移過程中出現bug或者數據異常而又遷移成功,此時都需要在遷移結束後進行一次數據校驗才放心。
  4. 異構遷移場景:有時我們會遇到異構數據遷移場景,例如從Oracle遷移到MySQL,通常存在字元集不同,以及數據類型不同等情況,也需要在遷移結束後進行一次數據校驗才 放心。
  5. 定期校驗場景:作為DBA在維護高可用架構中為了保證主節點出現異常後能夠快速放心切換,就需要保證各節點間的數據一致性,需要定期執行數據校驗工作。

以上這些場景,都可以利用 gt-chcksum 工具來滿足。

2. 功能特性

在正式開源之前,gt-checksum 工具已經在內部經過了十數個版本迭代,可以滿足絕大多數場景下的數據校驗&修複需求,尤其是MySQL、Oracle間的異構資料庫場景。

gt-checksum 工具主要功能特性有:

  • 支持主從複製、MGR以及MySQL、Oracle間的數據校驗&修複;
  • 資料庫名、表名設置支持多種正則表達式
  • 支持多種字元集
  • 支持設置表名大小寫敏感
  • 支持多種數據校驗模式,數據、表結構、索引、分區、外鍵、存儲過程等
  • 支持多種數據校驗方式,全量校驗,抽樣校驗和行數校驗
  • 支持多種數據修複模式,校驗完畢後直接修複或是生成修複SQL文件再自行手動處理
  • 支持校驗無索引表
  • 支持併發多線程校驗
  • 更好支持大表數據校驗,效率更高,且基本不會發生OOM等問題

3. gt-checksum使用

3.1 標準使用案例

指定配置文件,開始執行數據校驗,示例:

shell> gt-checksum -f ./gc.conf
-- gt-checksum init configuration files --
-- gt-checksum init log files --
-- gt-checksum init check parameter --
-- gt-checksum init check table name --
-- gt-checksum init check table column --
-- gt-checksum init check table index column --
-- gt-checksum init source and dest transaction snapshoot conn pool --
-- gt-checksum init cehck table query plan and check data --
begin checkSum index table db1.t1
[████████████████████████████████████████████████████]113%  task:     678/600
table db1.t1 checksum complete

** gt-checksum Overview of results **
Check time:  73.81s (Seconds)
Schema  Table                   IndexCol                                checkMod        Rows            Differences     Datafix
db1     t1                      ol_w_id,ol_d_id,ol_o_id,ol_number       rows            5995934,5995918 yes             file

3.2 直接在命令行模式下使用

設定只校驗db1庫下的所有表,不校驗test庫下的所有表,並設置沒有索引的表也要校驗

shell> gt-checksum -S type=mysql,user=root,passwd=abc123,host=172.16.0.1,port=3306,charset=utf8 -D type=mysql,user=root,passwd=abc123,host=172.16.0.2,port=3306,char
set=utf8 -t db1.* -it test.* -nit yes

3.3 使用極簡配置文件案例

gt-checksum還支持極簡配置文件模式,最少只需要配置三個參數,即可完成數據校驗,例如:

shell> cat gc.conf-simple
[DSNs]
srcDSN = mysql|pcms:abc123@tcp(172.17.16.1:3306)/information_schema?charset=utf8
dstDSN = mysql|pcms:abc123@tcp(172.17.16.2:3306)/information_schema?charset=utf8

[Schema]
tables = db1.t1

shell> gt-checksum -f ./gc.conf-simple
...

註意

  1. 極簡配置文件名必須是 gc.conf-simple
  2. 配置文件中僅需指定源和目標端的DSN,以及要校驗的表名即可。

更多使用場景和案例歡迎大家一起來解鎖。

4. 項目信息

gt-checksum代碼已上傳到 gitee 上,項目地址 https://gitee.com/GreatSQL/gt-checksum,歡迎圍觀、加星,也歡迎來“找茬”,提patch/issue。

5. gt-checksum正式開源發佈會

gt-checksum開源發佈會將在 03月06日 19:00-22:30 舉辦

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 為啥要關閉自動更新 配置差點的電腦,更新要幾十分鐘,十分影響工作 有BUG的補丁,會讓工作宕機,就10月份微軟發佈的補丁,更新後,共用印表機就不能用了,卸載後,還會自動更新上去,一氣之下關閉了更新功能 關閉更新 服務禁用 WIn+R調出運行 輸入 services.msc 或 此電腦右鍵--管理-- ...
  • 所需工具 x86 DOS 模擬器:dosbox DOS 上運行調試工具:DEBUG.EXE 彙編器(鏈接器):DOS 上運行的 MASM.EXE、LINK.EXE 或者直接使用 MacOs 自帶的 nasm exe 下載地址:鏈接: https://pan.baidu.com/s/1Lf7O9R ...
  • 最近在弄一個報表,要求每行的最後一列欄位顯示餘額金額,就是上一行餘額金額加上當前行的餘額 一開始我都是在程式裡面處理,這次需要用Sql寫出來,一下犯難了。 同事介紹到有個視窗函數可以實現,我用了好多年的SqlServer,都不知有這個東西。 記錄一下,免得以後忘記了 以這個表為例子 --不分組統計 ...
  • 什麼是數據漂移? 數據漂移是 ODS 數據的一個頑疾,通常指 ODS 表的同一個業務日期數據中包含前一天或後一天凌晨附近的數據或者丟失當天的變更數據。 實際場景 公司主營互聯網金融業務,因此有了一張數據量龐大的申請人信息記錄表。這張表裡的時間欄位非常多,因為整個業務場景涉及到好幾段流程: 客戶提交申 ...
  • 一、安裝datax 通過https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz這個地址下載datax.tar.gz,解壓到某個目錄,如我的目錄/opt/conf/datax-20230301,解壓完後會在當前 ...
  • 1、背景 數據開發、數據倉庫工作和業務系統開發工作很大的一個不同是,業務系統功能開發一旦完成並通過測試,一般就可以比較穩定地長期運行,因為它的輸入是相對穩定的。但是數據倉庫開發加工的數據模型、數據指標和分析結論,卻很難保持穩定。因為輸入數據每天都在源源不斷產生,很難保證數據沒有大的波動,而輸入的不穩 ...
  • 預告: 《MySQL實戰》即將出版,敬請關註! 有過線上 MySQL 維護經驗的童鞋都知道,主從延遲往往是一個讓人頭疼不已的問題。 不僅僅是其造成的潛在問題比較嚴重,而且主從延遲原因的定位尤其考量 DBA 的綜合能力:既要熟悉複製的內部原理,又能解讀主機層面的資源使用情況,甚至還要會分析 binlo ...
  • 摘要:本文簡單介紹sequence的使用場景及如何修改sequence的cache值提高性能。 本文分享自華為雲社區《GaussDB(DWS)關於sequence的那些事》,作者:Arrow0lf 。 什麼是sequence sequence,也稱作序列,是用來產生唯一整數的資料庫對象。序列的值按照 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...