CloudCanal對Online DDL 工具 GH-OST 和 PT-OSC 的支持

来源:https://www.cnblogs.com/clougence/archive/2022/12/30/17014270.html
-Advertisement-
Play Games

簡介 CloudCanal 實現了對 Online DDL 工具如 GH-OST 和 PT-OSC 的支持,保證了對端實時同步源端的 Online DDL 操作。 本文以 MySQL -> MySQL 同步鏈路使用 GH-OST 為例,介紹 CloudCanal 是如何支持實時同步 GH-OST 產 ...


簡介

CloudCanal 實現了對 Online DDL 工具如 GH-OST 和 PT-OSC 的支持,保證了對端實時同步源端的 Online DDL 操作。

本文以 MySQL -> MySQL 同步鏈路使用 GH-OST 為例,介紹 CloudCanal 是如何支持實時同步 GH-OST 產生的 DDL 的。

Online DDL 技術背景

市面上常用的兩款MySQL Online DDL 工具分別是 GH-OST 和 PT-OSC,CloudCanal 對他們都做了相容處理使得用戶可以實時同步 Online DDL 工具產生的 DDL 。下麵簡單介紹下他們的工作流程,以便於讀者理解後續章節的內容。

Online DDL 工具 PT-OSC 原理

PT-OSC 是較為常用的 Online DDL 工具,通過觸發器來同步增量數據,相較於 MySQL 原生的 Online DDL 性能得到了極大的提高,原理如下:

  • 對源表進行檢查
  • 創建一個與源表(origin)結構一致的空表,命名為 _origin_new
  • 根據alter參數修改新表的表結構
  • 在源表中創建三個觸發器:Delete / Update / Insert,將源表中的增刪改語句同步執行到新表中,同時將源表中的數據以數據塊的形式 copy 到新表
  • 將源表(origin)rename為 _origin_old,將 _origin_new rename 為 origin,然後刪除舊表(可選)
  • 刪除觸發器

總結:PT-OSC 是通過創建臨時表,並用觸發器將增量數據同步到新表,通過當前讀和事務來實現增量與全量的有序,不會阻塞讀寫操作,但運行過程中出現異常,無法從上一個位置繼續進行,需要從頭開始。

Online DDL 工具 GH-OST 原理

GH-OST 也是一款常用的 Online DDL 工具,採用讀取 binlog 日誌的方式來同步增量數據,原理如下:

  • 對源表(origin)進行檢查
  • 在主/從節點中添加binlog日誌監聽
  • 創建日誌記錄表(_origin_ghc)和與源表結構一致的影子表(_origin_gho)
  • 根據alter參數修改影子表的表結構
  • 全量拷貝源表數據同時拷貝源表增量數據到影子表中,並記錄日誌到日誌記錄表中
  • 刪除日誌記錄表,將源表改名為 _origin_del, 將影子表改名為 origin,_origin_del 可選刪除

總結: GH-OST 的性能與 PT-OSC 相近,相較於PT-OSC 的優點就在於其是不使用觸發器的,只非同步讀取二進位日誌,因此修改表定義的負載和正常的業務負載解耦開了,它不需要考慮被修改的表上的併發操作和競爭等,並且相較於 PT-OSC 的中斷從頭開始,GH-OST 可以從心跳日誌中恢復到指定位置。

CloudCanal 技術點

前文中對 Online DDL 工具的原理中我們知道,無論採用哪種 Online DDL 工具,源端都會產生一些臨時表的創建和數據寫入,如果不做任何相容處理,這會影響正常的遷移同步鏈路。

因此為了支持 GH-OST 和 PT-OSC 工具的使用,CloudCanal 在 MySQL 源端做了大量優化,完美的適配並優化了 GH-OST 和 PT-OSC 的 Online DDL 能力

同步臨時表數據

GH-OST 和 PT-OSC 工具都有一個共同的特點,其原理都是採用臨時表的方式來保證 DDL 與 DML 的併發操作。

CloudCanal 預設的表訂閱模式是只訂閱原表,不訂閱與原表相關的臨時表(訂閱表即同步該表的 DDL 與 DML 語句),而 CloudCanal 為了滿足對 Online DDL 工具的支持,在源數據端配置上新增了 extraDDL 參數來實現對臨時表的訂閱。

  • extraDDL參數
    • 可選參數:NONE / GHOST / PT
    • 作用:選擇 NONE 則不訂閱任何臨時表,選擇 GHOST / PT 則訂閱相應的預設臨時表

CloudCanal 針對臨時表訂閱採用的是兩種模式:自動訂閱臨時表模式和自動同步元數據模式

  • 自動訂閱臨時表:CloudCanal 會自動根據 extraDDL 參數將預設的臨時表加入到訂閱表集合中,隨後讀取binlog日誌時將不會過濾掉臨時表的所有變更事件,保證了對端數據源表結構與數據的最終一致性
  • 自動同步元數據:CloudCanal 會自動過濾臨時表,在讀取binlog日誌時不會執行 Online DDL 的操作,在 Online DDL 執行完畢後發送最新的表結構,期間的 DML 語句也會同步發送到對端,保證對端數據源表結構與數據的最終一致性

由於各數據源對同步數據的消費並不相同,如消息隊列只需要解析 Online DDL 後的表結構即可,無需訂閱臨時表,因此我們需要根據對端數據源的消費模式做出不同的處理。

DDL 解析與轉換

不同數據源的 DDL 語句會有所差異,CloudCanal 對不同數據源 DDL 語句的解析和轉換做了大量的優化。

  1. 解析:將 DDL 語句解析為操作類型,如 CREATE ,DROP,ALTER 等
  2. 拆分過濾:若 DDL 語句不為單條操作,則拆分為多條 DDL 語句,根據訂閱表集合和binlog位點記錄過濾重覆執行的 DDL 語句與去除無需同步的語句後,重新合成新的 DDL 語句
  3. 轉換:將過濾好的 DDL 語句轉換為對端數據源的方言

下圖演示了CloudCanal對DDL語句的一些處理:

容錯機制

當 CloudCanal 在同步 Online DDL 時,任務有可能在兩個層面上被中斷:Online DDL 工具層面和 CloudCanal任務層面

  • Online DDL 工具中斷:由於 PT-OSC 和 GH-OST 的原理不同,Online DDL 過程中斷的恢復方案也有所不同

    • PT-OSC:Online DDL 過程中出現異常中斷,重新執行 Online DDL 操作會丟棄之前的所有操作,從頭開始再次執行
    • GH-OST:Online DDL 過程中出現異常中斷,重新執行 Online DDL 操作會讀取ghc日誌心跳錶,從日誌中的未完成位點開始繼續執行。在此過程中,CloudCanal只需讀取binlog日誌,照常執行 Online DDL 的所有操作即可保證數據的最終一致性
  • CloudCanal任務中斷:由於 CloudCanal 良好的非同步消費特性,CloudCanal的任務中斷與 Online DDL 的執行並不相關。當 CloudCanal 任務中斷後,重啟任務會根據位點記錄繼續執行binlog日誌中的事件,保證了數據的最終一致性。

使用示例

前置條件

CREATE TABLE `ghost_test`.`abc` (
  `id` int NOT NULL,
  `name` varchar(30) DEFAULT NULL,
  `cdata` datetime DEFAULT NULL,
  `udata` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3;
  • 登錄 CloudCanal 平臺 ,添加源端與目標端數據源

任務創建

  • 任務管理 -> 任務創建。
  • 測試連接並選擇 目標 資料庫。
  • 選擇增量同步任務和需要訂閱的表與欄位,並創建任務
  • 增量任務中,功能列表 -> 參數修改 -> 源數據源配置 -> 參數 extraDDL 設置為 GHOST

創建並且啟動任務,當任務正常執行到增量階段時,此時我們可以利用數據生成工具和Online DDL工具對源端資料庫觸發一些增量DML變更和DDL變更,然後查看CloudCanal是否能正常實時同步這些DML和DDL事件。

使用 Online DDL 工具修改表結構

  • 首先使用數據生成工具實時隨機生成數據,增刪改比例為(4:4:3)

  • 在大量寫入數據的同時,使用 GH-OST 工具執行 DDL 語句:ALTER TABLE ADD COLUMN aaa VARCHAR(30) NOT NULL AFTER id。在我們的測試例子中,有 DML 語句的同時使用 GH-OST 執行 DDL 語句,源端總計寫入14147 條數據和1條DDL。
[root@zjx local] ./gh-ost --debug --user="{資料庫用戶名}" --password="{資料庫密碼}" --host="{資料庫主機IP}" --port="{資料庫埠號}" --database="ghost_test" --table="abc" --initially-drop-ghost-table --initially-drop-old-table --allow-on-master --alter="ADD COLUMN aaa varchar(30) NOT NULL AFTER id" --execute

確認同步結果

CloudCanal會自動完成源端實時DML和DDL事件的同步,在執行完源端事件寫入之後,我們確認下同步結果。

  • 更改後的源對端 表結構一致


  • 源對端進行數據校驗 數據一致

總結:由上可知,在 CloudCanal 中使用 GH-OST 工具執行 Online DDL 指令,源表完成表結構修改後,CloudCanal 將源表的表結構成功同步到了目標端數據表中。

常見問題

CloudCanal 支持的同步鏈路

目前 CloudCanal 支持使用 Online DDL 工具的鏈路為:

  • MySQL -> MySQL
  • MySQL -> PostgreSQL
  • MySQL -> Greenplum
  • MySQL -> Kafka
  • MySQL -> RocketMQ
  • MySQL -> RabbitMQ

不支持同步的 DDL 語句

使用 Online DDL 工具執行的 DDL 語句中不支持 RENAME 原表與臨時表的操作,如上述用例中,ALTER 語句若改為 RENAME TABLE ghost_test.abc TO ghost_test.ccc,那麼 Online DDL 工具後續的 RENAME TABLE ghost_test.abc TO ghost_test._abc_del, ghost_test._abc_gho TO ghost_test.abc 操作就會失敗,致使 Online DDL 操作失敗。

總結

本文主要介紹了 Online DDL 工具的使用並展示了 CloudCanal 對 Online DDL 工具的實時同步能力,得益於 GH-OST、PT-OSC 優秀的表結構修改性能和 CloudCanal 強大的同步能力,基本能滿足企業在日常執行 DDL 的業務中,數據表的 DML 執行和數據同步性能要求


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • IHostedService和BackgroundService 前言 平時寫代碼的時候,大家多多少少都會遇到定時任務的要求,今天介紹兩種定時任務的寫法,嚴格來說其實是一種。 相對來說比較粗糙,請多多指教。 方法一 IHostedService 簡介 ######## IHostedService ...
  • 擴展方法名:Filter 支持參數:實體類、JObject 擴展代碼: //白色風車 public static class EntityFrameworkCoreExtensions { private static DbCommand CreateCommand(DatabaseFacade f ...
  • 主題 1 The Shell 課程概覽與 shell · the missing semester of your cs education (missing-semester-cn.github.io) Shell是什麼? 一旦你想脫離可視化界面讓你做的,然後做點別的事情,那麼Shell將是你和計 ...
  • -- 題圖:蘇州天平山楓葉 現在是 2022 年末,痞子衡又要起筆博文年終總結了,看著 2020 年之前的博文總結缺失,始終覺得缺憾,所以寫下此篇 2016 - 2019 總結合輯。2016 年之前,痞子衡也發表過一些文章,不過沒有持續性,那時候更多是以個人筆記形式留在硬碟里。2016 年是痞子衡正 ...
  • Shell變數 變數是任何一種編程語言都必不可少的組成部分,變數用來存放各種數據。腳本語言在定義變數時通常不需要指明類型,直接賦值就可以,Shell 變數也遵循這個規則。 在 Bash shell 中,每一個變數的值都是字元串,無論你給變數賦值時有沒有使用引號,值都會以字元串的形式存儲。 這意味著, ...
  • 參考資料:RabbitMQ tutorial - "Hello world!" — RabbitMQ 前言 RabbitMQ是一個中間人,它接受和轉發消息。我們可以把它想象成一個郵局:當你把郵件投入郵箱的時候,你可以確信它最終會被投遞到收件人的手中。RabbitMQ就是那個郵箱、郵局和郵差。區別就在 ...
  • 一:背景 1.講故事 最近給一位朋友做 SQL 慢語句 優化,花了些時間調優,遺憾的是 SQLSERVER 非源碼公開,玩起來不是那麼順利,不過從這次經歷中我覺得明年的一個重大任務就是好好研究一下它,爭取在 SQLSERVER 性能優化上做一些成績,哈哈! 個人覺得要想深入研究 SQLSERVER, ...
  • 摘要:MRS IoTDB,它是華為FusionInsight MRS大數據套件中的時序資料庫產品,在深度參與Apache IoTDB社區開源版的基礎上推出的高性能企業級時序資料庫產品。 本文分享自華為雲社區《工業數據分析為什麼要用FusionInsight MRS IoTDB?》,作者:高深廣 。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...