五分鐘掌握CloudCanal的數據校驗與數據訂正

来源:https://www.cnblogs.com/clougence/archive/2022/11/14/16889412.html
-Advertisement-
Play Games

簡述 CloudCanal除了提供最核心的數據遷移和同步能力以外,還提供數據校驗和數據訂正兩種非常實用的能力。這兩種功能為用戶保障數據遷移同步鏈路的數據質量提供了非常大的便利性。例如對端資料庫因為各種原因產生一些異常寫入導致的數據不一致或者丟失,用戶均可以使用CloudCanal提供的數據校驗和數據 ...


簡述

CloudCanal除了提供最核心的數據遷移和同步能力以外,還提供數據校驗和數據訂正兩種非常實用的能力。這兩種功能為用戶保障數據遷移同步鏈路的數據質量提供了非常大的便利性。例如對端資料庫因為各種原因產生一些異常寫入導致的數據不一致或者丟失,用戶均可以使用CloudCanal提供的數據校驗和數據訂正能力來基於同步鏈路的源端數據來恢複數據,使得對端資料庫中相比源端丟失或者不一致的數據得到恢復。

技術點

基於校驗結果的針對性訂正

執行完CloudCanal的校驗任務後,在運行任務的機器上會生成一個文件compre_rs.log用於記錄校驗的結果信息。日誌路徑為~/logs/cloudcanal/tasks/${taskName}/compare_rs.log,其格式如下:

{庫表名稱,結果類型,主鍵信息}

{"tableUnit":"test15.test_huasheng1","type":"DIFF","pkColMap":{"id":"9"}}
{"tableUnit":"test15.test_huasheng1","type":"LOSS","pkColMap":{"id":"12"}}

結果類型分為兩種:

  • DIFF:對端相比源端不一致的行,例如上面例子中,源端主鍵id=9的行和對端存在不一致。
  • LOSS:在源端表中存在,但是在對端表中不存在的行。上面例子中源端主鍵id=12的行,在對端不存在

主鍵信息記錄的是源端的,支持聯合主鍵。

為了性能考慮,這裡DIFF時不展示具體哪一列的數據不一致。如果需要查看這個信息,這個數據信息記錄在~/logs/cloudcanal/tasks/${taskName}/diff.log中

利用資料庫的upsert能力進行訂正

針對支持upsert語義寫入的數據源作為對端時,CloudCanal的訂正可以正常工作。CloudCanal根據校驗結果去源端反查數據後寫入對端,如果對端不存在該主鍵的行,則直接INSERT寫入,如果存在則自動轉換為UPDATE進行更新。

使用in multi column處理聯合主鍵的情況

針對實現SQL標準中in multi column語法的資料庫作為源端時,CloudCanal支持對其進行數據訂正。CloudCanal根據主鍵掃描源端表時,如遇聯合主鍵的場景,會根據in multi column的語法來掃描源端的數據。不支持in multi column SQL語法的數據源CloudCanal不支持訂正其數據。in multi column語法的使用例子可以參考如下:

-- works in PostgreSQL, Oracle, MySQL, DB2, HSQLDB
SELECT whatever
FROM t                               --- you missed the FROM
WHERE (col1, col2)                    --- parentheses here
       IN ((val1a, val2a), (val1b, val2b), ...) ;

使用須知

  • 以下源端、對端之間支持創建訂正任務:
    • 源端:Oracle、PostgreSQL、MySQL、OceanBase、PolarDBMySQL
    • 對端: MySQL、PolarDBMySQL、Oracle、PostgreSQL、OceanBase
  • 支持該特性的CloudCanal版本:v2.2.6.8(商業版)
  • 訂正是以源端數據為準:校驗結果中會記錄對端相比源端缺失、不一致的行的源端主鍵信息。訂正則會基於該源端主鍵進行訂正。假設對端多出了一些源端不存在的主鍵,在訂正的時候CloudCanal是不會去刪除這些行的請知悉。
  • 基於校驗結果的訂正依賴校驗任務的校驗結果文件,因此當關聯的校驗任務在不同機器上執行過的話,則無法基於該校驗任務創建訂正任務。在校驗任務詳情,點擊功能列表->重啟歷史記錄 可以查看校驗任務是否在多台機器上運行過。
    image.png

操作說明

前置條件

  • 登入 CloudCanal SaaS版或者申請CloudCanal商業版試用,使用參見快速上手文檔
  • 準備兩個支持數據訂正的資料庫,一個作為源端,一個作為對端。本次例子採用的源對端數據源類型為阿裡雲的PolarDBMySQL

校驗訂正的基本流程

使用CloudCanal的校驗訂正能力恢復異常數據的典型流程如下圖所示。

image.png

數據校驗

  • 在任務管理頁點擊創建任務,進入創建任務的第一步,配置源對端的資料庫並且選擇需要訂閱的庫。

image.png

  • 選擇任務類型為校驗,開啟一次性校驗,設置自動啟動。

image.png

  • 選擇需要進行校驗的表。

image.png

  • 選擇需要進行校驗的列,支持映射和裁剪。裁剪的列將不參與校驗。

image.png

  • 確認任務整體配置情況,無誤後點擊創建

image.png

  • 校驗完成後可以查看具體每張表相比源端缺失或者不一致的數據。

image.png

數據訂正

  • 校驗任務的詳情頁,點擊功能列表中的創建訂正任務可以直接基於該次校驗的結果,創建對應表的訂正任務。

image.png

  • 訂正任務的源對端信息和訂閱的庫信息與之前的校驗任務保持一致,此處源對端測試連接成功後可直接點擊下一步。

image.png

  • 規格與校驗任務保持一致,可以直接下一步

image.png

  • 訂閱信息僅供確認,無法修改,與校驗任務保持一致,直接點擊下一步

image.png

  • 確認列的映射、裁剪信息,無法修改,與校驗任務保持一致,直接點擊下一步

image.png

  • 確認訂正任務的配置無誤後點擊創建任務

image.png

  • 校驗完成後可以看到具體訂正的統計信息

image.png

總結

本文介紹瞭如何利用CloudCanal的校驗訂正能力來快速恢複數據,如果對您有幫助的話,歡迎點贊轉發。如果想體驗CloudCanal,可以訪問ClouGence官方網站


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 摘要 C/S端軟體,左側導航菜單+右側頁面切換的佈局很常見。 這篇文章介紹下使用ContentControl控制項和TabControl控制項如何實現基礎的頁面切換。 一、使用ContentControl實現頁面切換 頁面使用UserControl來實現。 基於MVVM框架的思想,利用數據綁定機制,將控 ...
  • 一、基本概念 線程安全(thread safe):指的是被任意多的線程同時執行,都可以保證正確性。 除基本類型外,很少有類型是線程安全的,線程安全的責任基本落在開發者身上,System.Collections.Concurrent命名空間下的類型的除外。 線程安全最常見的手段一般是使用【排它鎖】,將 ...
  • 一、概念 《Threading in C# 》(Joseph Albahari):https://www.albahari.com/threading/ 《Threading in C# 》中文翻譯(GKarch ):https://blog.gkarch.com/topic/threading.h ...
  • 核心思路是使用Region的求交集和並集的結果與原始Region對比 Winform項目自帶這個類庫,如果使用控制台,需要先在nuget安裝System.Drawing.Common /// <summary> /// 計算兩個形狀的關係 /// </summary> /// <param name ...
  • 前言 字元設備是Linux驅動中三大設備之一,字元(char)設備是個能夠像位元組流(類似文件)一樣被訪問的設備,由字元設備驅動程式來實現這種特性。字元設備驅動程式通常至少要實現open、close、read和write的系統調用。字元終端(/dev/console)和串口(/dev/ttyS0以及類 ...
  • 一、Installing RabbitMQ-3.10.2 on CentOS 7.9 1 地址 https://www.rabbitmq.com https://github.com/rabbitmq/rabbitmq-server https://github.com/rabbitmq/rabbi ...
  • ElasticSearch 常見問題 丈夫有淚不輕彈,只因未到傷心處。 1、說說 es 的一些調優手段。 僅索引層面調優手段: 1.1、設計階段調優 (1)根據業務增量需求,採取基於日期模板創建索引,通過 roll over API 滾動索引; (2)使用別名進行索引管理; (3)每天凌晨定時對索引 ...
  • 首發微信公眾號:SQL資料庫運維 原文鏈接:https://mp.weixin.qq.com/s?__biz=MzI1NTQyNzg3MQ==&mid=2247485212&idx=1&sn=450e9e94fa709b5eeff0de371c62072b&chksm=ea37536cdd40da7 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...