MySQL事務還沒提交,Canal就能讀到消息了?

来源:https://www.cnblogs.com/CtripDBA/archive/2023/03/28/17265902.html
-Advertisement-
Play Games

##【問題描述】 開發有天碰到一個很奇怪的問題,他的場景是這樣子的: 通過Canal來訂閱MySQL的binlog, 當捕獲到有數據變化時,回到資料庫,反查該數據的明細,然後做進一步處理。 有一次,他碰到一個詭異的現象: 1. Canal收到消息,有一條主鍵id=31019319的數據插入 2. 1 ...


【問題描述】

開發有天碰到一個很奇怪的問題,他的場景是這樣子的:
通過Canal來訂閱MySQL的binlog, 當捕獲到有數據變化時,回到資料庫,反查該數據的明細,然後做進一步處理。
有一次,他碰到一個詭異的現象:

1.  Canal收到消息,有一條主鍵id=31019319的數據插入
2.  11:19:51.081, 應用程式去反查資料庫,11:19:51.084查詢完畢,發現id=31019319的數據為空
3.  過幾分鐘後,開發去手工查資料庫,發現id=31010319的數據是存在的,每次插入的時候,我們會在資料庫記錄插入時間,發現插入的時間是11:19:51.059。

讓開發感到困惑的是11:19:51.059寫入的數據,11:19:51.081去查詢,應該是能查到數據的呀。我們首先排除了讀寫分離,主從分離等場景,Canal訂閱和資料庫查詢都是在Master上,所以這個問題就變得非常詭異了。

【問題分析】

因為中間夾雜著Canal, 而Canal是通過binlog讀取的,這個問題我們可以簡化為:當我們在master插入一條數據,該數據在master還沒落庫,但是在Slave卻能查到。我們嘗試重現這種場景。因為我們是採用GTID模式,GTID也就是全局事務編號,我們通過跟蹤GTID來調試問題。

我們創建一個測試表如下:

CREATE TABLE `gtid_debug` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(10) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

此時,在Master和Slave上,分別收集到的GTID信息如下:

角色 @@global_gtid_executed @@port
Master be7945f1-3613-11ec-8353-98039ba5775a:1-16 3306
Slave be7945f1-3613-11ec-8353-98039ba5775a:1-16 3307

我們在Master上開啟gdb調試,在函數ReplSemiSyncMaster::commitTrx上設置斷點。

步驟1:

在Master上,開啟Session1, 插入一條數據:

insert into gtid_debug(name)values('test1'); 

此時會hit到斷點。

步驟2:

在Slave上,開啟Session2, 查看GTID:

角色 @@global_gtid_executed @@port
Slave be7945f1-3613-11ec-8353-98039ba5775a:1-17 3307

也就是說,事務在Slave上,開始走字了。
我們進行如下查詢:可以看到,在Slave這條記錄能被查詢到。

slave>select * from test.gtid_debug;
| ID   | NAME  |
| ---- | ----- |
| 1    | test1 |

步驟3:

在Master上,我們開啟Session3, 查看GTID, 這個session也會被斷點中斷,我們繼續執行下一步,直到查詢結果返回。註意,此時Session1還停留在斷點上,未提交成功。

角色 @@global_gtid_executed @@port
Master be7945f1-3613-11ec-8353-98039ba5775a:1-16 3306

併進行如下查詢,返回結果為空:

master>select * from test.gtid_debug;
Empty set 

所以我們重現了問題,也就是說,在Master插入數據,事務還沒有提交,但在Slave就能查到了。 Slave跑的比Master還快。

【原因分析】

重現了問題後,我們對問題進行分析,並查看了相應代碼,發現是半同步複製的模式導致,半同步複製有兩種模式: After_Sync(5.7版本預設)模式和After_Commit(5.6版本預設)模式。我們線上的版本是5.7,所以採用的是After_Sync模式。

從上圖可以看到,一個事務在半同步模式下提交,無論是after_sync還是after_commit,都要經歷4個階段:

1. InnoDB Redo File Prepare Write
2. Binlog File Flush & Sync
3. InnoDB Redo File Commit (同時釋放事務持有的鎖)
4. Send binlog to Slave

After_Commit模式的四個階段順序為: 1->2->3->4, 而after_sync模式的順序為1->2->4->3.

在5.7預設的after_sync模式下,確實存在先發送binlog到Slave, 然後再進行事務提交的場景。這時候大家會問了,為啥5.7把半同步複製改為after_sync模式了?這主要是因為after_commit機制存在數據丟失的風險。我們可以設想一下,在3->4的T1時間段,新數據對其它Session已經可見,突然Master掛了,MySQL進行主從切換,這時事務在Master上完成,如在Slave上不存在,切換後,業務會發現之前能查到的數據又沒了。

而在after_sync模式下,其執行的順序為1->2->4->3. 也就是說Master在收到Slave的應答之後,才Commit事務。在3->4的T1時間段內,因事務還未Commit,新數據對其它Session還不可見,所以看上去像比Slave跑的更慢。具體可以參考網上關於這兩種模式的討論。

【解決建議】

我們分析清楚問題之後,解決的方法就比較簡單了。不建議改為after_commit模式,雖然改為after_commit模式,可以保證事務在Master落地後,Canal才會讀到消息,但存在主從切換事務丟失的風險。我們的解決方法,是在Canal消息處理時,延後1秒再處理。這樣解決方法比較合理。因為一般來講,業務對消息的實時性不是特別高。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:背景 1. 講故事 前段時間收到了一個朋友的求助,說他的ERP網站系統會出現偶發性崩潰,找了好久也沒找到是什麼原因,讓我幫忙看下,其實崩潰好說,用 procdump 自動抓一個就好,拿到 dump 之後,接下來就是一頓分析了。 二:WinDbg 分析 1. 是什麼導致的崩潰 windbg 有一個 ...
  • 操作系統 移動端 安卓 iOS 鴻蒙 其他工業系統 桌面端 Windows MaciOS Unix Linux 伺服器 Unix Linux 購買主機 阿裡雲 騰訊雲 華為雲 其他雲平臺 虛擬機 宿主主機 物理硬體 CPU 記憶體 硬碟 操作系統 Mac Windows 虛擬機 Virtual Box ...
  • 一·依賴包以及下載地址 本文使用到的離線包: apr-1.7.0.tar.gz apr-util-1.6.1.tar.gz pcre2-10.40.tar.gz expat-2.1.0-14.el7_9.x86_64.rpm expat-devel-2.1.0-14.el7_9.x86_64.rpm ...
  • SFTP 常用命令 通過堡壘機進入的 Linux 操作系統,無法直接使用 WinSCP 等工具進行文件的上傳下載。 可使用 SecureCRT 先進入命令行模式 ...
  • 1. 概述 1.1. SQL-92標準裡加入的最有用的特性 1.2. 寫法 1.2.1. 簡單CASE表達式 CASE sex WHEN '1' THEN ’男’ WHEN '2' THEN ’女’ ELSE ’其他’ END 1.2.1.1. 寫法簡單,但能實現的事情比較有限 1.2.2. 搜索C ...
  • 背景 早上收到某系統的告警tidb節點掛掉無法訪問,情況十萬火急。登錄中控機查了一下display信息,4個TiDB、Prometheus、Grafana全掛了,某台機器hang死無法連接,經過快速重啟後集群恢復,經排查後是昨天上線的某個SQL導致頻繁OOM。 於是開始亡羊補牢,來一波近期慢SQL巡 ...
  • 超詳細【入門精講】數據倉庫原理&實戰 一步一步搭建數據倉庫 內附相應實驗代碼和鏡像數據和腳本,參考B站up主哈嘍鵬程視頻撰寫而成,感謝!!! ...
  • 存儲引擎 一. MySQL體繫結構 MySQL Server 連接層:連接的處理、認證授權、安全方案、檢查是否超過最大連接數等。 服務層:SQL介面、解析器、查詢優化器、緩存 引擎層:引擎是數據存儲和提取的方式,引擎層有許多引擎可供使用,也可以自定義引擎。索引是在存儲引擎層實現的。 存儲層:存儲數據 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...