MySQL事務還沒提交,Canal就能讀到消息了?

来源:https://www.cnblogs.com/CtripDBA/archive/2023/03/28/17265902.html
-Advertisement-
Play Games

##【問題描述】 開發有天碰到一個很奇怪的問題,他的場景是這樣子的: 通過Canal來訂閱MySQL的binlog, 當捕獲到有數據變化時,回到資料庫,反查該數據的明細,然後做進一步處理。 有一次,他碰到一個詭異的現象: 1. Canal收到消息,有一條主鍵id=31019319的數據插入 2. 1 ...


【問題描述】

開發有天碰到一個很奇怪的問題,他的場景是這樣子的:
通過Canal來訂閱MySQL的binlog, 當捕獲到有數據變化時,回到資料庫,反查該數據的明細,然後做進一步處理。
有一次,他碰到一個詭異的現象:

1.  Canal收到消息,有一條主鍵id=31019319的數據插入
2.  11:19:51.081, 應用程式去反查資料庫,11:19:51.084查詢完畢,發現id=31019319的數據為空
3.  過幾分鐘後,開發去手工查資料庫,發現id=31010319的數據是存在的,每次插入的時候,我們會在資料庫記錄插入時間,發現插入的時間是11:19:51.059。

讓開發感到困惑的是11:19:51.059寫入的數據,11:19:51.081去查詢,應該是能查到數據的呀。我們首先排除了讀寫分離,主從分離等場景,Canal訂閱和資料庫查詢都是在Master上,所以這個問題就變得非常詭異了。

【問題分析】

因為中間夾雜著Canal, 而Canal是通過binlog讀取的,這個問題我們可以簡化為:當我們在master插入一條數據,該數據在master還沒落庫,但是在Slave卻能查到。我們嘗試重現這種場景。因為我們是採用GTID模式,GTID也就是全局事務編號,我們通過跟蹤GTID來調試問題。

我們創建一個測試表如下:

CREATE TABLE `gtid_debug` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(10) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

此時,在Master和Slave上,分別收集到的GTID信息如下:

角色 @@global_gtid_executed @@port
Master be7945f1-3613-11ec-8353-98039ba5775a:1-16 3306
Slave be7945f1-3613-11ec-8353-98039ba5775a:1-16 3307

我們在Master上開啟gdb調試,在函數ReplSemiSyncMaster::commitTrx上設置斷點。

步驟1:

在Master上,開啟Session1, 插入一條數據:

insert into gtid_debug(name)values('test1'); 

此時會hit到斷點。

步驟2:

在Slave上,開啟Session2, 查看GTID:

角色 @@global_gtid_executed @@port
Slave be7945f1-3613-11ec-8353-98039ba5775a:1-17 3307

也就是說,事務在Slave上,開始走字了。
我們進行如下查詢:可以看到,在Slave這條記錄能被查詢到。

slave>select * from test.gtid_debug;
| ID   | NAME  |
| ---- | ----- |
| 1    | test1 |

步驟3:

在Master上,我們開啟Session3, 查看GTID, 這個session也會被斷點中斷,我們繼續執行下一步,直到查詢結果返回。註意,此時Session1還停留在斷點上,未提交成功。

角色 @@global_gtid_executed @@port
Master be7945f1-3613-11ec-8353-98039ba5775a:1-16 3306

併進行如下查詢,返回結果為空:

master>select * from test.gtid_debug;
Empty set 

所以我們重現了問題,也就是說,在Master插入數據,事務還沒有提交,但在Slave就能查到了。 Slave跑的比Master還快。

【原因分析】

重現了問題後,我們對問題進行分析,並查看了相應代碼,發現是半同步複製的模式導致,半同步複製有兩種模式: After_Sync(5.7版本預設)模式和After_Commit(5.6版本預設)模式。我們線上的版本是5.7,所以採用的是After_Sync模式。

從上圖可以看到,一個事務在半同步模式下提交,無論是after_sync還是after_commit,都要經歷4個階段:

1. InnoDB Redo File Prepare Write
2. Binlog File Flush & Sync
3. InnoDB Redo File Commit (同時釋放事務持有的鎖)
4. Send binlog to Slave

After_Commit模式的四個階段順序為: 1->2->3->4, 而after_sync模式的順序為1->2->4->3.

在5.7預設的after_sync模式下,確實存在先發送binlog到Slave, 然後再進行事務提交的場景。這時候大家會問了,為啥5.7把半同步複製改為after_sync模式了?這主要是因為after_commit機制存在數據丟失的風險。我們可以設想一下,在3->4的T1時間段,新數據對其它Session已經可見,突然Master掛了,MySQL進行主從切換,這時事務在Master上完成,如在Slave上不存在,切換後,業務會發現之前能查到的數據又沒了。

而在after_sync模式下,其執行的順序為1->2->4->3. 也就是說Master在收到Slave的應答之後,才Commit事務。在3->4的T1時間段內,因事務還未Commit,新數據對其它Session還不可見,所以看上去像比Slave跑的更慢。具體可以參考網上關於這兩種模式的討論。

【解決建議】

我們分析清楚問題之後,解決的方法就比較簡單了。不建議改為after_commit模式,雖然改為after_commit模式,可以保證事務在Master落地後,Canal才會讀到消息,但存在主從切換事務丟失的風險。我們的解決方法,是在Canal消息處理時,延後1秒再處理。這樣解決方法比較合理。因為一般來講,業務對消息的實時性不是特別高。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:背景 1. 講故事 前段時間收到了一個朋友的求助,說他的ERP網站系統會出現偶發性崩潰,找了好久也沒找到是什麼原因,讓我幫忙看下,其實崩潰好說,用 procdump 自動抓一個就好,拿到 dump 之後,接下來就是一頓分析了。 二:WinDbg 分析 1. 是什麼導致的崩潰 windbg 有一個 ...
  • 操作系統 移動端 安卓 iOS 鴻蒙 其他工業系統 桌面端 Windows MaciOS Unix Linux 伺服器 Unix Linux 購買主機 阿裡雲 騰訊雲 華為雲 其他雲平臺 虛擬機 宿主主機 物理硬體 CPU 記憶體 硬碟 操作系統 Mac Windows 虛擬機 Virtual Box ...
  • 一·依賴包以及下載地址 本文使用到的離線包: apr-1.7.0.tar.gz apr-util-1.6.1.tar.gz pcre2-10.40.tar.gz expat-2.1.0-14.el7_9.x86_64.rpm expat-devel-2.1.0-14.el7_9.x86_64.rpm ...
  • SFTP 常用命令 通過堡壘機進入的 Linux 操作系統,無法直接使用 WinSCP 等工具進行文件的上傳下載。 可使用 SecureCRT 先進入命令行模式 ...
  • 1. 概述 1.1. SQL-92標準裡加入的最有用的特性 1.2. 寫法 1.2.1. 簡單CASE表達式 CASE sex WHEN '1' THEN ’男’ WHEN '2' THEN ’女’ ELSE ’其他’ END 1.2.1.1. 寫法簡單,但能實現的事情比較有限 1.2.2. 搜索C ...
  • 背景 早上收到某系統的告警tidb節點掛掉無法訪問,情況十萬火急。登錄中控機查了一下display信息,4個TiDB、Prometheus、Grafana全掛了,某台機器hang死無法連接,經過快速重啟後集群恢復,經排查後是昨天上線的某個SQL導致頻繁OOM。 於是開始亡羊補牢,來一波近期慢SQL巡 ...
  • 超詳細【入門精講】數據倉庫原理&實戰 一步一步搭建數據倉庫 內附相應實驗代碼和鏡像數據和腳本,參考B站up主哈嘍鵬程視頻撰寫而成,感謝!!! ...
  • 存儲引擎 一. MySQL體繫結構 MySQL Server 連接層:連接的處理、認證授權、安全方案、檢查是否超過最大連接數等。 服務層:SQL介面、解析器、查詢優化器、緩存 引擎層:引擎是數據存儲和提取的方式,引擎層有許多引擎可供使用,也可以自定義引擎。索引是在存儲引擎層實現的。 存儲層:存儲數據 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 插件化的需求主要源於對軟體架構靈活性的追求,特別是在開發大型、複雜或需要不斷更新的軟體系統時,插件化可以提高軟體系統的可擴展性、可定製性、隔離性、安全性、可維護性、模塊化、易於升級和更新以及支持第三方開發等方面的能力,從而滿足不斷變化的業務需求和技術挑戰。 一、插件化探索 在WPF中我們想要開 ...
  • 歡迎ReaLTaiizor是一個用戶友好的、以設計為中心的.NET WinForms項目控制項庫,包含廣泛的組件。您可以使用不同的主題選項對項目進行個性化設置,並自定義用戶控制項,以使您的應用程式更加專業。 項目地址:https://github.com/Taiizor/ReaLTaiizor 步驟1: ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • Channel 是乾什麼的 The System.Threading.Channels namespace provides a set of synchronization data structures for passing data between producers and consume ...
  • efcore如何優雅的實現按年分庫按月分表 介紹 本文ShardinfCore版本 本期主角: ShardingCore 一款ef-core下高性能、輕量級針對分表分庫讀寫分離的解決方案,具有零依賴、零學習成本、零業務代碼入侵適配 距離上次發文.net相關的已經有很久了,期間一直在從事java相關的 ...
  • 前言 Spacesniffer 是一個免費的文件掃描工具,通過使用樹狀圖可視化佈局,可以立即瞭解大文件夾的位置,幫助用戶處理找到這些文件夾 當前系統C盤空間 清理後系統C盤空間 下載 Spacesniffer 下載地址:https://spacesniffer.en.softonic.com/dow ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • 一、ReZero簡介 ReZero是一款.NET中間件 : 全網唯一開源界面操作就能生成API , 可以集成到任何.NET6+ API項目,無破壞性,也可讓非.NET用戶使用exe文件 免費開源:MIT最寬鬆協議 , 一直從事開源事業十年,一直堅持開源 1.1 純ReZero開發 適合.Net Co ...
  • 一:背景 1. 講故事 停了一個月沒有更新文章了,主要是忙於寫 C#內功修煉系列的PPT,現在基本上接近尾聲,可以回頭繼續更新這段時間分析dump的一些事故報告,有朋友微信上找到我,說他們的系統出現了大量的http超時,程式不響應處理了,讓我幫忙看下怎麼回事,dump也抓到了。 二:WinDbg分析 ...
  • 開始做項目管理了(本人3年java,來到這邊之後真沒想到...),天天開會溝通整理需求,他們講話的時候忙裡偷閑整理一下常用的方法,其實語言還是有共通性的,基本上看到方法名就大概能猜出來用法。出去打水的時候看到外面太陽好好,真想在外面坐著曬太陽,回來的時候好兄弟三年前送給我的鍵盤D鍵不靈了,在打"等待 ...