MySQL事務還沒提交,Canal就能讀到消息了?

来源:https://www.cnblogs.com/CtripDBA/archive/2023/03/28/17265902.html
-Advertisement-
Play Games

##【問題描述】 開發有天碰到一個很奇怪的問題,他的場景是這樣子的: 通過Canal來訂閱MySQL的binlog, 當捕獲到有數據變化時,回到資料庫,反查該數據的明細,然後做進一步處理。 有一次,他碰到一個詭異的現象: 1. Canal收到消息,有一條主鍵id=31019319的數據插入 2. 1 ...


【問題描述】

開發有天碰到一個很奇怪的問題,他的場景是這樣子的:
通過Canal來訂閱MySQL的binlog, 當捕獲到有數據變化時,回到資料庫,反查該數據的明細,然後做進一步處理。
有一次,他碰到一個詭異的現象:

1.  Canal收到消息,有一條主鍵id=31019319的數據插入
2.  11:19:51.081, 應用程式去反查資料庫,11:19:51.084查詢完畢,發現id=31019319的數據為空
3.  過幾分鐘後,開發去手工查資料庫,發現id=31010319的數據是存在的,每次插入的時候,我們會在資料庫記錄插入時間,發現插入的時間是11:19:51.059。

讓開發感到困惑的是11:19:51.059寫入的數據,11:19:51.081去查詢,應該是能查到數據的呀。我們首先排除了讀寫分離,主從分離等場景,Canal訂閱和資料庫查詢都是在Master上,所以這個問題就變得非常詭異了。

【問題分析】

因為中間夾雜著Canal, 而Canal是通過binlog讀取的,這個問題我們可以簡化為:當我們在master插入一條數據,該數據在master還沒落庫,但是在Slave卻能查到。我們嘗試重現這種場景。因為我們是採用GTID模式,GTID也就是全局事務編號,我們通過跟蹤GTID來調試問題。

我們創建一個測試表如下:

CREATE TABLE `gtid_debug` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(10) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

此時,在Master和Slave上,分別收集到的GTID信息如下:

角色 @@global_gtid_executed @@port
Master be7945f1-3613-11ec-8353-98039ba5775a:1-16 3306
Slave be7945f1-3613-11ec-8353-98039ba5775a:1-16 3307

我們在Master上開啟gdb調試,在函數ReplSemiSyncMaster::commitTrx上設置斷點。

步驟1:

在Master上,開啟Session1, 插入一條數據:

insert into gtid_debug(name)values('test1'); 

此時會hit到斷點。

步驟2:

在Slave上,開啟Session2, 查看GTID:

角色 @@global_gtid_executed @@port
Slave be7945f1-3613-11ec-8353-98039ba5775a:1-17 3307

也就是說,事務在Slave上,開始走字了。
我們進行如下查詢:可以看到,在Slave這條記錄能被查詢到。

slave>select * from test.gtid_debug;
| ID   | NAME  |
| ---- | ----- |
| 1    | test1 |

步驟3:

在Master上,我們開啟Session3, 查看GTID, 這個session也會被斷點中斷,我們繼續執行下一步,直到查詢結果返回。註意,此時Session1還停留在斷點上,未提交成功。

角色 @@global_gtid_executed @@port
Master be7945f1-3613-11ec-8353-98039ba5775a:1-16 3306

併進行如下查詢,返回結果為空:

master>select * from test.gtid_debug;
Empty set 

所以我們重現了問題,也就是說,在Master插入數據,事務還沒有提交,但在Slave就能查到了。 Slave跑的比Master還快。

【原因分析】

重現了問題後,我們對問題進行分析,並查看了相應代碼,發現是半同步複製的模式導致,半同步複製有兩種模式: After_Sync(5.7版本預設)模式和After_Commit(5.6版本預設)模式。我們線上的版本是5.7,所以採用的是After_Sync模式。

從上圖可以看到,一個事務在半同步模式下提交,無論是after_sync還是after_commit,都要經歷4個階段:

1. InnoDB Redo File Prepare Write
2. Binlog File Flush & Sync
3. InnoDB Redo File Commit (同時釋放事務持有的鎖)
4. Send binlog to Slave

After_Commit模式的四個階段順序為: 1->2->3->4, 而after_sync模式的順序為1->2->4->3.

在5.7預設的after_sync模式下,確實存在先發送binlog到Slave, 然後再進行事務提交的場景。這時候大家會問了,為啥5.7把半同步複製改為after_sync模式了?這主要是因為after_commit機制存在數據丟失的風險。我們可以設想一下,在3->4的T1時間段,新數據對其它Session已經可見,突然Master掛了,MySQL進行主從切換,這時事務在Master上完成,如在Slave上不存在,切換後,業務會發現之前能查到的數據又沒了。

而在after_sync模式下,其執行的順序為1->2->4->3. 也就是說Master在收到Slave的應答之後,才Commit事務。在3->4的T1時間段內,因事務還未Commit,新數據對其它Session還不可見,所以看上去像比Slave跑的更慢。具體可以參考網上關於這兩種模式的討論。

【解決建議】

我們分析清楚問題之後,解決的方法就比較簡單了。不建議改為after_commit模式,雖然改為after_commit模式,可以保證事務在Master落地後,Canal才會讀到消息,但存在主從切換事務丟失的風險。我們的解決方法,是在Canal消息處理時,延後1秒再處理。這樣解決方法比較合理。因為一般來講,業務對消息的實時性不是特別高。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:背景 1. 講故事 前段時間收到了一個朋友的求助,說他的ERP網站系統會出現偶發性崩潰,找了好久也沒找到是什麼原因,讓我幫忙看下,其實崩潰好說,用 procdump 自動抓一個就好,拿到 dump 之後,接下來就是一頓分析了。 二:WinDbg 分析 1. 是什麼導致的崩潰 windbg 有一個 ...
  • 操作系統 移動端 安卓 iOS 鴻蒙 其他工業系統 桌面端 Windows MaciOS Unix Linux 伺服器 Unix Linux 購買主機 阿裡雲 騰訊雲 華為雲 其他雲平臺 虛擬機 宿主主機 物理硬體 CPU 記憶體 硬碟 操作系統 Mac Windows 虛擬機 Virtual Box ...
  • 一·依賴包以及下載地址 本文使用到的離線包: apr-1.7.0.tar.gz apr-util-1.6.1.tar.gz pcre2-10.40.tar.gz expat-2.1.0-14.el7_9.x86_64.rpm expat-devel-2.1.0-14.el7_9.x86_64.rpm ...
  • SFTP 常用命令 通過堡壘機進入的 Linux 操作系統,無法直接使用 WinSCP 等工具進行文件的上傳下載。 可使用 SecureCRT 先進入命令行模式 ...
  • 1. 概述 1.1. SQL-92標準裡加入的最有用的特性 1.2. 寫法 1.2.1. 簡單CASE表達式 CASE sex WHEN '1' THEN ’男’ WHEN '2' THEN ’女’ ELSE ’其他’ END 1.2.1.1. 寫法簡單,但能實現的事情比較有限 1.2.2. 搜索C ...
  • 背景 早上收到某系統的告警tidb節點掛掉無法訪問,情況十萬火急。登錄中控機查了一下display信息,4個TiDB、Prometheus、Grafana全掛了,某台機器hang死無法連接,經過快速重啟後集群恢復,經排查後是昨天上線的某個SQL導致頻繁OOM。 於是開始亡羊補牢,來一波近期慢SQL巡 ...
  • 超詳細【入門精講】數據倉庫原理&實戰 一步一步搭建數據倉庫 內附相應實驗代碼和鏡像數據和腳本,參考B站up主哈嘍鵬程視頻撰寫而成,感謝!!! ...
  • 存儲引擎 一. MySQL體繫結構 MySQL Server 連接層:連接的處理、認證授權、安全方案、檢查是否超過最大連接數等。 服務層:SQL介面、解析器、查詢優化器、緩存 引擎層:引擎是數據存儲和提取的方式,引擎層有許多引擎可供使用,也可以自定義引擎。索引是在存儲引擎層實現的。 存儲層:存儲數據 ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...