一次事故的回顧

来源:https://www.cnblogs.com/Lemon-DBA/archive/2018/07/31/9396546.html
-Advertisement-
Play Games

背景:MySQL5.6.40,庫比較小,row+gtid複製環境,但由於以前種種原因,備份還原在從庫後,開啟複製存在大量1062,1032錯誤,gtid卡在靠前位置。做複製的時候沒有任何從庫,每小時的備份也被運維停了。 以前從來沒遇到過這種情況,相對測試環境正式環境比較複雜,而且猜測可能是之前備份還 ...


背景:MySQL5.6.40,庫比較小,row+gtid複製環境,但由於以前種種原因,備份還原在從庫後,開啟複製存在大量1062,1032錯誤,gtid卡在靠前位置。做複製的時候沒有任何從庫,每小時的備份也被運維停了。

以前從來沒遇到過這種情況,相對測試環境正式環境比較複雜,而且猜測可能是之前備份還原從來沒用過備份一致性參數導致,並且發現錯誤也沒有手工檢查(這個問題還在研究中,有遇到並知道原因的小伙伴歡迎指導)。

為了今後避免因為恢復不及時導致的數據丟失,特別總結本次故障過程和大家討論、分享。

簡化時間軸如下圖:

開始---->備份主庫---->恢復從庫---->複製error1032,1062---->刪除從庫再次恢復---->複製error1032,1062---->reset master從庫、主庫---->準備刪除從庫---->誤操作刪主庫----->恢復主庫----->跳過大量1062、1032錯誤---->找drop db位置恢復從庫---->對比主從數據---->手工補數據---->結束

下麵按照我的記憶描述下當時的場景:

一、首次備份主庫、搭建從庫

第一次搭建從庫,從主庫的備份未使用master-data=2 single-transaction(保證事務備份時的一致性)參數遷移後,報大量1062和1032錯誤(家家有本難念的經,不多說了)

 

二、第二次還原主庫到從庫

於是第二次重新導入。

同樣報錯。在導入從庫前使用reset master;將從庫binlog清除。

由於操作人員不瞭解reset master含義及執行結果,又在主庫做了reset master;

結果導致主庫所有binlog日誌被清除並且binlog position置為1;

這裡貼以下官方說明,別沒事幹就在主庫上用這條。

 

再次導入發現依舊大量報1032,1062錯誤。

由於懷疑是因為備份時沒使用--single-transaction參數,準備刪除從庫,加參數重新備份主庫。

三、誤刪除主庫

結果誤操作刪除主庫(這個鍋一部分原因要甩給mysql naivcat這個工具,垂直排列庫,稍微不註意就容易點錯。還是建議大家聽吳老師的用官方的workbench),刪庫還是兩人校對,在操作系統上執行,刪前沒把握最好備份一遍。

刪庫這種操作謹慎謹慎再謹慎,重要的事情說三遍!

刪庫這種操作謹慎謹慎再謹慎,重要的事情說三遍!

刪庫這種操作謹慎謹慎再謹慎,重要的事情說三遍!

drop database;(在naivcat上右鍵刪除庫,但binlog日誌中還是會記錄DROP DATABASE這條記錄)

這時候為了保證業務不中斷,立馬在主庫上通過之前的備份文件恢復了一套庫,當然數據肯定丟失了,但可以推算丟失數據的時間段(從備份完畢開始--->DROP DATABASE)。

PS.請不要問我為什麼刪庫,為什麼刪完又恢復了一套庫,因為都不是我乾的。。。。。。

萬幸的是誤刪除主庫但並未刪除從庫,而且從庫的io_thread仍然處於yes狀態(回顧吳老師的課程,也就是說雖然庫被刪除了但其實刪庫前的數據=備份數據+io_thread已下載的刪除主庫前的數據),由於sql_thread仍然停到gtid靠前的位置

 

四、跳過大量1032,1062錯誤

這個時候只要看下備份文件的gtid位置,並purge到該位置(之前備份丟了,隨便找了一個備份的截圖,理解萬歲)。

##這裡說明一下為什麼直接purge到備份的結尾位置,因為書庫備份的數據中1032和1062錯誤太多,且主庫已經刪除沒辦法通過腳本對比跳過大量1032,1062錯誤(吳老師友情提供),在能夠保證是從主庫邏輯備份過來的情況下(主從數據一致),我們選擇快速跳過大量錯誤(偷懶加情況急),直接purge到備份最後的位置。

 

##上圖是隨便截的一個備份文件最開頭的位置,請忽略那個gtid的值,意思明白就行。

set @@gtid_purged='fb1f83af-1915-11e8-811b-000c29c4d77d:1-500';

註:‘500’代表備份文件最後一個執行的事務的gtid。gtid_purged代表資料庫已經在從庫上重放過1-500這段事務。

五、找到主庫DROP DATABASE的GTID位置

purge到該位置然後再確定drop database的位置上(思路:如果不確定dropdatabase的位置就start slave 那麼從庫會應用主庫的binlog也就會執行主庫drop database的操作,為了避免從庫重放主庫drop database的操作,我們要設法讓gtid在從庫停到drop database前一個gtid的位置)

註:可以通過大致刪庫時間或者從從庫的show slave status\G上看到主庫的binlog位置從後往前找DROP DATABASE的位置,如果刪庫後做了reset master那就只能從從庫的relay-bin-log上找了(切記主庫沒事別reset master);

mysqlbinlog    -vvv  --base64-output=decode-rows  relay-bin.000017

 

六、啟動從庫SQL_THREAD

在從庫上執行start slave sql_thread until的命令,這裡需要說明,因為主庫已經還原,業務跑起來了,這時候開啟io_thread沒有什麼意義,所以只用讓從庫的sql_thread線程重放DROP DATABASE之前的事務就行。

root@localhost[{none}]>start slave sql_thread until sql_before_gtid='fb1f83af-1915-11e8-811b-000c29c4d77d:2343';

啟動slave,並且讓從庫gtid停在主庫drop database操作之前一個gtid就可以,再還原到主庫就能立馬投入使用,還不會導致數據丟失。

 

確保從庫executed_gtid_set到了我們before的前一個值就可以備份了,然後dump這份數據還原主庫,當然如果從庫性能不錯的話可以考慮應用端更改連接,這樣速度更快一些。

但比較麻煩的就是,要保證生產的實時性,刪庫後立即在主庫上還原了之前用來恢復從庫的備份文件,這就肯定會導致中間數據丟失。

七、數據對比還原

這時候只能使用用之前用來搭建從庫的備份再恢復一個庫,再用pt-table-checksum對比主庫和恢復庫,從庫和恢復庫不一致的數據,用pt-table-sync生成對應語句。然後手工把數據補進系統中。

對比1:主庫:備份數據還原的庫---->目標:找到主庫在刪庫之後應用又寫入了哪些數據。

對比2:從庫:備份數據還原的庫---->目標:找到備份數據之後,刪庫之前應用在主庫里寫了哪些數據。

因為量不是很大,手工對比一下就行,當然數據還原的坑也有很多,不過基本上都被研發填了。

總結:

頭一回碰到刪庫情況還是有點蒙,還好主庫用的是GTID找binlog日誌中的位置相對容易一點。這次恢復最幸運的就是還好從庫卡在靠前的位置,要不然即使有了從庫,數據也會被刪了,恢復起來相對更麻煩些。

對於gtid的恢復,課上吳炳錫老師都講過,但是一上手還是慢了幾拍,還是要通過實戰多練習加深手感避免在真實情況下懵逼。

最後特別鳴謝:知數堂葉金榮老師和吳炳錫老師在故障發生時給予的幫助和支持。

轉載請註明出處 https://www.cnblogs.com/Lemon-DBA/p/9396546.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 如果我們使用lua 運行腳本程式,或者使用python執行程式。我們不用明確 python的位置,可以使用env 命令來運行: env 程式介紹: 使用方式如下所示: 轉化為: 保持更新,轉載請註明出處。 ...
  • 刪除某一行 delete from name1 where agee=10 limit 1; insert into name1(agee,namee)values(10,'wwww'),(10,'wwww1'),(10,'wwww2'),(10,'www3w'); 插入多行數據; update n ...
  • Preface I've stuck twice in my previous experiments in backing up dropped tables.I am still not sure that why I got failure yesterday.Therefore,I deci ...
  • 1. 恢復和複製的需要,對innodb鎖機制的影響 mysql 通過binlog文件對增刪除改等更新數據的sql語句,實現資料庫的恢復和主從複製。mysql的恢復機制(複製其實就是在slave mysql不斷做基於binglog的恢復)特點有如下: (1) mysql 的恢復是sql語句級的,也就是 ...
  • 一、介紹 RankLib.jar 是一個學習排名(Learning to rank)演算法的庫,目前已經實現瞭如下幾種演算法: + MART + RankNet + RankBoost + AdaRank + Coordinate Ascent + LambdaMART + ListNet + Rand ...
  • 這個問題通常在laravel中表現為類似下邊的異常: local.ERROR: SQLSTATE[HY000] [2006] MySQL server has gone away {"exception":"[object] (PDOException(code: 2006): SQLSTATE[H ...
  • 剛開始學create table的時候沒註意,學到後面發現可以指定預設值。於是寫瞭如下語句: 當我查詢的時候發現,查出來的結果是這樣的。。 很納悶有沒有,我明明指定預設值了呀,為什麼創建出來的表還是空的呢?又跑去網上查了查相關資料,發現語法確實沒錯,然後請教了一下同事。 同事告訴我這個預設值是這樣用 ...
  • 一: 5.1及後續版本: 打開電腦命令視窗,切換至mysql安裝目錄,然後運行bin目錄下的mysqld.exe,命令如下: D:\MySQL\bin>mysqld.exe -installService successfully installed. 啟動服務:D:\MySQL\bin>net ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...