MGR複製架構+自動化運維平臺,汽車之家MySQL高可用建設實踐

来源:https://www.cnblogs.com/88223100/archive/2023/01/30/AutoHome-MySQL-High-Availability-Construction-Practice.html
-Advertisement-
Play Games

MySQL具有開源免費,運維簡單,性能好等優點,是在汽車之家使用最多的一種資料庫。資料庫作為應用的後端存儲,承擔著數據持久化存儲的功能,是應用可以正常對外提供服務的關鍵組件,資料庫的高可用非常重要。 相對於成熟的商業資料庫軟體,開源的 MySQL高可用需要使用者自己進行設計和研發,本文介紹汽車... ...


前言

 

MySQL具有開源免費,運維簡單,性能好等優點,是在汽車之家使用最多的一種資料庫。資料庫作為應用的後端存儲,承擔著數據持久化存儲的功能,是應用可以正常對外提供服務的關鍵組件,資料庫的高可用非常重要。

 

相對於成熟的商業資料庫軟體,開源的 MySQL高可用需要使用者自己進行設計和研發,本文介紹汽車之家MySQL高可用架構發展歷程,建設實踐情況。

 

一、高可用定義及度量

 

在介紹MySQL高可用前,先介紹下高可用定義及關鍵度量指標RPO,RTO。

 

高可用定義:高可用(High Availability,縮寫HA)是一個IT術語,指系統無中斷執行其功能的能力,代表系統的可用性程度。

 

高可用度量指標:

 

  • RPO:RPO(Recovery Point Obejective,恢復點目標)是指業務系統所允許的在災難過程中的最大數據丟失量,用來衡量容災系統的數據冗餘備份能力。

 

圖片

圖1 RPO計算

 

  • RTO :RTO(Recovery Time Objective,恢復時間目標)是指信息系統從災難狀態恢復到可運行狀態所需的時間,用來衡量容災系統的業務恢復能力。

 

圖片

圖2 RTO計算

 

二、MySQL高可用問題

 

1、問題定義

 

MySQL高可用問題:如果MySQL資料庫發生宕機故障,是否可以實現資料庫服務不中斷或者故障快速恢復。即實現數據不丟失(RPO)並且故障恢復時間短(RTO)?

 

2、MySQL主從架構

 

故障是難免的,一個可靠的系統需要數據冗餘來避免單點故障帶來的數據丟失,提升可靠性。

 

雖然MySQL有MySQL NDB Cluster, PXC(Percona XtraDB Cluster)等集群架構,但是MySQL主從架構因為結構簡單且成本較低,是最使用廣泛的MySQL架構。MySQL主從架構通過主從複製技術來實現主庫的數據冗餘,當主庫故障可以把服務切換到從庫,來避免資料庫服務中斷。

 

MySQL主從架構的高可用:

 

圖片

圖3 MySQL主從架構

 

一個典型場景如圖3,MySQL使用主從架構對外提供服務。圖中主庫Master有三個從庫分別是slave1,slave2,slave3,若是主庫故障,為了恢復DB服務,可以選擇一個從庫(slave1)成為新主庫繼續對外提供服務,原slave2,slave3改同步新主庫的數據。

 

3、高可用問題挑戰

 

MySQL是一個有數據有狀態的服務,通常主庫寫入數據,通過非同步複製二進位日誌到從庫執行,來實現主從庫的數據一致性。當故障發生時,如何實現數據不丟失,各節點數據一致,業務影響小會有一定難度及挑戰。

 

1)挑戰1:如何實現主庫突然故障,主庫數據不丟失?

 

假想主庫故障突然發生,從庫還沒有接收到主庫的二進位日誌,此時就有可能引起數據丟失

 

2)挑戰2:如何實現故障後新主從庫架構的搭建及數據一致性保證?

 

多個從庫對主庫進行複製,有可能各從庫對主庫複製有不同的時延,各從庫之間如何實現數據一致,各節點如何搭建成新的主從架構?

 

3)挑戰3:如何實現故障自動Failover及業務影響最小?

 

若DB故障發生,如何讓業務影響最小,甚至無感知,需要"自動故障轉移"來支持。

 

4、高可用相關工作

 

一個真實線上可以使用的MySQL高可用架構需要考慮如下工作。

 

圖片

圖4 MySQL高可用相關工作

 

三、常見的MySQL高可用架構

 

本節介紹幾種常見的MySQL高可用架構。

 

1、主從複製+VIP

 

圖片

圖5 主從複製+VIP

 

2、主從複製+MHA

 

MHA(Master High Availability) 是一種相對成熟的MySQL高可用解決方案。MHA是獨立於MySQL的第三方軟體,當主庫故障發生後,MHA會盡最大努力來保證數據不丟失(若原主庫可以登錄,MHA會傳輸二進位日誌到從庫節點並執行),並且完成新主從架構的搭建。

 

圖片

圖6 主從複製+MHA

 

3、MGR複製 + Proxy

 

MySQL Group Replication(簡稱MGR)是MySQL5.7版本出現的新特性,提供高可用、高擴展、高可靠,強一致性的MySQL集群服務。MGR架構由若幹個節點共同組成一個複製組,一個事務的提交,必須經過組內大多數節點(N / 2 + 1)決議並通過,才能得以提交,解決了傳統複製可能的數據不一致的問題。

 

MGR+Proxy高可用架構:雖然MGR可以在主節點故障選舉出新主,但應用層常不能自動修改配置中DB地址為新主IP。可使用MGR+Proxy來實現主節點故障時應用無感應自動切換到新的主節點。

 

圖片

圖7 MGR複製+Proxy

 

四、汽車之家MySQL高可用實踐

 

1、汽車之家MySQL高可用發展歷程

 

汽車之家MySQL高可用發展可以分成三個階段:

 

1)主從複製+VIP 時代:2016年前使用傳統主從複製+VIP/DNS,主庫故障通過VIP自動漂移,DBA手動調用腳本進行主從架構切換及功能變數名稱切換。

 

2)主從複製+MHA時代:2016年MHA在汽車之家核心業務開始使用,實現了核心業務的故障自動切換,但是此時並沒有自動化高可用平臺來管理資料庫。

 

3)MGR+自動化平臺時代:2020年MGR高可用架構在汽車之家推廣應用,MGR基於paxos協議的組複製技術保證各節點數據一致性,簡化了主庫故障切換工作。另外資料庫自動化高可用平臺上線,讓汽車之家的MySQL高可用水平得到很大提升。

 

圖片

圖8 汽車之家MySQL高可用發展歷程

 

2、汽車之家MySQL高可用運維平臺

 

1)高可用運維平臺架構

 

一個高可用系統需要解決兩個問題:如何發現故障?故障發生後如何處理故障?具體到MySQL資料庫的高可用,因為故障恢復細節和MySQL架構有較強關聯,設計者需要重點考慮三個方面:

 

  • 故障發現:如何發生準確,快速的發現DB故障,不誤報錯報。

 

  • 高可用架構:如何選擇合適的MySQL高可用架構來處理故障的數據一致性問題。

 

  • 故障自動化Failover:如何實現"自動故障轉移"來保證DB服務的快速恢復?

 

圖片

圖9 MySQL高可用設計

 

汽車之家MySQL高可用實現架構圖:

 

圖片

圖10 MySQL高可用實現架構圖

 

汽車之家MySQL高可用由MGR複製架構+監控平臺+自動化運維平臺三者來實現。

 

  • MGR高可用架構:MGR使用基於paxos協議的組複製,主庫的事務在從庫中會至少存在一份記錄,從而保證故障時數據不會丟失。並且 MGR主庫故障會自動選擇新主庫,進一步減化了主庫故障切換工作。

 

  • 監控平臺:基於Prometheus的監控平臺對DB狀態實時監控,若是發現主庫故障將調用資料庫運維平臺相關API。

 

  • 自動化運維平臺:運維平臺中的高可用模塊負責故障的自動Failover。高可用模塊會確認DB狀態,故障恢復時新DB集群搭建,修改原來主庫功能變數名稱後端DB IP等工作,最終實現了主庫故障對應用影響的儘量透明。

 

圖10的高可用架構圖,描述了經典環境下MySQL高可用實現。監控平臺持續探測主庫狀態,若連續探測3次均發現主庫故障,則調用運維平臺的高可用模塊API,發起主庫切換,可以在2-3分鐘內完成FailOver。

 

2)容器佈署MySQL高可用

 

汽車之家有大量MySQL跑在k8S容器上,容器佈署MySQL的高可用實現和物理機佈署類似,主要區別是容器MySQL的主庫故障監控由MySQL-Operator負責,而不是外部監控平臺。

 

圖片

圖11 容器佈署MySQL高可用實現

 

容器MySQL-Operator每10秒探測一次MGR主庫狀態,若連續探測3次均為故障,將調用運維平臺的高可用模塊API,發起主庫切換,通常可以在1-2分鐘內完成FailOver。

 

3、未來規劃

 

汽車之家MySQL高可用建設,未來計劃做如下工作:

 

1)網路抖動或大事務有時會引起MySQL集群的主從庫自動切換,計划進一步調優改進。

 

2)資料庫故障智能自愈是一個較熱的方向,計劃研究並應用實踐提升資料庫的穩定性。

 

五、結語

 

本文介紹了常見的MySQL高可用架構,並重點介紹了汽車之家MySQL高可用體系發展歷程,高可用建設實踐情況。

 

汽車之家MySQL高可用使用MGR複製架構+自動化運維平臺,實現了物理機及容器MySQL主庫故障的自動Failover。若MySQL主庫down,可以在2-3分鐘內完成主庫的故障切換,資料庫服務的穩定性得到了很好保障。

 

作者|​陶會祥

本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/AutoHome-MySQL-High-Availability-Construction-Practice.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄 背景 get 與 post 的區別 所有介面都用 post 請求? 背景 最近在逛知乎的時候發現一個有趣的問題:公司規定所有介面都用 post 請求,這是為什麼? 看到這個問題的時候其實我也挺有感觸的,因為我也曾經這樣問過我自己。在上上一家公司的時候接到一個項目是從零開始搭建一個微服務,當時就 ...
  • 前言 .NET6 開始,.NET Croe API 項目取消了 Startup.cs 文件,在 Program.cs 文件的 Main 函數中完成服務的註冊和中間件管道的管理。但當我們項目引入更多包的時候,Program.cs 文件也會看起來很臃腫。 而且,我們不只會有一個後端項目,為了方便快速創建 ...
  • 一:背景 1. 講故事 年前遇到了好幾例托管堆被損壞的案例,有些運氣好一些,從被破壞的托管堆記憶體現場能觀測出大概是什麼問題,但更多的情況下是無法做出準確判斷的,原因就在於生成的dump是第二現場,借用之前文章的一張圖,大家可以理解一下。 為了幫助更多受此問題困擾的朋友,這篇來整理一下如何 快狠準 的 ...
  • 1.背景知識 CRLF用來表示文本換行的方式 ,CR是回車的意思,對應 \r ;LF 是換行的意思,對應 \n Windows 換行符是 \r\n Unix 換行是 \n 如果一個將要在Linux伺服器上使用的文件,比如某個配置文件,在windows電腦打開,編輯過,那麼文件每一行末尾會多有\r 。 ...
  • 一:什麼是乙太網: 乙太網是一種區域網技術,乙太網是一種用於數據鏈路層的協議類型。 二:乙太網的由來: 乙太網是美國施樂(Xerox)公司的Palo Alto研究中心(簡稱為PARC)於1975年研製成功的。那時乙太網是一種基帶匯流排區域網,當時的數據率為2.94 Mbit/s。乙太網用無源電纜作為總 ...
  • 網卡 網卡,又叫做通信適配器(adapter),早期的時候是插在機箱裡面的網路介面板,這種介面板又稱為網路介面卡NIC(Network Interface Card)或簡稱為“網卡”。因為後面集成到主板上了,所以又叫做通信適配器(adapter)。 網卡的作用: 電腦和外界區域網進行連接是通過通信 ...
  • 一、背景 二、概述 三、下線流程與原理 1.讀取待下線節點列表 2.判斷節點下線模式 3.設置超時時間 4.RMNode 處理下線事件 5.監控節點的狀態、下線節點 四、相關的Yarn集群配置 一、背景 接手部門 Hadoop 和 Flink 集群半年了,一直忙著上雲的事兒,很少有時間去琢磨運維的事 ...
  • 前言 SELinux是什麼 安全增強型 Linux(SELinux)是一種採用安全架構的 Linux® 系統,它能夠讓管理員更好地管控哪些人可以訪問系統。它最初是作為 Linux 內核的一系列補丁,由美國國家安全局(NSA)利用 Linux 安全模塊(LSM)開發而成。 SELinux工作原理 SE ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...