本文分享自華為雲社區《GaussDB(DWS)業務高可靠原理》,作者: yd_291396996。 1. 前言 適用版本:【8.1.0及以上】 GaussDB(DWS)所有內部組件CN、DN、GTM、CM等採用多活或主備設計,通過集群管理進行故障檢測和切換,保證了單點故障場景下業務的可靠性。此外還採 ...
本文分享自華為雲社區《GaussDB(DWS)業務高可靠原理》,作者: yd_291396996。
1. 前言
適用版本:【8.1.0及以上】GaussDB(DWS)所有內部組件CN、DN、GTM、CM等採用多活或主備設計,通過集群管理進行故障檢測和切換,保證了單點故障場景下業務的可靠性。此外還採用了CN RETRY、遠程讀、ELB等技術進一步對業務進行保障,下麵將對這幾種技術的原理進行詳細的介紹。
2. CN RETRY
CN Retry是提高資料庫系統HA技術中的一環,配合集群故障自恢復,實現集群實例故障業務不中斷,其要做到的是故障時業務的重試(實現業務不中斷,提高業務的連續性)。
2.1 原理介紹
對於來自gsql客戶端、JDBC、ODBC驅動的SQL語句,在SQL語句執行失敗時,CN端能夠自動識別語句執行過程中的報錯,並重新下發任務進行自動重試。CN Retry功能是預設開啟的,由GUC參數max_query_retry_times進行控制,支持範圍是0-20,預設為6,代表可語句出錯時會自動重試6次,0代表關閉該功能,GaussDB(DWS)絕大部分錯誤類型都支持CN Retry功能,比如主機單點故障,業務斷連的情況。
2.2 解決的問題
在集群故障場景為實現用戶業務不中斷,首先需要集群能夠從故障狀態恢復到可用狀態,集群HA能力實現了集群在故障時的自恢復,然後需要有重執行機制保障業務不中斷,CN Retry實現故障場景CN 端語句自動重執行,重試過程對用戶是無感知的。
2.3 技術方案
CN Retry在CN端實現故障報錯時的語句自動重執行。CN端作為語句執行的入口,在語句執行報錯時,rerty機制識別該報錯,如果是可以被retry的錯誤類型,先將報錯前已執行的操作進行回滾,而後重新執行該語句。如果能夠執行成功,則跳過執行過程中的報錯(不將執行過程中的錯誤信息上報給客戶端),重執行的動作客戶端無感知,經嘗試後如果依然無法成功執行則將錯誤信息上報給客戶端。
2.4 技術規格
3. 遠程讀
在GaussDB(DWS)中,主備DN是預設強同步的,具備一致性。當主DN遇到數據錯誤的情況時,可以去備DN請求對應的Page/CU,只要備DN已經redo完對應的數據,即可返回Page/CU給主DN。
3.1 原理介紹
遠程讀具體原理如下:
- 主DN對行存表和列存表的數據校驗。
- 實現主備間通信,備DN根據主DN的請求返回對應的Page/CU。
- 主DN遇到數據錯誤時向備DN發生數據頁請求。
- 備DN根據請求讀取數據並校驗,返回數據給主DN。
- 主DN校驗返回的數據,校驗通過則覆蓋本地數據
- 此外,主DN還需記錄數據錯誤,提供視圖給CM,CM向上返回告警,提示用戶更換磁碟。
3.2 規格約束
- 由於依賴主備機制,只能處理DN上數據錯誤,並且備機處於可以查詢狀態。
- 數據錯誤校驗,依賴有校驗信息的生成。歷史數據依賴擴容或定期Vacuum來生成校驗信息。
- 僅針對數據靜默損壞場景,可以通過遠程讀解決;對於操作系統和文件系統上的異常,應通過節點隔離或主備倒換方式處理。
- 從遠程讀取數據後,本地數據對本地Page/CU進行原位覆蓋。儘量進行恢復,不保證下次讀時依然正常。
- 臨時表,Unlogged表在備機無數據,不支持遠程讀。
4. ELB
華為雲彈性負載均衡( Elastic Load Balance)將訪問流量自動分發到多台雲伺服器,擴展應用系統對外的服務能力,實現更高水平的應用容錯。消除單點故障提升應用系統的可用性。
- 存在負載均衡時,當出現接入點CN故障,CN1的流量會自動切換至CN2
- 未配置負載均衡的集群,當出現接入點CN故障,CN1的流量會被丟棄,引發業務受損
4.1 組件介紹
彈性負載均衡由以下3部分組成:
- 負載均衡器:接受來自客戶端的傳入流量並將請求轉發到一個或多個可用區中的後端伺服器。
- 監聽器:您可以向您的彈性負載均衡器添加一個或多個監聽器。監聽器使用您配置的協議和埠檢查來自客戶端的連接請求,並根據您定義的分配策略和轉發策略將請求轉發到一個後端伺服器組裡的後端伺服器。
- 後端伺服器:每個監聽器會綁定一個後端伺服器組,後端伺服器組中可以添加一個或多個後端伺服器。後端伺服器組使用您指定的協議和埠號將請求轉發到一個或多個後端伺服器。對應DWS集群,後端伺服器組綁定是CN節點。
4.2 功能介紹
流量調度:ELB通過監聽器檢查連接請求,根據定義的分配策略將請求流量分發至後端伺服器。
健康檢查:定期檢查後端伺服器的業務可用性,確保將請求發送到健康檢查正常的ECS,這裡的ECS指DWS集群的CN節點。
會話保持:將一定時間內來自同一用戶的訪問請求,轉發到同一後端伺服器處理,保證用戶訪問的連續性。4.3 彈性負載均衡類型
獨享型負載均衡:獨享型負載均衡實例實例性能獨享,資源隔離,實例的性能不受其他實例的影響,單實例最高支持2kw併發,您可根據業務需要選擇不同規格的實例。
共用型負載均衡:屬於集群部署,實例資源共用,實例的性能會受其它實例的影響,不支持選擇實例規格,集群最高可支持每秒新建連接數不超過100萬,1億併發連接。共用型負載均衡就是原增強型負載均衡。4.4 典型應用場景
潮汐效應業務:隨時在ELB上添加和移除後端伺服器,同時結合彈性伸縮服務,更好的提升業務的靈活擴展能力。
訪問量較大業務:通過ELB將訪問流量均衡的分發到多個後端雲伺服器上,確保業務快速平穩運行。
消除單點故障:通過健康檢查及時發現並屏蔽後端故障伺服器,並將流量轉發到後端其他正常的伺服器上,確保業務不中斷。5. 總結
本文主要介紹了GaussDB(DWS)為業務高可靠保駕護航的三大利器:CN RETRY、遠程讀、ELB。CN RETRY可以實現用戶無感知的業務重試;遠程讀可以解決部分磁碟故障導致的文件損壞故障;ELB則可以在CN故障時,實現秒級的流量轉發,將請求發送給其他CN。此外還補充了當前CN RETRY與遠程讀的規格約束。