Kafka的分散式架構與高可用性

来源:https://www.cnblogs.com/88223100/archive/2023/09/01/Kafka-Distributed-Architecture-and-High-Availability.html
-Advertisement-
Play Games

導語 一開始我們就說過Kafka是一款開源的高吞吐、分散式的消息隊列系統,那麼今天我們就來說下它的分散式架構和高可用性以及雙/多中心部署。 Kafka 體系架構簡介 以下是 Kafka 的軟體架構,整個 Kafka 體繫結構由 Producer、Consumer、Broker、ZooKeeper 組 ...


圖片

導語

一開始我們就說過Kafka是一款開源的高吞吐、分散式的消息隊列系統,那麼今天我們就來說下它的分散式架構和高可用性以及雙/多中心部署。

Kafka 體系架構簡介

以下是 Kafka 的軟體架構,整個 Kafka 體繫結構由 Producer、Consumer、Broker、ZooKeeper 組成。Broker 又由 Topic、分區、副本組成。

圖片

詳細可以參考 Kafka 官方文檔,Kafka introduction。

分散式與高可用

Kafka通過其分散式架構來實現高可用性。以下是Kafka分散式架構與高可用性之間的關係:

  1. 分散式數據存儲:Kafka的主題被分為多個分區,每個分區都可以有多個副本。這些副本可以分佈在不同的Broker節點上,形成分散式的數據存儲。這種分散式存儲使得數據在多個節點上冗餘存儲,即使某個節點發生故障,其他副本仍然可用,保證了數據的高可用性。

  2. 冗餘備份:Kafka中的每個分區都可以配置多個副本,這些副本被分佈在不同的Broker節點上。當一個Broker節點發生故障時,其他副本可以接管該分區並繼續提供服務。這種冗餘備份機制保證了即使多個節點發生故障,系統仍然可以繼續工作,避免了單點故障,提高了可用性。

  3. ISR機制:Kafka使用ISR(In-Sync Replicas)機制來保證數據的可靠性和一致性。ISR是指與Leader副本保持同步的副本集合。當消息被寫入Leader副本後,必須等待ISR中的所有副本完成寫入操作,才會返回確認給生產者。這樣可以保證消息的複製和同步,提高數據的可靠性和一致性。

  4. 動態的故障轉移:Kafka具備自動故障轉移能力。當一個Broker節點發生故障時,ISR中的其他副本會參與到Leader選舉過程中,自動選舉新的Leader副本,併進行分區重平衡。這樣可以快速恢復系統的可用性,保證生產者和消費者能夠無縫地繼續工作。

  5. 水平擴展:Kafka的分散式架構支持水平擴展。通過增加更多的Broker節點,可以擴展Kafka集群的吞吐量和容量。水平擴展提高了系統的伸縮性,使得Kafka能夠處理大規模的數據流和高併發的讀寫請求。

  6. 多中心數據互為災備:即一般為了避免天災人禍大型項目都會在不同地域部署相同的數據數據中心,彼此之間互為災備。

多中心相關術語

  • RTO(Recovery Time Objective):即數據恢復時間目標。指如果發生故障,發生故障轉移時業務系統所能容忍的最長停止服務時間。如果需要 RTO 越低,就越要避免手工操作,只有自動化故障轉移才能實現比較低的 RTO。

  • RPO(Recovery Point Objective):即數據恢復點目標。指如果發生故障,故障轉移需要從數據歷史記錄中的哪個點恢復。換句話說,有多少數據會在故障期間丟失。

  • 災難恢復(Disaster Recovery): 涵蓋所有允許應用程式從災難中恢復的體繫結構、實現、工具、策略和過程的總稱,在本文檔的上下文中,是指整個區域故障。

  • 高可用性(High Availability): 一個高度可用的系統即使在出現故障的情況下也可以連續運行。在多區域架構的上下文中,高可用性應用程式即使在整個區域故障期間也可以運行。HA 應用程式具有災難恢復策略。

發生故障的場景

不論是在虛擬化或容器化架構下,還是在提供成熟服務的雲廠商上,但都有可能因為各種因素髮生局部和系統故障,因此就需要考慮整體系統容災能力及可用性。

下麵列出一些典型的故障場景

序號 故障場景 影響 緩解措施
1 單節點故障 單個節點或托管在該節點上的 VM 的功能喪失 集群部署
2 機架或交換機故障 該機架內托管的所有節點/虛擬機(和/或連接)丟失 集群部署分佈在多個機架和/或網路故障域中
3 DC/DC-機房故障 在該 DC/DC 機房內托管的所有節點/虛擬機(和/或連接)丟失 擴展集群、複製部署
4 區域故障 該區域內托管的所有節點/虛擬機(和/或連接)丟失 地理延伸集群(延遲相關)和/或複製部署
5 全球性系統性中斷(DNS 故障、路由故障等) 影響客戶和員工的所有系統和服務完全中斷 離線備份;第三方域中的副本
6 人為行為(無意或惡意) 在檢測之前,人為行為可能會破壞數據和任何同步副本的可用性 離線備份

這篇文章重點圍繞故障場景2、3、4說明 Kafka 中有哪些方案來應對這幾類故障場景。第1種單節點故障,Kafka 集群高可用可以應對;第5、6種故障可以考慮將數據存儲到第三方系統,如果在雲上可以轉儲到 COS。

雙/多中心的應用場景

  • 跨地域複製
    在項目比較大的時候,可能需要在多個地域部署中心服務,以增加系統的容災能力和業務能力,每個數據中心都有自己的 Kafka 集群,這裡就涉及到應用和Kafka集群之間的訪問,是本地訪問還是跨中心訪問。

  • 災備
    任何集群服務都會收到天災、人禍等因素影響穩定性,比如地震,火災,高溫、超低溫等等,Kafka 集群可能因為這些不可預估的原因導致不可用,這時就需要有另外的與第一個集群完全相同的集群。如果有任何一個集群出現不可用情況,其他中心可以及時頂上,也就是所謂的互為災備。

  • 集群的物理隔離
    多環境設置,數據隔離部署。

  • 雲遷移和混合雲部署
    在雲計算流行的今天,部分公司會將業務同時部署在本地 IDC 和雲端。本地 IDC 和每個雲服務區域可能都會有 Kafka 集群,應用程式會在這些 Kafka 集群之間傳輸數據。例如,雲端部署了一個應用,它需要訪問 IDC 里的數據,IDC 里的應用程式負責更新這個數據,並保存在本地的資料庫中。可以捕獲這些數據變更,然後保存在 IDC 的 Kafka 集群中,然後再鏡像到雲端的 Kafka 集群中,讓雲端的應用程式可以訪問這些數據。這樣既有助於控制跨數據中心的流量成本,也有助於提高流量的監管合規性和安全性。

  • 法律和法規要求
    見題知意。

跨數據中心Kafka的部署形態

一般來說,Kafka 跨數據中心部署大體分兩種形態:Stretched Cluster和Connected Cluster。

Stretched Cluster

延展集群,它本質上是單個集群,是使用Kafka內置的複製機制來保持broker副本的同步。通過配置min.insync.replicas和acks=all,可以確保每次寫入消息時都可以收到至少來自兩個數據中心的確認。

圖片

Connected Cluster

連接集群,一般通過非同步複製完成多地域複製,並且使用外部工具將數據從一個(或多個)集群複製到另一個集群。該工具中會有Kafka消費者從源集群消費數據,然後利用Kafka生產者將數據生產到目的集群。但Confluent提供了一種不使用外部工具實現此功能的連接集群,在下麵介紹商業化方案的時候再詳細說明。

圖片

下麵是這兩種部署形態的對比

部署形態 數據傳輸方式 Offset 保留 延遲 RTO&RPO 何時使用
Stretched Cluster 同步 可以 0 數據中心距離較短
Connected Cluster 非同步 可以 取決於網路 >0 數據中心較遠

以這兩種部署形態可以形成多種部署方式,有興趣的朋友可以深入研究下。

作者:小年輕在奮鬥

本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/Kafka-Distributed-Architecture-and-High-Availability.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 從Oracle 10g 開始,Oracle提供了鎖定/解鎖表統計信息功能,它的目的是阻止資料庫自動收集統計信息,防止可能會產生/出現的糟糕的計劃。它對於數據頻繁更改的Volatile Tables最有用,因為Volatile Tables的某些數據集可能會生成糟糕的計劃。 官方的介紹如下: Prev ...
  • 我喜歡Kusto (或商用版本 Azure Data Explorer,簡稱 ADX) 是大家可以有目共睹的,之前還專門寫過這方面的書籍,請參考 [大數據分析新玩法之Kusto寶典](https://kusto.book.xizhang.com), 很可能在今年還會推出第二季,正在醞釀題材和場景中。 ...
  • 本章詳細指導了你如何安裝 HarmonyOS SDK、配置開發環境、創建 HarmonyOS 項目。現在,你已經準備好開始 HarmonyOS 開發了。 ...
  • TV屏使用遙控器控制,通過焦點操作界面,就跟電視投屏類似 一共兩個核心,焦點的處理,按鍵的監聽處理 按鍵原生提供了onKeyDown 來監聽,通過不同的 keyCode 區分不同的按鍵 一般如果沒有遙控器,可以通過電腦鍵盤測試,使用投屏軟體投屏後,對鍵盤按鍵效果跟遙控器類似 有時候沒有實體按鍵(比如 ...
  • 寫博客也有一個月了,發現博客園自帶的主題都不太好看,然後搜索了一下發現這款主題【Cnblogs-Theme-SimpleMemory】界面還挺好看的,也是開源的。那[西瓜程式猿]就以這個主題來介紹一下如何在博客園中進行配置,跟著一起來操作吧! ...
  • # 概述 Content-Type和Accept是兩個HTTP標頭(HTTP headers),用於在HTTP請求和響應之間傳遞有關請求的數據類型和響應的首選內容類型的信息。這兩個標頭在HTTP通信中起著關鍵的作用。 1. Content-Type: - `Content-Type` 是HTTP請求 ...
  • # ExpressJS集成express-ws [TOC] ## 版本 ```JSON "express": "~4.16.1", "express-ws": "^5.0.2", ``` ## 簡單使用 - app.js ```JS const express = require('express' ...
  • # vscode使用圖片所遇到的問題 1、截屏出來的圖片放到像素大廚量時發現量出來的像素太大 解決方法一: 設置設計圖為2x,這樣能把誤差降低很多,但跟實際大小還是差了一些,可以自己在微調。如下圖所示 ![屏幕截圖 2023-09-01 135647](https://gitee.com/zheng ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...