kafka原理與組件

来源:https://www.cnblogs.com/xiguage119/archive/2019/07/04/11135600.html
-Advertisement-
Play Games

一.什麼是kafkakafka的目標是實現一個為處理實時數據提供一個統一、高吞吐、低延遲的平臺。是分散式發佈-訂閱消息系統,是一個分散式的,可劃分的,冗餘備份的持久性的日誌服務。Kafka使用場景:1 日誌收集:一個公司可以用Kafka可以收集各種服務的log,通過kafka以統一介面服務的方式開放 ...


一.什麼是kafka
kafka的目標是實現一個為處理實時數據提供一個統一、高吞吐、低延遲的平臺。是分散式發佈-訂閱消息系統,是一個分散式的,可劃分的,冗餘備份的持久性的日誌服務。
Kafka使用場景:
1 日誌收集:一個公司可以用Kafka可以收集各種服務的log,通過kafka以統一介面服務的方式開放給各種consumer,例如hadoop、Hbase、Solr等。
2 消息系統:解耦和生產者和消費者、緩存消息等。
3 用戶活動跟蹤:Kafka經常被用來記錄web用戶或者app用戶的各種活動,如瀏覽網頁、搜索、點擊等活動,這些活動信息被各個伺服器發佈到kafka的topic中,然後訂閱者通過訂閱這些topic來做實時的監控分析,或者裝載到hadoop、數據倉庫中做離線分析和挖掘。
4 運營指標:Kafka也經常用來記錄運營監控數據。包括收集各種分散式應用的數據,生產各種操作的集中反饋,比如報警和報告。
5 流式處理:比如spark streaming和storm
Kafka拓撲與流程:

 

二.Kafka組件
1.主題(topic)
Kafka將一組消息歸納為一個主題(topic),一個主題就是對消息的一個分類。生產者將消息發送到特定的主題,消費者訂閱主題或主題的某些分區進行消費。

2.消息
Kafka通信基本單位,由一個固定長度的消息頭和一個可變長度的消息體構成。

3.分區與副本
Kafka可以將主題劃分為多個分區(Partition),會根據分區規則選擇把消息存儲到哪個分區中,只要如果分區規則設置的合理,那麼所有的消息將會被均勻的分佈到不同的分區中,這樣就實現了負載均衡和水平擴展。另外,多個訂閱者可以從一個或者多個分區中同時消費數據,以支撐海量數據處理能力
Kafka的設計也是源自生活,好比是為公路運輸,不同的起始點和目的地需要修不同高速公路(主題),高速公路上可以提供多條車道(分區),流量大的公路多修幾條車道保證暢通,流量小的公路少修幾條車道避免浪費。收費站好比消費者,車多的時候多開幾個一起收費避免堵在路上,車少的時候開幾個讓汽車並道就好了
分區數可以大於節點數,但是副本數不能大於節點數量。創建主題是分區數量最好為代理數量的整數倍。
每分區有一個或多個副本(replica),從存儲角度上分析,每個副本在邏輯上抽象為一個日誌(log)對象,即分區的副本與日誌對象是一一對應的,Kafka會給每個分區找一個節點當帶頭大哥(Leader),以及若幹個節點當隨從(Follower)。消息寫入分區時,帶頭大哥除了自己複製一份外還會複製到多個隨從。如果隨從掛了,Kafka會再找一個隨從從帶頭大哥那裡同步歷史消息。
Kafka保證一個分區內消息是有序的,不能保證跨分區消息有序性,每條消息被追加到相應的分區,是順序寫磁碟,因此效率很高。
segment對應一個文件(實現上對應2個文件,一個數據文件,一個索引文件),一個partition對應一個文件夾,一個partition里理論上可以包含任意多個segment。

4.偏移量(offset)
kafka作為一個消息隊列,每次讀取消息時,需要指定從哪裡讀取,否則就會從預設位置讀取。
那麼為什麼不將位置偏移量儲存在kafka中呢?原因是,如果在位置偏移量記錄在kafka, 當kafka組件故障重啟時,就無法獲取位置偏移量。zookeeper作為常用組件管理工具,成為記錄kafka位置偏移量推薦

從上圖可以看出,每條消息存在磁碟的偏移量是其距離文件開頭的絕對偏移量。比如上面第一條消息的偏移量是0;第二條消息的偏移量是第一條消息的總長度;第三條消息是其前兩條消息總長度;以此類推。這種方式存儲消息的偏移量很好理解,處理起來也很方便。
需要註意,消息存儲到磁碟的偏移量是由 Broker 處理完成的,原因很簡單,因為只有 Broker 端才知道現在 Log 的最新偏移量; Producer 端是無法獲取的

5.代理(broker)
Kafka節點,一個Kafka節點就是一個broker,多個broker可以組成一個Kafka集群。
1 Broker沒有副本機制,一旦broker宕機,該broker的消息將都不可用。
2 Broker不保存訂閱者的狀態,由訂閱者自己保存。
3 無狀態導致消息的刪除成為難題(可能刪除的消息正在被訂閱),Kafka採用基於時間的SLA(服務保證),消息保存一定時間(通常7天)後會刪除。
4消費訂閱者可以rewind back(回捲)到任意位置重新進行消費,當訂閱者故障時,可以選擇最小的offset(id)進行重新讀取消費消息

6.生產者(producer)
生產者負責將消息發送給代理,也就是向kafka代理髮送消息的客戶端。

7.消費者(comsumer)和消費組
假設我們有一個應用程式需要從-個 Kafka主題讀取消息並驗證這些消息,然後再把它們 保存起來。應用程式需要創建一個消費者對象,訂閱主題並開始接收消息,然後驗證消息 井保存結果。過了 一陣子,生產者往主題寫入消息的速度超過了應用程式驗證數據的速度,這個時候該怎麼辦?如果只使用單個消費者處理消息,應用程式會遠跟不上消息生成的速度。顯然,此時很有必要對消費者進行橫向伸縮。就像多個生產者可以向相同的 主題 寫入消息一樣,我們也可以使用多個消費者從同一個主題讀取消息,對消息進行分流。
Kafka 消費者從屬於消費者群組。一個群組裡的消費者訂閱的是同一個主題,每個消費者 接收主題一部分分區的消息。

8.ISR
kafka同步機制
同步複製:只有所有的follower把數據拿過去後才commit,一致性好,可用性不高。
非同步複製:只要leader拿到數據立即commit,等follower慢慢去複製,可用性高,立即返回,一致性差一些。
不是完全同步:是一種ISR機制:
1. leader會維護一個與其基本保持同步的Replica列表,該列表稱為ISR(in-sync Replica),每個Partition都會有一個ISR,而且是由leader動態維護
2. 如果一個flower比一個leader落後太多,或者超過一定時間未發起數據複製請求,則leader將其重ISR中移除
3. 當ISR中所有Replica都向Leader發送ACK時,leader才commit
把滯後的follower移除ISR主要是避免寫消息延遲。設置ISR主要是為了broker宕掉之後,重新選舉partition的leader從ISR列表中選擇。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Nginx是一款高性能免費開源網頁伺服器,也可用於反向代理和負載均衡伺服器。該軟體由伊戈爾·賽索耶夫於2004年發佈,2019年3月11日,Nginx被F5 Networks以6.7億美元收購。2019年最新統計中,全球大約有32.97%的伺服器使用Nginx。 1. 安裝相關組件 2. 編譯安裝N ...
  • 原文鏈接:https://www.cnblogs.com/qmfsun/p/4598650.html date "+今天是%Y-%d-%m,現在是%H:%M:%S" 1. 顯示時間date命令可以按照指定格式顯示日期,只鍵入date則以預設格式顯示當前時間。如下: 如果需要以指定的格式顯示日期,可以 ...
  • 下圖1為 Linux 性能優化排查工具的總結 診斷 CPU 工具 查看 CPU 核數 總核數 = 物理CPU個數 X 每顆物理CPU的核數 總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超線程數 查看物理CPU個數 cat /proc/cpuinfo| grep "physica ...
  • 1. 前言 emmm….最近學習大數據,需要搭建Hadoop框架,當弄好linux系統之後,第一件事就是SSH免密登錄的設置。對於SSH,我覺得使用過linux系統的程式員應該並不陌生。可是吧,用起來簡單,真讓你說出個所以然,還是件比較困難的事(大佬繞路,此篇文章不屬於你~)。然後,我就好奇心大發, ...
  • 1、原系統的備份 避免重裝遇到故障無法恢復,給自己留一條後路。 重裝系統之前首先進行一次系統備份,我使用的備份軟體是dism++,這個軟體還可以完成其他的諸如空間回收、系統優化等操作; 軟體地址:https://www.chuyu.me/zh-Hans/ 2、重裝之後,軟體的安裝 首先安裝輸入法,微 ...
  • 一.LNMP介紹 1.使前端web服務和後端存儲服務進行串聯 2.主要實現處理php動態請求 工作原理: L:linux N:nginx M:mysql P:php 二、lnmp部署 我的環境:centos6.9+nginx+mysql5.6+php5 文件存儲系統NFS 1.部署安裝linux系統 ...
  • --根據員工號或員工姓名獲取員工的信息--根據員工號或員工姓名刪除員工的信息--創建包規範CREATE OR REPLACE PACKAGE overload_pkgIS FUNCTION get_info(eno NUMBER) RETURN emp%ROWTYPE; FUNCTION get_i ...
  • 資料庫之MySQL的基本使用,內容包括 資料庫簡介,MySQL安裝,數據完整性,命令行腳本。其中,資料庫簡介包括 資料庫,RDBMS,RDBMS和資料庫的關係,SQL,MySQL 簡介;資料庫安裝包括 伺服器端安裝和客戶端安裝;數據完整性包括 數據類型,約束;命令行腳本包括 資料庫的操作,數據表的操... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...