「Kafka」Kafka中offset偏移量提交

来源:https://www.cnblogs.com/ilovezihan/archive/2020/02/05/12266720.html
-Advertisement-
Play Games

在消費Kafka中分區的數據時,我們需要跟蹤哪些消息是讀取過的、哪些是沒有讀取過的。這是讀取消息不丟失的關鍵所在。Kafka是通過offset順序讀取事件的。如果一個消費者退出,再重啟的時候,它知道從哪兒繼續讀取消息進行處理。所以,消費者需要「提交」屬於它們自己的偏移量。如果消費者已經提交了偏移量,... ...


在消費Kafka中分區的數據時,我們需要跟蹤哪些消息是讀取過的、哪些是沒有讀取過的。這是讀取消息不丟失的關鍵所在。

Kafka是通過offset順序讀取事件的。如果一個消費者退出,再重啟的時候,它知道從哪兒繼續讀取消息進行處理。所以,消費者需要「提交」屬於它們自己的偏移量。如果消費者已經提交了偏移量,但消息沒有得到有效處理,此時就會造成消費者消息丟失。所以,我們應該重視偏移量提交的時間點以及提交的方式。


Kafka消費者的可靠性配置

1、group.id

  • 如果兩個消費者有相同的 group.id,並且定義同一個主題,那麼每個消費者都會消費一個分區的數據

2、auto.offset.reset

  • 這個參數的作用是:當沒有偏移量提交(例如:消費者第一次啟動、或者請求的偏移量在broker上不存在時),消費者會如何處理
  • earliest:消費者從分區的開始位置讀取大量的重覆數據,可以保證個最少的數據丟失
  • latest:消費者會從分區的末尾開始讀取數據,可以減少重覆讀,但很有可能會錯過一些消息

3、enable.auto.commit

  • 可以設置自動提交偏移量,可以在代碼中手動提交偏移量
  • 自動提交,可以讓消費者邏輯更簡單
  • 但它無法控制重覆處理消息、或者如果消息交給另外一個後臺線程去處理,自動提交機制可能會在消息還沒有處理完就提交了偏移量

4、auto.commit.interval.ms

  • 通過該參數,可以配置提交的頻率。預設:每5秒鐘提交一次
  • 提交的頻率高,也是會增加額外的開銷的


顯示提交偏移量

如果我們希望能夠更有效地控制偏移量提交的時間點,就需要顯示地提交偏移量。

1、總是在處理完事件後再提交偏移量

如果所有的處理都是在輪詢里完成,無需在輪詢之間維護狀態,那麼可以使用自動提交,或者在輪詢結束後進行手動提交。


2、提交頻率是性能和重覆消息數量之間的權衡

這個意思是:提交頻率越高,重覆消息處理的數量越少,性能也是比較低的。提交頻率越低,重覆消息處理的數量越多,性能是比較好的。所以,要根據實際的情況,來衡量在什麼時機,來提交偏移量。即使是在最簡單的場景你,也需要在一個迴圈中多次提交偏移量。


3、確保對提交的偏移量心裡有數

一定要在處理完消息後,再提交偏移量,否則會出現某些消息會被處理。


4、消費者可能需要重試

但處理消息出現問題時,例如:把Kafka中的數據寫入到HBase中,此時HBase臨時不可用。我們想要重試。假設這條消息是:#30,#30處理失敗了。那大家想想?#31能提交嗎?

顯然是不能的,如果#31提交了,那麼#31之前的所有數據,都不會被處理了。我們可以使用以下幾種模式來處理:

模式一

① 但遇到可重試錯誤時,提交最後一個處理成功的偏移量

② 把沒有處理好的消息保存到緩衝區

③ 調用 pause() 方法,確保其他的輪詢不會返回數據

④ 嘗試重新處理緩存中的數據,如果重試成功,或者重試次數達到上限並決定放棄,把錯誤記錄下來並丟棄消息

⑤ 調用 resume() 方法讓消費者繼續從輪詢里獲取新數據

模式二

① 遇到可重試錯誤時,把錯誤寫入一個獨立的主題,然後繼續

② 用一個獨立的消費者組負責從該主題上讀取錯誤消息,併進行重試


5、長時間處理

有時候要進行比較複雜的處理,暫停輪詢的時間不能超過幾秒鐘。要保持輪詢,因為只有在輪詢過程中,才能往broker發送心跳。可以使用一個線程池來處理數據,可以讓輪詢不獲取新的數據,直到工作縣好吃呢個處理完成。消費者一直保持輪詢,心跳正常,就不會發生再均衡。


8、僅一次傳遞

有的程式不僅是需要“至少一次”(at least-once語義)(意味著沒有數據丟失),還需要僅一次(exactly-once)語義。實現一次性語義,最常用的辦法就是把結果寫入到一個支持唯一鍵的系統里,比如:k-v存儲、關係資料庫、ES或者其他數據存儲。可以使用主題、分區和偏移量來作為主鍵,這樣,可以碰巧讀取到同一個相同的消息,直接覆蓋寫入就可以了。這種稱為冪等性寫入。


還有一種,就是使用關係型資料庫,HDFS中一些被定義過的原子操作也經常用來達到相同的目的。把消息和偏移量放在同一個事務里,這樣讓它們保持同步。消費者啟動,獲取最近處理過的偏移量,調用seek()方法從偏移量位置繼續讀取數據


參考文件:

「Kafka權威指南」


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 《果殼中的C# C# 5.0 權威指南》 [作者] (美) Joseph Albahari (美) Ben Albahari[譯者] (中) 陳昇 管學理 曾少寧 楊慶川[出版] 中國水利水電出版社[版次] 2013年08月 第1版[印次] 2013年08月 第1次 印刷[定價] 118.00元 【 ...
  • 新建一個WPF項目,將其命名為Caliburn.Micro.BindingsDemo 其次安裝Caliburn.Micro,安裝Caliburn.Micro的同時也會安裝Caliburn.Micro.Core 然後新建Views文件夾和ViewsModels文件夾,前者是放視圖的,後者是放管理視圖的 ...
  • 學習每一個編程語言都是從 "Hello world!" 開始的,這好像就是編程界一條不成文的規定一樣。 在這篇文章中,我將教大家編寫一個可以輸出 "Hello world!" 的程式。 示常式序:1 #include <stdio.h>//Include a header 1 #include <s ...
  • 前面痞子衡講過嵌入式里的堆棧原理,本篇算是堆棧原理的工程實踐,更具體點說是在ARM Cortex-M上的應用。ARM Cortex-M家族發展至今已經很多代,我們且以最簡單的Cortex-M0為例來講述堆棧機制 ...
  • 棧這種結構在嵌入式里其實是非常常用的,比如函數調用與返回就是典型的棧應用,雖然很多時候棧都是CPU系統在自動管理,我們只需要在鏈接文件里分配棧大小以及棧存放位置,但稍微瞭解一下棧的原理會更加利於我們去理解嵌入式代碼執行機制,以及幫助我們進一步去調試。 ...
  • 錯誤信息:./configure: error: C compiler cc is not found解決方案:yum -y install gcc gcc-c++ autoconf automake make 錯誤信息:./configure: error: the HTTP rewrite mo ...
  • 0. 本blog 簡單說明一下 Linux測試環境尤其是 CentOS測試環境的開發測試使用, 教程可能不會很長, 主要是入門. 0.1 Linux簡介: Linux 的歷史基本上不用闡述, linus作為自己的興趣愛好進行編碼實現的一種開源的操作系統. Linux很好的切合了GNU裡面一直沒有可用 ...
  • 1.flink運行時的組件 ​ Flink 運行時架構主要包括四個不同的組件,它們會在運行流處理應用程式時協同工作: 作業管理器(JobManager)、資源管理器(ResourceManager)、任務管理器(TaskManager), 以及分發器(Dispatcher)。因為 Flink 是用 ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...