「Kafka」Kafka中offset偏移量提交

来源:https://www.cnblogs.com/ilovezihan/archive/2020/02/05/12266720.html
-Advertisement-
Play Games

在消費Kafka中分區的數據時,我們需要跟蹤哪些消息是讀取過的、哪些是沒有讀取過的。這是讀取消息不丟失的關鍵所在。Kafka是通過offset順序讀取事件的。如果一個消費者退出,再重啟的時候,它知道從哪兒繼續讀取消息進行處理。所以,消費者需要「提交」屬於它們自己的偏移量。如果消費者已經提交了偏移量,... ...


在消費Kafka中分區的數據時,我們需要跟蹤哪些消息是讀取過的、哪些是沒有讀取過的。這是讀取消息不丟失的關鍵所在。

Kafka是通過offset順序讀取事件的。如果一個消費者退出,再重啟的時候,它知道從哪兒繼續讀取消息進行處理。所以,消費者需要「提交」屬於它們自己的偏移量。如果消費者已經提交了偏移量,但消息沒有得到有效處理,此時就會造成消費者消息丟失。所以,我們應該重視偏移量提交的時間點以及提交的方式。


Kafka消費者的可靠性配置

1、group.id

  • 如果兩個消費者有相同的 group.id,並且定義同一個主題,那麼每個消費者都會消費一個分區的數據

2、auto.offset.reset

  • 這個參數的作用是:當沒有偏移量提交(例如:消費者第一次啟動、或者請求的偏移量在broker上不存在時),消費者會如何處理
  • earliest:消費者從分區的開始位置讀取大量的重覆數據,可以保證個最少的數據丟失
  • latest:消費者會從分區的末尾開始讀取數據,可以減少重覆讀,但很有可能會錯過一些消息

3、enable.auto.commit

  • 可以設置自動提交偏移量,可以在代碼中手動提交偏移量
  • 自動提交,可以讓消費者邏輯更簡單
  • 但它無法控制重覆處理消息、或者如果消息交給另外一個後臺線程去處理,自動提交機制可能會在消息還沒有處理完就提交了偏移量

4、auto.commit.interval.ms

  • 通過該參數,可以配置提交的頻率。預設:每5秒鐘提交一次
  • 提交的頻率高,也是會增加額外的開銷的


顯示提交偏移量

如果我們希望能夠更有效地控制偏移量提交的時間點,就需要顯示地提交偏移量。

1、總是在處理完事件後再提交偏移量

如果所有的處理都是在輪詢里完成,無需在輪詢之間維護狀態,那麼可以使用自動提交,或者在輪詢結束後進行手動提交。


2、提交頻率是性能和重覆消息數量之間的權衡

這個意思是:提交頻率越高,重覆消息處理的數量越少,性能也是比較低的。提交頻率越低,重覆消息處理的數量越多,性能是比較好的。所以,要根據實際的情況,來衡量在什麼時機,來提交偏移量。即使是在最簡單的場景你,也需要在一個迴圈中多次提交偏移量。


3、確保對提交的偏移量心裡有數

一定要在處理完消息後,再提交偏移量,否則會出現某些消息會被處理。


4、消費者可能需要重試

但處理消息出現問題時,例如:把Kafka中的數據寫入到HBase中,此時HBase臨時不可用。我們想要重試。假設這條消息是:#30,#30處理失敗了。那大家想想?#31能提交嗎?

顯然是不能的,如果#31提交了,那麼#31之前的所有數據,都不會被處理了。我們可以使用以下幾種模式來處理:

模式一

① 但遇到可重試錯誤時,提交最後一個處理成功的偏移量

② 把沒有處理好的消息保存到緩衝區

③ 調用 pause() 方法,確保其他的輪詢不會返回數據

④ 嘗試重新處理緩存中的數據,如果重試成功,或者重試次數達到上限並決定放棄,把錯誤記錄下來並丟棄消息

⑤ 調用 resume() 方法讓消費者繼續從輪詢里獲取新數據

模式二

① 遇到可重試錯誤時,把錯誤寫入一個獨立的主題,然後繼續

② 用一個獨立的消費者組負責從該主題上讀取錯誤消息,併進行重試


5、長時間處理

有時候要進行比較複雜的處理,暫停輪詢的時間不能超過幾秒鐘。要保持輪詢,因為只有在輪詢過程中,才能往broker發送心跳。可以使用一個線程池來處理數據,可以讓輪詢不獲取新的數據,直到工作縣好吃呢個處理完成。消費者一直保持輪詢,心跳正常,就不會發生再均衡。


8、僅一次傳遞

有的程式不僅是需要“至少一次”(at least-once語義)(意味著沒有數據丟失),還需要僅一次(exactly-once)語義。實現一次性語義,最常用的辦法就是把結果寫入到一個支持唯一鍵的系統里,比如:k-v存儲、關係資料庫、ES或者其他數據存儲。可以使用主題、分區和偏移量來作為主鍵,這樣,可以碰巧讀取到同一個相同的消息,直接覆蓋寫入就可以了。這種稱為冪等性寫入。


還有一種,就是使用關係型資料庫,HDFS中一些被定義過的原子操作也經常用來達到相同的目的。把消息和偏移量放在同一個事務里,這樣讓它們保持同步。消費者啟動,獲取最近處理過的偏移量,調用seek()方法從偏移量位置繼續讀取數據


參考文件:

「Kafka權威指南」


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 《果殼中的C# C# 5.0 權威指南》 [作者] (美) Joseph Albahari (美) Ben Albahari[譯者] (中) 陳昇 管學理 曾少寧 楊慶川[出版] 中國水利水電出版社[版次] 2013年08月 第1版[印次] 2013年08月 第1次 印刷[定價] 118.00元 【 ...
  • 新建一個WPF項目,將其命名為Caliburn.Micro.BindingsDemo 其次安裝Caliburn.Micro,安裝Caliburn.Micro的同時也會安裝Caliburn.Micro.Core 然後新建Views文件夾和ViewsModels文件夾,前者是放視圖的,後者是放管理視圖的 ...
  • 學習每一個編程語言都是從 "Hello world!" 開始的,這好像就是編程界一條不成文的規定一樣。 在這篇文章中,我將教大家編寫一個可以輸出 "Hello world!" 的程式。 示常式序:1 #include <stdio.h>//Include a header 1 #include <s ...
  • 前面痞子衡講過嵌入式里的堆棧原理,本篇算是堆棧原理的工程實踐,更具體點說是在ARM Cortex-M上的應用。ARM Cortex-M家族發展至今已經很多代,我們且以最簡單的Cortex-M0為例來講述堆棧機制 ...
  • 棧這種結構在嵌入式里其實是非常常用的,比如函數調用與返回就是典型的棧應用,雖然很多時候棧都是CPU系統在自動管理,我們只需要在鏈接文件里分配棧大小以及棧存放位置,但稍微瞭解一下棧的原理會更加利於我們去理解嵌入式代碼執行機制,以及幫助我們進一步去調試。 ...
  • 錯誤信息:./configure: error: C compiler cc is not found解決方案:yum -y install gcc gcc-c++ autoconf automake make 錯誤信息:./configure: error: the HTTP rewrite mo ...
  • 0. 本blog 簡單說明一下 Linux測試環境尤其是 CentOS測試環境的開發測試使用, 教程可能不會很長, 主要是入門. 0.1 Linux簡介: Linux 的歷史基本上不用闡述, linus作為自己的興趣愛好進行編碼實現的一種開源的操作系統. Linux很好的切合了GNU裡面一直沒有可用 ...
  • 1.flink運行時的組件 ​ Flink 運行時架構主要包括四個不同的組件,它們會在運行流處理應用程式時協同工作: 作業管理器(JobManager)、資源管理器(ResourceManager)、任務管理器(TaskManager), 以及分發器(Dispatcher)。因為 Flink 是用 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...