面試題百日百刷-kafka篇(二)_ZenDei技術網路在線

面試題百日百刷-kafka篇(二)

-Advertisement-

鎖屏面試題百日百刷，每個工作日堅持更新面試題。請看到最後就能獲取你想要的,接下來的是今日的面試題： 1.解釋一下，在數據製作過程中，你如何能從Kafka得到準確的信息？在數據中，為了精確地獲得Kafka的消息，你必須遵循兩件事: 在數據消耗期間避免重覆，在數據生產過程中避免重覆。這裡有兩種方法， ...

鎖屏面試題百日百刷，每個工作日堅持更新面試題。請看到最後就能獲取你想要的,接下來的是今日的面試題：

1.解釋一下，在數據製作過程中，你如何能從Kafka得到準確的信息？

在數據中，為了精確地獲得Kafka的消息，你必須遵循兩件事: 在數據消耗期間避免重覆，在數據生產過程中避免重覆。

這裡有兩種方法，可以在數據生成時準確地獲得一個語義:

每個分區使用一個單獨的寫入器，每當你發現一個網路錯誤，檢查該分區中的最後一條消息，以查看您的最後一次寫入是否成功

在消息中包含一個主鍵(UUID或其他)，併在用戶中進行反覆制

2.解釋如何減少ISR中的擾動？broker什麼時候離開ISR？

ISR是一組與leaders完全同步的消息副本，也就是說ISR中包含了所有提交的消息。ISR應該總是包含所有的副本，直到出現真正的故障。如果一個副本從leader中脫離出來，將會從ISR中刪除。

3.Kafka為什麼需要複製？

Kafka的信息複製確保了任何已發佈的消息不會丟失，並且可以在機器錯誤、程式錯誤或更常見些的軟體升級中使用。

4.如果副本在ISR中停留了很長時間表明什麼？

如果一個副本在ISR中保留了很長一段時間，那麼它就表明，跟蹤器無法像在leader收集數據那樣快速地獲取數據。

5.請說明如果首選的副本不在ISR中會發生什麼？

如果首選的副本不在ISR中，控制器將無法將leadership轉移到首選的副本。

6.Kafka有可能在生產後發生消息偏移嗎？

在大多數隊列系統中，作為生產者的類無法做到這一點，它的作用是觸發並忘記消息。broker將完成剩下的工作，比如使用id進行適當的元數據處理、偏移量等。

作為消息的用戶，你可以從Kafka broker中獲得補償。如果你註視SimpleConsumer類，你會註意到它會獲取包括偏移量作為列表的MultiFetchResponse對象。此外，當你對Kafka消息進行迭代時，你會擁有包括偏移量和消息發送的MessageAndOffset對象。

7.請說明Kafka 的消息投遞保證（delivery guarantee）機制以及如何實現？

Kafka支持三種消息投遞語義：

① At most once 消息可能會丟，但絕不會重覆傳遞

② At least one 消息絕不會丟，但可能會重覆傳遞

③ Exactly once 每條消息肯定會被傳輸一次且僅傳輸一次，很多時候這是用戶想要的

consumer在從broker讀取消息後，可以選擇commit，該操作會在Zookeeper中存下該consumer在該partition下讀取的消息的offset，該consumer下一次再讀該partition時會從下一條開始讀取。如未commit，下一次讀取的開始位置會跟上一次commit之後的開始位置相同。

可以將consumer設置為autocommit，即consumer一旦讀到數據立即自動commit。如果只討論這一讀取消息的過程，那Kafka是確保了Exactly once。但實際上實際使用中consumer並非讀取完數據就結束了，而是要進行進一步處理，而數據處理與commit的順序在很大程度上決定了消息從broker和consumer的delivery guarantee semantic。

·讀完消息先commit再處理消息。這種模式下，如果consumer在commit後還沒來得及處理消息就crash了，下次重新開始工作後就無法讀到剛剛已提交而未處理的消息，這就對應於At most once。

·讀完消息先處理再commit消費狀態(保存offset)。這種模式下，如果在處理完消息之後commit之前Consumer crash了，下次重新開始工作時還會處理剛剛未commit的消息，實際上該消息已經被處理過了，這就對應於At least once。

·如果一定要做到Exactly once，就需要協調offset和實際操作的輸出。經典的做法是引入兩階段提交，但由於許多輸出系統不支持兩階段提交，更為通用的方式是將offset和操作輸入存在同一個地方。比如，consumer拿到數據後可能把數據放到HDFS，如果把最新的offset和數據本身一起寫到HDFS，那就可以保證數據的輸出和offset的更新要麼都完成，要麼都不完成，間接實現Exactly once。（目前就high level API而言，offset是存於Zookeeper中的，

無法存於HDFS，而low level API的offset是由自己去維護的，可以將之存於HDFS中）。

總之，Kafka預設保證At least once，並且允許通過設置producer非同步提交來實現At most once，而Exactly once要求與目標存儲系統協作，Kafka提供的offset可以較為容易地實現這種方式。

全部內容在git上,瞭解更多請點我頭像或到我的主頁去獲得，謝謝

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

CAD二次開發，安裝程式中寫註冊表

話接上篇 [ASP.NET Core - 緩存之記憶體緩存(上)]，所以這裡的目錄從 2.4 開始。 2.4 MemoryCacheEntryOptions MemoryCacheEntryOptions 是記憶體緩存配置類，可以通過它配置緩存相關的策略。除了上面講到的過期時間，我們還能夠設置下麵這些： ...
CommunityToolkit.Mvvm8.1 viewmodel源生成器寫法(3)

本系列文章導航 https://www.cnblogs.com/aierong/p/17300066.html https://github.com/aierong/WpfDemo (自我Demo地址) 希望提到的知識對您有所提示,同時歡迎交流和指正作者:aierong出處:https://www ...
RDIF.vNext全新低代碼快速開發框架平臺發佈

RDIF.vNext，全新低代碼快速開發集成框架平臺，給用戶和開發者最佳的.Net框架平臺方案，為企業快速構建垮平臺、企業級的應用提供強大支持。框架採用最新主流技術開發（.Net6+/Vue前後端分離，支持分散式部署，跨平臺運行），前後端分離架構。支持常用多種資料庫類型，支持Web、App、客戶端應... ...
操作系統-區分文件共用的兩種方式：軟鏈接和硬鏈接

軟鏈接與硬鏈接是用來乾什麼的呢？為解決文件的共用使用，Linux 系統引入了兩種鏈接：硬鏈接 (hard link) 與軟鏈接（又稱符號鏈接，即 soft link 或 symbolic link）。鏈接為 Linux 系統解決了文件的共用使用，還帶來了隱藏文件路徑、增加許可權安全及節省存儲等好處。 ...
win10遠程桌面連接，使用正確的用戶名和密碼仍然不能成功連接

最近筆記本重置後，台式使用“遠程桌面連接”遠程筆記本失敗了，總是提示“登錄沒有成功”。開始自查：win10專業版，允許遠程的相關設置也都開了，連接的ip正確，也沒問題。因為我的筆記本用戶是用微軟賬戶登錄的，遠程時用戶名和密碼也要用微軟用戶名和密碼（不是那個PIN碼）。再三確認用戶名和密碼是對的後， ...
文件系統變成RAW問題解決

問題描述對於打開分區提示需要格式化的情況，右擊屬性查看時，文件系統變成了RAW了，沒有關係很好恢復，千萬不要格式化。問題分析可以看到該分區說明分區表沒有問題，這是由於DBR扇區（即啟動扇區）損壞造成的。以上聽不懂分析沒有關係，對你的恢復影響不大。有兩種方法恢復： 1、用軟體自動進行修複，如 ...
從內核源碼看 slab 記憶體池的創建初始化流程

在上篇文章《細節拉滿，80 張圖帶你一步一步推演 slab 記憶體池的設計與實現》中，筆者從 slab cache 的總體架構演進角度以及 slab cache 的運行原理角度為大家勾勒出了 slab cache 的總體架構視圖，基於這個視圖詳細闡述了 slab cache 的記憶體分配以及釋放原理 ...
qrtz表初始化腳本_mysql

DROP TABLE IF EXISTS qrtz_blob_triggers; DROP TABLE IF EXISTS qrtz_calendars; DROP TABLE IF EXISTS qrtz_cron_triggers; DROP TABLE IF EXISTS qrtz_fired ...