# kafka 都有哪些特點？高吞吐量，低延遲可以熱擴展併發度高具有容錯性(掛的只剩1台也能正常跑) 可靠性高 # 在哪些場景下會選擇 kafka？ kafka的一些應用 - 日誌收集：一個公司可以用kafka可以收集各種服務的log，通過kafka以統一介面服務的方式開放給各種consum ...

kafka 都有哪些特點？

高吞吐量，低延遲
可以熱擴展
併發度高
具有容錯性(掛的只剩1台也能正常跑)
可靠性高

在哪些場景下會選擇 kafka？ kafka的一些應用

日誌收集：一個公司可以用kafka可以收集各種服務的log，通過kafka以統一介面服務的方式開放給各種consumer，例如hadoop、HBase、Solr等。
消息系統：解耦和生產者和消費者、緩存消息等。
用戶行為跟蹤：kafka經常被用來記錄web用戶或者app用戶的各種活動，如瀏覽網頁、搜索、點擊等活動，這些活動信息被各個伺服器發佈到kafka的topic中，然後訂閱者通過訂閱這些topic來做實時的監控分析，或者裝載到hadoop、數據倉庫中做離線分析和挖掘。
運營指標：kafka也經常用來記錄運營監控數據。包括收集各種分散式應用的數據，生產各種操作的集中反饋，比如報警和報告。
作為流式處理的數據源：比如spark streaming和 Flink

kafka 分區的目的？

分區對於kafka集群的好處是：實現負載均衡。

分區對於消費者和生產者來說，可以提高並行度，提高效率。--------提高消費者的並行度---》消費者組

kafka 是如何做到消息的有序性？

kafka中的每個 partition 中的消息在寫入時都是有序的（不斷追加），而且單獨一個 partition只能由一個消費者去消費，可以在裡面保證消息的順序性。但是分區之間的消息是不保證有序的。

kafka 的高可靠性是怎麼實現的？

多副本存儲
Producer發送數據時可配置ack=all, 並且裡面有hw 還有leader-epoch

kafka數據一致性原理

一致性指的是不論在什麼情況下，Consumer都能讀到一致的數據。

HW 高水位線在0.11版本之前，只用了高水位線來保證，但是這個裡面其實是會出現一些問題的，比如數據丟失，即使是ack等於-1的情況下，也可能會丟數據
LEO等

在0.11版本之後，新加了一個角色叫leader的紀元號，根據高水位線和紀元號來處理，再配上ack=-1的時候，基本上就不會丟數據了。。。。

kafka 在什麼情況下會出現消息丟失？

topic的副本如果只有1個，那麼一旦這個副本所在broker伺服器宕機，則有可能丟失；
producer往kafka寫入數據時，如果確認機制參數acks !=all，也可能會造成數據丟失；
不清潔選舉機制如果開啟，也可能造成數據丟失（不清潔選舉就是說在所有ISR副本全部宕機的情況下，可以讓OSR副本成為Leader，而OSR中的數據顯然不全；那麼，就算之前的Leader重新上線了，也會被進行日誌截斷）

怎麼儘可能保證 kafka 的可靠性

副本數>1
ack=all
min.insync.replicas >= 2

數據傳輸的語義有幾種？

數據傳輸的語義通常有以下三種級別：
設置消費者裡面有enable.auto.commit = true/false

最多一次: 消息不會被重覆發送，最多被傳輸一次，但也有可能一次不傳輸
最少一次: 消息不會被漏發送，最少被傳輸一次，但也有可能被重覆傳輸
精確一次（Exactly once）: 不會漏傳輸也不會重覆傳輸

kafka 消費者是否可以消費指定分區的消息？

可以，通過assign的方式指定要消費的topic及分區
如果我是subscribe 可以在在均衡監聽器的第二個重寫方法中使用

kafka 消費者是否從指定偏移量開始消費？

可以，通過seek指定偏移量後再開始消費

客戶端操作kafka消息是採用poll模式，還是push模式？

kafka最初考慮的問題是，customer應該從brokes拉取消息還是brokers將消息推送到consumer，也就是pull還是push。在這方面，Kafka遵循了一種大部分消息系統共同的傳統的設計：producer將消息推送到broker，consumer從broker拉取消息。

一些消息系統比如Scribe和Apache Flume採用了push模式，將消息推送到下游的consumer。這樣做有好處也有壞處：由broker決定消息推送的速率，對於不同消費速率的consumer就不太好處理了。消息系統都致力於讓consumer以最大的速率最快速的消費消息，但不幸的是，push模式下，當broker推送的速率遠大於consumer消費的速率時，consumer恐怕就要崩潰了。最終Kafka還是選取了傳統的pull模式。

pull模式的另外一個好處是consumer可以自主決定是否批量的從broker拉取數據。push模式必須在不知道下游consumer消費能力和消費策略的情況下決定是立即推送每條消息還是緩存之後批量推送。如果為了避免consumer崩潰而採用較低的推送速率，將可能導致一次只推送較少的消息而造成浪費。Pull模式下，consumer就可以根據自己的消費能力去決定這些策略。

pull有個缺點是，如果broker沒有可供消費的消息，將導致consumer不斷在迴圈中輪詢，直到新消息到達。為了避免這點，Kafka有個參數可以讓consumer阻塞直到新消息到達(當然也可以阻塞直到消息的數量達到某個特定的量這樣就可以批量拉取）

kafka 高效文件存儲設計特點

Kafka把topic中一個parition大文件分成多個小文件段，通過多個小文件段，就容易定期清除或刪除已經消費完文件，減少磁碟占用。預設存儲時間7天
通過索引信息可以快速定位message和確定response的最大大小。
通過index元數據全部映射到memory，可以避免segment file的IO磁碟操作。
通過索引文件稀疏存儲，可以大幅降低index文件元數據占用空間大小

kafka創建Topic時如何將分區分配給各Broker

副本因數不能大於 Broker 的個數；
第1個分區（partition_0）的第1個副本放置位置是隨機從brokerList選擇的；
其他分區的第一個副本放置位置相對於partition_0依次往後移。

如果我們有5個 Broker，5個分區，假設第1個分區放在第四個 Broker 上，那麼第2個分區將會放在第五個 Broker 上；第3個分區將會放在第一個 Broker 上；第4個分區將會放在第二個 Broker 上，依次類推；

各分區剩餘的副本相對於第一個副本放置位置由一個隨機數nextReplicaShift決定；

kafka的分區分佈策略是怎樣的？

分區分佈的計算策略如下

副本因數不能大於 Broker 的個數；
第一個分區（編號為0）的第一個副本放置位置是隨機從 brokerList 選擇的；
其他分區的第一個副本放置位置相對於第0個分區依次往後移。也就是如果我們有5個 Broker，5個分區，假設第1個分區放在第四個 Broker 上，那麼第2個分區將會放在第五個 Broker 上；第3個分區將會放在第一個 Broker 上；第4個分區將會放在第二個 Broker 上，依次類推；
剩餘副本相對於第1個副本放置位置是由一個隨機數nextReplicaShift 決定

kafka分區數可以增加或減少嗎？為什麼？

kafka允許對topic動態增加分區，但不支持減少分區

Kafka 分區數據不支持減少是由很多原因的，比如減少的分區其數據放到哪裡去？是刪除，還是保留？刪除的話，那麼這些沒消費的消息不就丟了。如果保留這些消息如何放到其他分區裡面？追加到其他分區後面的話那麼就破壞了 Kafka 單個分區的有序性。如果要保證刪除分區數據插入到其他分區保證有序性，那麼實現起來邏輯就會非常複雜。

kafka監控插件都有哪些？

kafka manager
kafka-offset-monitor ：主要做消費者偏移量的監控
kafka-eagle：功能很強大！（現已改名為：EFAK —— eagle for apache kafka）

kafka 的消費者組分區分配再均衡

在Kafka中，當有新消費者加入或者訂閱的topic數發生變化時，會觸發rebalance(再均衡：在同一個消費者組當中，分區的所有權從一個消費者轉移到另外一個消費者)機制，Rebalance顧名思義就是重新均衡消費者消費。
Rebalance的過程如下：

第一步：所有成員都向coordinator發送請求，請求入組。一旦所有成員都發送了請求，coordinator會從中選擇一個consumer擔任leader的角色，並把組成員信息以及訂閱信息發給leader。
第二步：leader開始分配消費方案，指明具體哪個consumer負責消費哪些topic的哪些partition。一旦完成分配，leader會將這個方案發給coordinator。coordinator接收到分配方案之後會把方案發給各個consumer，這樣組內的所有成員就都知道自己應該消費哪些分區了。

對於rebalance來說，group coordinator起著至關重要的作用

消費者和消費者組有什麼關係？

每個消費者從屬於消費組。消費者通過一個參數：group.id 來指定所屬的組；
可以把多個消費者的group.id設置成同一個值，那麼這幾個消費者就屬於同一個組；
比如，讓c-1，c-2,c-3的group.id=“g1",那麼c-1,c-2,c-3這3個消費者都屬於g1消費組；
一個消費者，在本質上究竟如何定義：一個消費者可以是一個線程，也可以是一個進程，本質上就是一個consumer對象實例！
消費者組的意義：（可以讓多個消費者組成一個組，並共同協作來消費數據，提高消費並行度）一個消費組中的各消費者，在消費一個topic的數據時，互相不重覆！如果topic的某分區被組中的一個消費消費，那麼，其他消費者就不會再消費這個分區了；

kafka新建的分區會在哪創建存儲目錄

log.dirs參數，其值是 kafka 數據的存放目錄；
這個參數可以配置多個目錄，目錄之間使用逗號分隔，通常這些目錄是分佈在不同的磁碟上用於提高讀寫性能。
如果log.dirs參數只配置了一個目錄，那麼分配到各個 broker 上的分區肯定只能在這個目錄下創建文件夾用於存放數據。
但是如果log.dirs參數配置了多個目錄，那麼 kafka 會在哪個文件夾中創建分區目錄呢？答案是：Kafka 會在含有分區目錄最少的文件夾中創建新的分區目錄，分區目錄名為 Topic名+分區ID。
註意，是分區文件夾總數最少的目錄，而不是磁碟使用量最少的目錄！也就是說，如果你給 log.dirs 參數新增了一個新的磁碟，新的分區目錄肯定是先在這個新的磁碟上創建直到這個新的磁碟目錄擁有的分區目錄不是最少為止。

Kafka面試題