哈嘍大家好,我是鹹魚 今天我們繼續來講一講 Kafka 當有消息被生產出來的時候,如果沒有指定分區或者指定 key ,那麼消費會按照【輪詢】的方式均勻地分配到所有可用分區中,但不一定按照分區順序來分配 我們知道,在 Kafka 中消費者可以訂閱一個或多個主題,並被分配一個或多個分區 如果一個消費者消 ...
哈嘍大家好,我是鹹魚
今天我們繼續來講一講 Kafka
當有消息被生產出來的時候,如果沒有指定分區或者指定 key ,那麼消費會按照【輪詢】的方式均勻地分配到所有可用分區中,但不一定按照分區順序來分配
我們知道,在 Kafka 中消費者可以訂閱一個或多個主題,並被分配一個或多個分區
如果一個消費者消費了多個分區,某些場景下消費者需要順序地消費消息,但消息並不是按照順序分配給分區的,所以就不一定能夠保證消息消費的全局順序性
比如下圖中 Msg0002
消息並不是在 Msg0001
消息之後的,就有可能導致消費者先把 Msg0002
消息給消費, Msg0001
消息才被消費
那麼這種情況該怎麼解決?如何儘可能地保證消息消費的全局順序性?(即這些消息具有因果關係)要想消費消息 B 必須先消費消息 A
要註意的是,Kafka 的設計目標是提供高吞吐量和低延遲,而不是強制保證全局有序性
所以這篇文章探討的是需要強調全局順序性場景下的 Kafka 應用
單分區
最簡單粗暴的方法,雖然 Kafka 不能保證全局消費順序性,但是能夠保證分區內的消息順序性
所以我們可以只創建一個分區,並讓消費者消費這個分區,這樣就能夠保證消費的消息是有序的
但是這樣做大大降低了吞吐量和處理效率,容易使得性能出現瓶頸
基於 key
在 Kafka 中,基於 key 的消息分配策略是通過消息中的鍵(key)來確定消息發送到哪個分區
當生產者發送消息時,可以指定一個鍵(key),Kafka 使用這個鍵通過哈希演算法來確定消息被髮送到哪個分區
由於相同的 key 就發送到同一分區,這樣就能夠保證了消費的消息是有序的
然而,如果只有一個消費者消費相同 key 的消息,那麼與單分區相比,基於 key 的消息分配策略不會提高吞吐量
因為即使相同 key 的消息在多個分區中,但同一消費者依然只能從一個分區中消費,這並不會增加整體的處理能力。
但如果有多個消費者消費相同 key 的消息,基於 key 的分區策略可以提高消費者並行消費的能力
因為這些消費者可以同時從不同分區中讀取消息,從而增加整體的處理速度。這種情況下,基於 key 的消息分配可以提高整體吞吐量
最後總結一下:
-
Kafka 的設計目標是提供高吞吐量和低延遲,而不是強制保證全局有序性,所以Kafka使用多分區的概念,並且只保證單分區有序
-
如果想要實現消息的全局有序
-
單分區策略:
一個主題下只創建一個分區,一個消費者只消費一個分區,但這樣做毫無併發性可言,極大降低系統性能
-
基於 key 的消息分配策略:
由於相同的 key 就發送到同一分區,這樣就能夠保證了消費的消息是有序的。然而,如果只有一個消費者消費相同 key 的消息,與前面單分區相比沒有什麼區別
-