RabbitMQ vs Kafka：正面交鋒！_ZenDei技術網路在線

介紹作為一名有著大量微服務系統處理經驗的軟體架構師，我經常遇到一個不斷重覆的問題：“我應該使用 RabbitMQ 還是 Kafka？” 出於某種原因，許多開發人員認為這些技術是可以互換的。雖然在某些情況下確實如此，但 RabbitMQ 還是 Kafka 之間存在根本上的差異。因此，不同的場景需要 ...

介紹

作為一名有著大量微服務系統處理經驗的軟體架構師，我經常遇到一個不斷重覆的問題：“我應該使用 RabbitMQ 還是 Kafka？”

出於某種原因，許多開發人員認為這些技術是可以互換的。雖然在某些情況下確實如此，但 RabbitMQ 還是 Kafka 之間存在根本上的差異。

因此，不同的場景需要不同的，選擇錯誤的方案會嚴重影響我們的系統開發設計以及後續維護。

本系列的第 1 部分解釋了 RabbitMQ 和 Apache Kafka 的內部實現概念。本文作為第二部分將繼續回顧這兩個消息平臺之間的顯著差異。

然後本文將繼續向大家解釋 RabbitMQ 和 Apache Kafka 內部實現，並評估它們之間的使用場景。

推薦一個開源免費的 Spring Boot 實戰項目：

https://github.com/javastacks/spring-boot-best-practice

RabbitMQ 和 Kafka 的顯著區別

RabbitMQ 是一個消息代理中間件，而 Apache Kafka 是一個分散式流處理平臺。這種差異可能看起來只是語義上的，但它會帶來嚴重的影響，影響我們方便地實現各種系統功能。

例如 Kafka 最適合處理流數據，在同一主題同一分區內保證消息順序，而 RabbitMQ 對流中消息的順序只提供基本的保證。

不過 RabbitMQ 內置了對重試邏輯和死信交換的支持，而 Kafka 將此類邏輯實現留給了用戶。

消息順序

RabbitMQ 對發送到隊列或交換器的消息的順序性提供了很少的保證。雖然消費者按照生產者發送消息的順序處理消息似乎很合理，但其實並不是這樣。

RabbitMQ 文檔聲明瞭以下有關其消息順序的內容：

“在一個通道中發佈的消息，經過一個交換機、一個隊列和一個傳出通道後，將按照發送的順序被接收。” — RabbitMQ Broker Semantics

換句話說，當我們只有一個消息消費者，它就會按順序接收消息。然而一旦我們有多個消費者從同一個隊列讀取消息，我們就無法保證消息的處理順序。

發生這種缺乏排序保證的情況是因為消費者可能會在讀取消息後將消息返回（或重新傳遞）到隊列（例如在處理失敗的情況下）。

一旦消息返回，另一個消費者就可以拿起它進行處理，即使它已經消費了後面的消息。因此多個消費者之間無法有序處理消息，如下圖所示。

使用 RabbitMQ 時丟失消息排序的示例

我們可以通過將消費者併發數限製為 1 來重新保證 RabbitMQ 中的消息順序。更準確地說，單個消費者內的線程計數要限製為 1，因為任何並行的消息處理都可能導致消息亂序問題。

如果我們將自己限製為一個單線程消費者雖然能保證消息順序，但這會嚴重影響我們系統擴展消息的處理能力，因此我們不應該輕易的這樣做。

另一方面，Kafka 為消費者在消息處理時提供了可靠的排序保證。Kafka 保證發送到同一主題分區的所有消息都按順序處理。

如果你還記得第 1 部分內容，預設情況下，Kafka 使用迴圈分區程式將消息放置在分區中。但是生產者可以在每個消息上設置分區鍵，以創建邏輯數據流(例如來自同一設備的消息，或屬於同一租戶的消息)。

來自同一數據流的所有消息都會被放置在同一分區中，從而使消費者組按順序處理它們。

我們應該註意到，在消費者組中，每個分區都是由單個消費者的單個線程處理的。因此我們無法擴展單個分區的處理。

不過在 Kafka 中，我們可以擴展主題內的分區數量，從而使每個分區接收更少的消息，併為額外的分區添加額外的消費者。

贏家

Kafka 是明顯的贏家，因為它允許消息按順序處理。RabbitMQ 在這方面只有較弱的保證。

推薦一個開源免費的 Spring Boot 實戰項目：

https://github.com/javastacks/spring-boot-best-practice

消息路由

RabbitMQ 可以根據訂閱者定義的路由規則將消息路由到消息交換機的訂閱者。

主題交換（topic exchange）可以基於名為 routing_key 的專用標頭來路由消息。

標頭交換（headers exchange）可以基於任意消息標頭路由消息。這兩種交換都有效地允許消費者指定他們有興趣接收的消息類型，從而為架構師選擇消息平臺提供了極大的靈活性。

exchange-headers 官網解釋：https://www.rabbitmq.com/tutorials/amqp-concepts.html#exchange-headers

topic exchange 官網解釋：https://www.rabbitmq.com/tutorials/amqp-concepts.html#exchange-topic

Kafka 不允許消費者在輪詢主題之前過濾主題中的消息。訂閱的消費者無一例外地接收分區中的所有消息。

作為開發人員，你可以使用 Kafka 用於流作業，該作業從主題讀取消息，過濾它們，然後將它們推送到消費者訂閱的另一個主題。儘管也可以實現，但相比與 RabbitMQ 需要更多的努力和維護，並且需要更多的活動部件。

贏家

RabbitMQ 在路由和過濾消息供消費者使用時提供卓越的支持。

消息計時

RabbitMQ 提供了有關延時消息發送到隊列的各種功能：

消息生存時間 (TTL)

TTL 屬性可以與發送到 RabbitMQ 的每條消息相關聯。設置 TTL 可以由發佈者直接完成，也可以作為隊列本身的策略來完成。

指定 TTL 允許系統限制消息的有效期。如果消費者沒有及時處理它，那麼它會自動從隊列中刪除（並轉移到死信交換，稍後會詳細介紹）。

TTL 對於時間敏感但經過一段時間而沒有處理後就變得無關緊要的命令特別有用。

延遲/定時消息

RabbitMQ 通過使用插件支持延遲/預定消息。當在消息交換上啟用此插件時，生產者可以向 RabbitMQ 發送消息，並且生產者可以延遲 RabbitMQ 將此消息路由到消費者隊列的時間。

此功能允許開發人員安排未來的命令，這些命令在此之前不應該被處理。例如當生產者遇到限制規則時，我們可能希望將特定命令的執行延遲到稍後的時間。

Kafka 不支持此類功能。當消息到達時，它將消息寫入分區，消費者可以立即使用它們。

此外 Kafka 沒有為消息提供 TTL 機制，儘管我們可以在應用程式級別實現一種機制。

我們還必須記住，Kafka 分區是一個僅追加的事務日誌。因此它無法操縱消息時間（或分區內的位置）。

贏家

RabbitMQ 毫無疑問地贏得了這一項目的勝利。

消息保留

一旦消費者成功消費消息，RabbitMQ 就會從存儲中刪除消息。此行為幾乎是所有消息代理平臺的一種設計，無法修改。

相比之下，Kafka 根據設計將所有消息保留至每個主題配置的超時時間。在消息保留方面，Kafka 不關心消費者的消費狀態，因為它充當消息日誌。

消費者可以根據需要消費每條消息，並且可以通過操縱分區偏移量“及時”來回移動。Kafka 會定期檢查主題中消息的年齡，並驅逐那些足夠老的消息。

Kafka 的性能不依賴於存儲大小。因此從理論上講，人們幾乎可以無限期地存儲消息，而不會影響性能（只要你的節點足夠大來存儲這些分區）。

贏家

Kafka 設計上就旨在消息保留，而 RabbitMQ 則不然。這裡不需要競爭，Kafka 被宣佈為獲勝者。

故障處理

在處理消息、隊列和事件時，開發人員通常會認為消息處理總是成功。畢竟由於生產者將每條消息都放置在隊列或主題中，即使消費者處理消息失敗，它也可以簡單地重試，直到成功為止。

雖然錶面上確實如此，但我們應該對這個過程進行更多思考。我們應該承認，消息處理在某些情況下可能會失敗。我們應該優雅地處理這些情況，即使部分情況下需要人為干預。

處理消息時可能出現兩類錯誤：

瞬時故障 — 由於臨時問題（例如網路連接、CPU 負載或服務崩潰）而發生的故障。我們通常可以通過一遍又一遍地重試來緩解這種失敗。
持續性故障 — 由於無法通過額外重試解決的永久性問題而發生的故障。這些失敗的常見原因是軟體錯誤或無效的消息模式（即有害消息）。

作為架構師和開發人員，我們應該問自己：“消息處理失敗時我們應該重試多少次？兩次重試之間應該等待多長時間？我們如何區分暫時性故障和持續性故障？”

最重要的是：“當所有重試都失敗或遇到持續失敗時，我們該怎麼辦？”

雖然這些問題的答案是特定於領域的，但消息傳遞平臺通常為我們提供解決工具。

RabbitMQ 提供了傳遞重試和死信交換 (DLX) 等工具來處理消息處理失敗。

DLX 的主要思想是 RabbitMQ 可以根據適當的配置自動將失敗的消息路由到 DLX，併在此交換中對消息應用進一步的處理規則，包括延遲重試、重試計數以及交付給“人工干預”隊列。

下文提供了有關在 RabbitMQ 中處理重試的可能模式的更多見解。

https://engineering.nanit.com/rabbitmq-retries-the-full-story-ca4cc6c5b493?gi=3b2440cf4efd

這裡要記住的最重要的事情是，在 RabbitMQ 中，當消費者忙於處理和重試特定消息時（甚至在將其返回到隊列之前），其他消費者可以併發處理該消息之後的消息。

當特定消費者重試特定消息時，整個消息處理不會被卡住。因此消息使用者可以根據需要同步重試消息，而不會影響整個系統。

消費者1可以繼續重試消息1，而其他消費者則繼續處理消息

與 RabbitMQ 相反，Kafka 不提供任何開箱即用的此類工具。對於 Kafka 我們需要在應用程式中提供和實現消息重試機制。

另外我們應該註意，當消費者忙於同步重試特定消息時，無法處理來自同一分區的其他消息。

我們無法拒絕並重試特定消息並提交該消息之後的消息，因為消費者無法更改消息順序。正如你所記得的，分區只是一個僅追加日誌。

有一種類型的解決方案是應用程式可以將失敗的消息提交到“重試主題”並從那裡處理重試，不過這樣我們就會失去了消息的順序性。

Uber 工程部提供瞭解決此類問題的示例，可以在 Uber.com 上找到。如果消息處理的延遲不是問題，那麼使用普通 Kafka 可能就足夠了。

Uber.com 地址：https://eng.uber.com/reliable-reprocessing/

如果消費者在重試消息時遇到困難，則不會處理底部分區中的消息

贏家

RabbitMQ 是該項目上的贏家，因為它提供了一種開箱即用的解決此問題的工具。

擴展性

有多個基準測試可以測試 RabbitMQ 和 Kafka 的性能。

雖然通用基準測試對特定情況的適用性有限，但 Kafka 通常被認為比 RabbitMQ 具有更好的性能。Kafka 使用順序磁碟 I/O 來提高性能。

它使用分區的架構意味著它的水平擴展（橫向擴展）比 RabbitMQ 更好，而 RabbitMQ 的垂直擴展（縱向擴展）更好。

大型 Kafka 的集群部署通常每秒可以處理數十萬條消息，甚至每秒處理數百萬條消息。

過去的時間里，Pivotal 團隊發佈了 RabbitMQ 集群可以每秒處理 100 萬條消息的文章如下。然而它是在 30 個節點的集群上實現的，負載以最佳方式分佈在多個隊列和交換器上。

RabbitMQ Hits One Million Messages Per Second on Google Compute Engine，地址：https://tanzu.vmware.com/content/blog/rabbitmq-hits-one-million-messages-per-second-on-google-compute-engine

典型的 RabbitMQ 部署包括三到七個節點集群，這些節點集群不一定能最佳地分配隊列之間的負載。這些典型的集群通常只能每秒處理數萬條消息的負載。