大數據之路【第十篇】：kafka消息系統

-Advertisement-

一、簡介 1、簡介簡介• Kafka是Linkedin於2010年12月份開源的消息系統• 一種分散式的、基於發佈/訂閱的消息系統 2、特點 – 消息持久化：通過O(1)的磁碟數據結構提供數據的持久化– 高吞吐量：每秒百萬級的消息讀寫– 分散式：擴展能力強– 多客戶端支持：java、php、py ...

一、簡介

1、簡介

簡介
• Kafka是Linkedin於2010年12月份開源的消息系統
• 一種分散式的、基於發佈/訂閱的消息系統

2、特點

– 消息持久化：通過O(1)的磁碟數據結構提供數據的持久化
– 高吞吐量：每秒百萬級的消息讀寫
– 分散式：擴展能力強
– 多客戶端支持：java、php、python、c++ ……
– 實時性：生產者生產的message立即被消費者可見

3、基本組件

• Broker：每一臺機器叫一個Broker
• Producer：日誌消息生產者，用來寫數據
• Consumer：消息的消費者，用來讀數據
• Topic：不同消費者去指定的Topic中讀，不同的生產者往不同的Topic中寫
• Partition：新版本才支持Partition，在Topic基礎上做了進一步區分分層

好處二：動態導入模塊（基於反射當前模塊成員）

註意：

• Kafka內部是分散式的、一個Kafka集群通常包括多個Broker
• 負載均衡：將Topic分成多個分區，每個Broker存儲一個或多個Partition
• 多個Producer和Consumer同時生產和消費消息

4、Topic

• 一個Topic是一個用於發佈消息的分類或feed名，kafka集群使用分區的日誌，每個分區都是有順序且不變的消息序列。

• commit的log可以不斷追加。消息在每個分區中都分配了一個叫offset的id序列來唯一識別分區中的消息

• 舉例：若創建topic1和topic2兩個topic，且分別有13個和19個分區，則整個集群上會相應會生成共32個文件夾

註意：

• 無論發佈的消息是否被消費，kafka都會持久化一定時間（可配置）。

• 在每個消費者都持久化這個offset在日誌中。通常消費者讀消息時會使offset值線性的增長，但實際上其位置是由消費者控制，它可以按任意順序來消費消息。

比如複位到老的offset來重新處理。
• 每個分區代表一個並行單元。

5、Message

• message（消息）是通信的基本單位，每個producer可以向一個topic（主題）
發佈一些消息。如果consumer訂閱了這個主題，那麼新發佈的消息就會廣播給
這些consumer。
• message format：
– message length : 4 bytes (value: 1+4+n)
– "magic" value : 1 byte
– crc : 4 bytes
– payload : n bytes

6、Producer

• 生產者可以發佈數據到它指定的topic中，並可以指定在topic里哪些消息分配到哪些分區（比如簡單的輪流分發各個分區或通過指定分區語義分配key到對應分

區）
• 生產者直接把消息發送給對應分區的broker，而不需要任何路由層。
• 批處理髮送，當message積累到一定數量或等待一定時間後進行發送。

7、Consumer

• 一種更抽象的消費方式：消費組（consumer group）
• 該方式包含了傳統的queue和發佈訂閱方式
– 首先消費者標記自己一個消費組名。消息將投遞到每個消費組中的某一個消費者實例上。
– 如果所有的消費者實例都有相同的消費組，這樣就像傳統的queue方式。
– 如果所有的消費者實例都有不同的消費組，這樣就像傳統的發佈訂閱方式。
– 消費組就好比是個邏輯的訂閱者，每個訂閱者由許多消費者實例構成(用於擴展或容錯)。
• 相對於傳統的消息系統，kafka擁有更強壯的順序保證。
• 由於topic採用了分區，可在多Consumer進程操作時保證順序性和負載均衡。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

windows核心編程01_錯誤處理

windows函數調用出錯時，可以通過方法去查詢出錯根源在哪裡。錯誤號是2，錯誤信息可以通過vs2010的工具->錯誤查找進行查找。也可以在調試debug時，輸入$err,hr，然後在watch視窗下，查看出錯原因。用戶也可以自定義錯誤。錯誤號碼可以使用微軟的，也可以自定義。 0-31位， ...
推薦幾個不追蹤隱私的搜索引擎

本文首發於：微信公眾號「運維之美」，公眾號 ID：Hi Linux。「運維之美」是一個有情懷、有態度，專註於 Linux 運維相關技術文章分享的公眾號。公眾號致力於為廣大運維工作者分享各類技術文章和發佈最前沿的科技信息。公眾號的核心理念是：分享，我們認為只有分享才能使我們的團體更強大。如果你想第一 ...
Linux--目錄管理與文件管理--02

******Linux目錄結構與目錄管理******* 一、Linux目錄結構： 1、目錄創建規則：FHS文件系統層次化標準指定了Linux操作系統的哪些目錄是一定要具備的 2、目錄的結構樹形結構： / rootfs 根文件系統；在系統啟動後，硬碟需要被使用就需要有驅動，驅動程式在grub1.5 ...
windows 10 mysql-8.0.17-winx64的安裝

1、官網下載，並解壓 https://dev.mysql.com/downloads/mysql/ 下載下來之後是一個zip的壓縮包文件：mysql-5.7.26-winx64.zip，然後對這個文件進行解壓；解壓之後，我把解壓的文件放在了D:\mysql-5.7.26-winx64下； 2、設置 ...
MySQL創建用戶和加限權

1.許可權管理我們知道我們的最高許可權管理者是root用戶，它擁有著最高的許可權操作。包括select、update、delete、update、grant等操作。那麼一般情況在公司之後DBA工程師會創建一個用戶和密碼，讓你去連接資料庫的操作，並給當前的用戶設置某個操作的許可權（或者所有許可權）。那麼這 ...
Hadoop的eclipse的插件是怎麼安裝的？

[學習筆記] 1）網上下載hadoop-eclipse-plugin-2.7.4.jar，將該jar包拷貝到Eclipse安裝目錄下的dropins文件夾下，我的目錄是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins，然後重啟Eclipse就可以看到M ...
Windows用Eclipse來開發hadoop的WordCount的helloworld

Windows用Eclipse來開發hadoop的WordCount的helloworld ...
瞭解MySQL

目前流行的資料庫 MySQL Oracle Microsoft SQLServer Microsoft Access PostgreSQL DB2/UDB InfoMax MySQL介紹世界上最流行的開源資料庫，支持任何平臺的操作系統，是一個強大的關係型資料庫，支持SQL 概念：Structure ...