Kafka之Producer_ZenDei技術網路在線

通過https://www.cnblogs.com/tree1123/p/11243668.html 已經對consumer有了一定的瞭解。producer比consumer要簡單一些。一、舊版本producer 0.9.0.0版本以前，是由scala編寫的舊版本producer。入口類：kaf ...

通過https://www.cnblogs.com/tree1123/p/11243668.html 已經對consumer有了一定的瞭解。producer比consumer要簡單一些。

一、舊版本producer

0.9.0.0版本以前，是由scala編寫的舊版本producer。

入口類：kafka.producer.Producer

代碼示例：

Properties properties = new Properties();
        properties.put("metadata.broker.list", "kafka01:9092,kafka02:9092");
        properties.put("serializer.class", "kafka.serializer.StringEncoder");
        properties.put("request.requird.acks", "1");
        ProducerConfig config = new ProducerConfig(properties);
        Producer<String, String> producer = new Producer<String, String>(config);
        KeyedMessage<String,String> msg = new KeyedMessage<String,String>("topic","hello");
        Producer.send(msg);

舊版本是同步機制，等待響應。吞吐性很差。在0.9.0.0版本以後，正式下架了。

舊版本的方法：

send   發送
close   關閉
sync   非同步發送  有丟失消息的可能性

二、新版本producer

舊版本producer由scala編寫，0.9.0.0版本以後，新版本producer由java編寫。

新版本主要入口類是：org.apache.kafka.clients.producer.KafkaProducer

常用方法：

send  實現消息發送主邏輯
close  關閉producer   
metrics  獲取producer的實時監控指標數據 比如發送消息的速率

Kafka producer要比consumer設計簡單一些，主要就是向某個topic的某個分區發送一條消息。partitioner決定向哪個分區發送消息。用戶指定key，預設的分區器會根據key的哈希值來選擇分區，如果沒有指定key就以輪詢的方式選擇分區。也可以自定義分區策略。

確定分區後，producer尋找到分區的leader，也就是該leader所在的broker，然後發送消息，leader會進行副本同步ISR。

producer會啟兩個線程，主線程封裝ProducerRecord類，序列化後發給partitioner，然後發送到記憶體緩衝區。

另一個I/O線程，提取消息分batch統一發送給對應的broker。

示例代碼：

Properties properties = new Properties();
        properties.put("bootstrap.servers", "kafka01:9092,kafka02:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);
        for (int i = 1; i <= 600; i++) {
            kafkaProducer.send(new ProducerRecord<String, String>("z_test_20190430", "testkafka0613"+i));
            System.out.println("testkafka"+i);
        }
        kafkaProducer.close();

1、構造Properties對象，bootstrap.servers key.serializer value.serializer是必須指定的。

2、使用Properties構造KafkaProducer對象。

3、構造ProducerRecord 指定topic 分區 key value。

4、KafkaProducer的send方法發送。

5、關閉KafkaProducer。

Properties主要參數：

bootstrap.servers 和consumer一樣，指定部分broker即可。而且broker端如果沒有配ip地址，要寫成主機名。

key.serializer value.serializer 序列化參數一定要全類名沒有key也必須設置。

acks 三個值

0： producer完全不管broker的處理結果回調也就沒有用了並不能保證消息成功發送但是這種吞吐量最高

all或者-1： leader broker會等消息寫入並且ISR都寫入後才會響應，這種只要ISR有副本存活就肯定不會丟失，但吞吐量最低。

1：預設的值 leader broker自己寫入後就響應，不會等待ISR其他的副本寫入，只要leader broker存活就不會丟失，即保證了不丟失，也保證了吞吐量。

buffer.memory 緩衝區大小位元組預設是33554432 就是發送消息的記憶體緩衝區大小過小的話會影響吞吐量

compression.type 設置是否壓縮消息預設值是none 壓縮後可以降低IO開銷提高吞吐，但是會增大CPU開銷。

支持三種： GZIP Snappy LZ4 性能 LZ4 > Snappy > GZIP

retries 發送消息重試的次數預設0 不重試重試可能造成重覆發送可能造成亂序

retry.backoff.ms 設置重試間隔預設100毫秒

batch.size 調優重要的參數 batch小吞吐量也會小 batch大記憶體壓力會大預設值是16384 16KB

linger.ms 發送延時預設是0 0的話不用等batch滿就發送延時的話可以提高吞吐看具體情況進行調整

max.request.size producer能夠發送最大消息的大小預設1048576位元組如果消息很大需要修改它

request.timeout.ms 發送請求後broker在規定時間返回預設30秒超過就是超時了。

Send方法

fire and forget 就是上邊的示例

Properties properties = new Properties();
        properties.put("bootstrap.servers", "kafka01:9092,kafka02:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);
        for (int i = 1; i <= 600; i++) {
            kafkaProducer.send(new ProducerRecord<String, String>("z_test_20190430", "testkafka0613"+i));
            System.out.println("testkafka"+i);
        }
        kafkaProducer.close();

非同步回調不阻塞

Properties properties = new Properties();
        properties.put("bootstrap.servers", "kafka01:9092,kafka02:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);
        for (int i = 1; i <= 600; i++) {
            kafkaProducer.send(new ProducerRecord<String, String>("z_test_20190430", "testkafka0613"+i),new Callback(){
              public void onCompletion(RecordMetadata metadata, Exception e) {
                         if(e != null) {
                            e.printStackTrace();
                         } else {
                            System.out.println("The offset of the record we just sent is: " +       metadata.offset());
                         }
                     }           
            });
            System.out.println("testkafka"+i);
        }
        kafkaProducer.close();

同步發送無限等待返回

producer.send（record).get()

重試機制

如果需要自定義重試機制，就要在回調里對不同異常區別對待，常見的幾種如下：

可重試異常

LeaderNotAvailableException :分區的Leader副本不可用，這可能是換屆選舉導致的瞬時的異常，重試幾次就可以恢復
NotControllerException:Controller主要是用來選擇分區副本和每一個分區leader的副本信息，主要負責統一管理分區信息等，也可能是選舉所致。

NetWorkerException :瞬時網路故障異常所致。

不可重試異常

SerializationException:序列化失敗異常

RecordToolLargeException:消息尺寸過大導致。

示例代碼：

 producer.send(myRecord,
                   new Callback() {
                       public void onCompletion(RecordMetadata metadata, Exception e) {
                           if(e ==null){
                               //正常處理邏輯
                               System.out.println("The offset of the record we just sent is: " + metadata.offset()); 
                               
                           }else{
                                   
                                 if(e instanceof RetriableException) {
                                    //處理可重試異常
                                    ......
                                 } else {
                                    //處理不可重試異常
                                    ......
                                 }
                           }
                       }
                   });

分區機制

partitioner決定向哪個分區發送消息。用戶指定key，預設的分區器會根據key的哈希值來選擇分區，如果沒有指定key就以輪詢的方式選擇分區。也可以自定義分區策略。

對於有key的消息，java版本的producer自帶的partitioner會根據murmur2演算法計算消息key的哈希值。然後對總分區數求模得到消息要被髮送到的目標分區號。

自定義分區策略：

創建一個類，實現org.apache.kafka.clients.producer.Partitioner介面

主要分區邏輯在Partitioner.partition中實現：通過topic key value 一同確定分區

在構造KafkaProducer得Properties中設置partitioner.class 為自定義類註意是全類名

序列化機制

常用的serializer

ByteArraySerializer.class

ByteBufferSerializer.class

BytesSerializer.class

DoubleSerializer.class

IntegerSerializer.class

LongSerializer.class

StringSerializer.class

但是其他一些複雜的就需要自定義序列化：

1、定義數據格式

2、創建自定義序列化類，實現org.apache.kafka.common.serialization.Serializer介面

3、在KafkaProducer的Properties中設置key.serializer value.serializer為自定義類

以上均為單線程的情況，但producer是線程安全的，單線程適合分區較少的情況，分區較多可以多線程但對記憶體損耗較大。

更多實時計算，Kafka等相關技術博文，歡迎關註實時流式計算