最好的重試是指數後退和抖動

-Advertisement-

1. 概述在本教程中，我們將探討如何使用兩種不同的策略改進客戶端重試：指數後退和抖動。 2. 重試在分散式系統中，多個組件之間的網路通信隨時可能發生故障。客戶端應用程式通過實現重試來處理這些失敗。設想我們有一個調用遠程服務的客戶端應用程式—— PingPongService 。如果 Pin ...

1. 概述

在本教程中，我們將探討如何使用兩種不同的策略改進客戶端重試：指數後退和抖動。

2. 重試

在分散式系統中，多個組件之間的網路通信隨時可能發生故障。

客戶端應用程式通過實現重試來處理這些失敗。

設想我們有一個調用遠程服務的客戶端應用程式—— PingPongService 。

interface PingPongService {
    String call(String ping) throws PingPongServiceException;
}

如果 PingPongService 返回一個 PingPongServiceException ，則客戶端應用程式必須重試。在以下選項當中，我們將考慮實現客戶端重試的方法。

3. Resilience4j 重試

在我們的例子中，我們將使用 Resilience4j 庫，特別是它的 retry 模塊。我們需要將添加 resilience4j-retry 模塊到 pom.xml ：

<dependency>
    <groupId>io.github.resilience4j</groupId>
    <artifactId>resilience4j-retry</artifactId>
</dependency>

關於重試的複習，不要忘記查看我們的 Resilience4j 指南。

4. 指數後退

客戶端應用程式必須負責地實現重試。當客戶在沒有等待的情況下重試失敗的調用時，他們可能會使系統不堪重負，並導致已經處於困境的服務進一步降級。

指數回退是處理失敗網路調用重試的常用策略。簡單地說，客戶端在連續重試之間等待的時間間隔越來越長：

wait_interval = base * multiplier^n

其中，

base 是初始間隔，即等待第一次重試
n 是已經發生的故障數量
multiplier 是一個任意的乘法器，可以用任何合適的值替換

通過這種方法，我們為系統提供了喘息的空間，以便從間歇性故障或更嚴重的問題中恢復過來。

我們可以在 Resilience4j 重試中使用指數回退演算法，方法是配置它的 IntervalFunction ，該函數接受 initialInterval 和 multiplier。

重試機制使用 IntervalFunction 作為睡眠函數：

IntervalFunction intervalFn =
  IntervalFunction.ofExponentialBackoff(INITIAL_INTERVAL, MULTIPLIER);

RetryConfig retryConfig = RetryConfig.custom()
  .maxAttempts(MAX_RETRIES)
  .intervalFunction(intervalFn)
  .build();
Retry retry = Retry.of("pingpong", retryConfig);

Function<String, String> pingPongFn = Retry
    .decorateFunction(retry, ping -> service.call(ping));
pingPongFn.apply("Hello");

讓我們模擬一個真實的場景，假設我們有幾個客戶端同時調用 PingPongService ：

ExecutorService executors = newFixedThreadPool(NUM_CONCURRENT_CLIENTS);
List<Callable> tasks = nCopies(NUM_CONCURRENT_CLIENTS, () -> pingPongFn.apply("Hello"));
executors.invokeAll(tasks);

讓我們看看 NUM_CONCURRENT_CLIENTS = 4 的遠程調用日誌：

[thread-1] At 00:37:42.756
[thread-2] At 00:37:42.756
[thread-3] At 00:37:42.756
[thread-4] At 00:37:42.756

[thread-2] At 00:37:43.802
[thread-4] At 00:37:43.802
[thread-1] At 00:37:43.802
[thread-3] At 00:37:43.802

[thread-2] At 00:37:45.803
[thread-1] At 00:37:45.803
[thread-4] At 00:37:45.803
[thread-3] At 00:37:45.803

[thread-2] At 00:37:49.808
[thread-3] At 00:37:49.808
[thread-4] At 00:37:49.808
[thread-1] At 00:37:49.808

我們可以在這裡看到一個清晰的模式——客戶機等待指數級增長的間隔，但是在每次重試（衝突）時，它們都在同一時間調用遠程服務。

我們只解決了問題的一部分 - 我們不再重新啟動遠程服務，但是，取而代之的是隨著時間的推移分散工作量，我們在工作時間間隔更多，空閑時間更長。此行為類似於驚群問題。

5. 介紹抖動

在我們前面的方法中，客戶機等待時間逐漸變長，但仍然是同步的。添加抖動提供了一種方法來中斷跨客戶機的同步，從而避免衝突。在這種方法中，我們給等待間隔增加了隨機性。

wait_interval = (base * 2^n) +/- (random_interval)

其中，random_interval 被添加（或減去）以打破客戶端之間的同步。

我們不會深入研究隨機區間的電腦制，但是隨機化必須將峰值空間分離到更平滑的客戶端調用分佈。

我們可以通過配置一個指數隨機回退 IntervalFunction，它也接受一個 randomizationFactor，從而在 Resilience4j 重試中使用帶有抖動的指數回退：

IntervalFunction intervalFn = 
  IntervalFunction.ofExponentialRandomBackoff(INITIAL_INTERVAL, MULTIPLIER, RANDOMIZATION_FACTOR);

讓我們回到我們的真實場景，並查看帶抖動的遠程調用日誌：

[thread-2] At 39:21.297
[thread-4] At 39:21.297
[thread-3] At 39:21.297
[thread-1] At 39:21.297

[thread-2] At 39:21.918
[thread-3] At 39:21.868
[thread-4] At 39:22.011
[thread-1] At 39:22.184

[thread-1] At 39:23.086
[thread-5] At 39:23.939
[thread-3] At 39:24.152
[thread-4] At 39:24.977

[thread-3] At 39:26.861
[thread-1] At 39:28.617
[thread-4] At 39:28.942
[thread-2] At 39:31.039

現在我們有了更好的傳播。我們已經消除了衝突和空閑時間，並以幾乎恆定的客戶端調用率結束，除非出現最初的激增。

註意：我們誇大了插圖的間隔時間，在實際情況中，我們會有較小的差距。

6. 結論

在本教程中，我們探討瞭如何通過使用抖動增加指數回退來改進客戶端應用程式重試失敗調用的方法。本教程中使用的示例的源代碼可以在 GitHub 上找到。

原文：https://www.baeldung.com/resilience4j-backoff-jitter

作者：Priyank Srivastava

譯者：Queena

9月福利，關註公眾號

後臺回覆：004，領取8月翻譯集錦!

往期福利回覆：001，002, 003即可領取！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

採集萬方醫葯方向的期刊+文章+作者信息(數據量千萬級)

最近將萬方數據的爬取代碼進行了重構，速度大概有10w每小時吧，因為屬於公司項目，代碼暫時就不開源了，所以在這裡先說說思路和一些註意事項吧，順帶吐槽一下萬方。先上圖：其實邏輯也蠻簡單的，醫學類的期刊分了16個大類，那麼首先手動將這16大類所對應的唯一id拿下來拼接出該類型的url，然後翻頁請求它就 ...
【C/C++】qsort函數的使用方法和細節

函數概述 qsort 為quick sort的簡寫，意為快速排序，主要用於對各種數組的排序，在頭文件stdlib.h中。因為數組的元素可能是任何類型的，甚至是結構或者聯合，所以必須高數函數qsort如何確定兩個數組元素哪一個“更小”，這就需要我們給出比較的規則，即什麼算大，什麼算小。通過編寫比較 ...
SpringCloud（五）Zuul網關與分散式配置中心

在 Spring Cloud 微服務系統中，一種常見的負載均衡方式是，客戶端的請求首先經過負載均衡（Ngnix），再到達服務網關（Zuul 集群），然後再到具體的服務。服務統一註冊到高可用的服務註冊中心集群，服務的所有的配置文件由配置服務管理，配置服務的配置文件放在 GIT 倉庫，方便開發人員隨時改 ...
java8 新特性精心整理(全)

前言越來越多的項目已經使用 "Java 8" 了，毫無疑問， "Java 8" 是Java自Java 5（發佈於2004年）之後的最重要的版本。這個版本包含語言、編譯器、庫、工具和 JVM 等方面的十多個新特性。在本文中我們將學習這些新特性，並用實際的例子說明在什麼場景下適合使用。引用：本文參 ...
R語言構建蛋白質網路並實現GN演算法

R語言構建蛋白質網路並實現GN演算法 1.蛋白質網路的構建我們使用與人類HIV相關的蛋白質互作數據hunam HIV PPI.csv來構建這個蛋白質互作網路。在R中，我們可以從存儲在R環境外部的文件讀取數據。還可以將數據寫入由操作系統存儲和訪問的文件。 R可以讀取和寫入各種文件格式，如：csv，e ...
如何保證消息的順序性？

面試題如何保證消息的順序性？面試官心理分析其實這個也是用 MQ 的時候必問的話題，第一看看你了不瞭解順序這個事兒？第二看看你有沒有辦法保證消息是有順序的？這是生產系統中常見的問題。面試題剖析我舉個例子，我們以前做過一個 mysql 同步的系統，壓力還是非常大的，日同步數據要達到上億，就是說 ...
elasticsearch Discovery 發現模塊學習

發現模塊和集群的形成目標發現節點 Master選舉組成集群，在Master信息發生變化時及時更新。故障檢測細分為幾個子模塊 Discovery發現模塊 Discover是在集群Master節點未知時，互相發現對方的過程，例如新節點的加入或是先前的主節點宕機，如果一個節點不滿足Master資 ...
JVM的一些工具的簡要使用

JConsole(可視化工具) 運行 JConsole記憶體監控測試代碼這裡看到我們有倆個線程。 JPS(JVM Process status) JPS是使用的頻率最高的工具，和linux下的ps命令差不多(把J去掉就是一個ps)。因為我這裡開啟了一個eclipse，所以運行結果如下所示：如果 ...