高可用三大利器 — 熔斷、限流和降級

来源:https://www.cnblogs.com/jzhlin/archive/2023/07/27/17585778.html
-Advertisement-
Play Games

在武俠世界里,“利器”通常指的是武器中的上乘、出色之物;武器對於武者的重要性不言而喻,擁有一把優秀的武器可以讓武者在戰鬥中更加得心應手,威力更強。在分散式系統追求高可用的背景下,熔斷、限流和降級這三個重要的策略可以稱得上三大利器。降級和熔斷是不是一回事?限流 與 降級呢? ...


近年來,各大廠Google、微軟、阿裡、騰訊等都在提高可用的概念。高可用(High Availability,簡稱HA)是指系統或服務在遭受故障或異常情況時仍能持續提供穩定和可靠的運行能力。

在武俠世界里,“利器”通常指的是武器中的上乘、出色之物;武器對於武者的重要性不言而喻,擁有一把優秀的武器可以讓武者在戰鬥中更加得心應手,威力更強。

在分散式系統追求高可用的背景下,熔斷、限流和降級這三個重要的策略可以稱得上三大利器。

熔斷(Circuit Breaker):熔斷是一種防止故障擴散的策略。當一個服務出現故障或超時,熔斷器會打開並快速失敗,拒絕後續的請求,避免請求堆積和資源耗盡。熔斷器會暫時屏蔽該服務,併在一段時間後嘗試恢復。熔斷器的狀態變化可用於監控系統健康和提供告警信息。

限流(Rate Limiting):限流是一種控制系統請求流量的策略。通過設置一個請求速率閾值,限流可以限制每個客戶端或用戶在特定時間內的請求次數。這樣可以防止過多的請求涌入系統,保護系統免受過載和壓力衝擊。限流可以平滑流量,避免系統突發流量的影響。

降級(Fallback):降級是一種在面對特殊業務或異常情況時保持系統可用的策略。當服務不可用時,降級服務會代替提供一些基本功能或返回預設的預設值,以確保系統依然能夠提供有限的功能或服務;又或者某些特定活動場景(例如:雙十一)下優先保障計算資源投入到 業務傾向的服務,降級邊緣服務。

熔斷(Circuit Breaker)

在分散式架構中,一個服務通常會與多個外部服務進行交互,這些外部服務可能是RPC介面、資料庫、第三方API等。例如,在支付過程中,可能需要調用銀聯提供的API;而查詢某個商品的價格,則可能需要進行營銷活動查詢。然而,除了自身服務外,依賴的外部服務的穩定性是無法絕對保證。

當依賴的第三方服務出現不穩定的情況時,例如三方伺服器過載,會導致服務自身調用第三方服務的響應時間也變長,甚者形成級聯效應。這樣一來,服務自身的線程可能會積壓,最終可能耗盡業務自身的線程池,導致服務本身變得不可用。

熔斷(Circuit Breaker)就是應對這種三方服務不穩定的設計,它可以幫助系統在出現問題時保持高可用,防止故障進一步擴散,同時也能在一段時間後重新嘗試恢復正常操作。避免局部不穩定因素導致整個分散式系統的雪崩。作為保護服務自身的手段,通常在客戶端(調用端)進行配置。

熔斷器模式(Circuit Breaker Pattern),是Michael Nygard在他的著作《Release It!》中開始推薦使用的。其可以防止應用程式反覆嘗試執行可能會失敗的操作,使其能夠繼續進行而無需等待故障被修複,也無需浪費CPU周期來確定故障是否持久。Circuit Breaker模式還使應用程式能夠檢測故障是否已解決。如果問題似乎已經解決,應用程式可以嘗試調用該操作。

註:這種設計也是典型的 快速失敗原則(Fail-Fast Principle) 的應用。強調在面對錯誤或異常情況時,系統應該儘早地檢測並快速失敗,而不是繼續執行可能導致更嚴重後果的操作。這個原則的目的是儘早發現問題並及時處理,避免故障進一步擴大,從而提高系統的穩定性和可靠性。

熔斷器模式中最關鍵的設計在於熔斷器的三種狀態:

  • Closed狀態:來自應用程式的請求被 Proxy 操作。Proxy 維護最近故障次數的計數,如果對操作的調用不成功,Proxy 會增加這個計數。如果在給定的時間段內最近故障的次數超過了指定的閾值,Proxy 將進入Open狀態。此時,Proxy 啟動一個超時計時器,當計時器到達閾值時,Proxy 將進入Half-Open狀態。(這裡 Proxy 代指 Resilience4j、Sentinel、Hystrix類似框架)

  • Open狀態:來自應用程式的請求立即失敗,並嚮應用程式返回異常。

  • Half-Open狀態:應用程式允許有限數量的請求通過並調用操作。如果這些請求成功,假定之前導致失敗的故障已經修複,將切換到Closed狀態(故障計數器被重置)。如果任何請求失敗,會認為故障仍然存在,因此它會回退到Open狀態,並重新啟動超時計時器,為系統提供進一步的時間來從故障中恢復。。

許多開源的框架都基於這三個狀態進行了熔斷實現的設計,比如:Resilience4j、Sentinel、Hystrix;就實際使用上推薦 Sentinel 和 Resilience4j ,因為 Hystrix 已經宣佈不維護了。附上,一張網上廣泛流傳的對比表格 [1]

開源框架僅僅只是熔斷機制的代碼實現,更重要的在於結合具體業務常見來設計相關的熔斷策略。這裡列出一些通常具體業務設計熔斷時候的考量點:

熔斷異常應該如何處理:三方服務處於在熔斷 Open狀態下,應該如何進行服務的返回。比如:用一個預設值來替代三方服務的返回結果;返回異常頁面告知用戶稍後再重試;調用其他的服務來替代原來的功能等。異常往往多樣的,也可以考慮不同異常下設置不同的處理方式。

應該記錄詳細日誌:註意異常日誌的記錄,確保關鍵信息都寫入日誌,往往線上故障異常的多樣的;好的日誌格式/日誌設計能夠快速的定位問題、監控熔斷策略符合預期。熔斷狀態的轉換需要詳細寫入,方便復盤熔斷策略。

是否需要診斷定時程式:當處於熔斷 Open狀態時,考慮是否需要來做個定時程式 測試三方服務是否恢復並轉換 到 Half-Open狀態,更靈活的恢復服務。

管理熔斷的工具:由於異常是多樣的,某些情況下意外觸發了熔斷;此時管理員可以通過熔斷工具來恢復相關狀態,應對熔斷策略出現問題的情況。

註意三方服務耗時:有時候三方服務能夠正常返回但耗時很長,這樣可能會導致自身服務的超時;針對這種情況應該進行相關超時熔斷處理,應該關註這種隱蔽的超時異常。

限流(Rate Limit)

無論伺服器的硬體多麼強大,總歸也是有限的資源只能處理有限的請求;簡單理解限流(Rate Limit)的話,在有限時間內請求數量超過服務的處理數量,自動丟棄新來的請求從而保障有限的請求高可用。

用日常例子來類比說明就很好理解,一個餐廳只有5張四人桌,理想坐滿的情況也也就是20個人;而如果涌進來50個人都點單,那麼每個人都無法正常的用餐。因此,要限制進來的人數是保障正常用餐。

同樣的對於系統而言,一次性接受超出硬體承載的資源,就會導致資源的劇烈競爭從而 導致請求服務的延遲、異常等等,無法提供到高可用的服務。為此,對服務進行限流保護是提供高可用的重要策略了。

以下是常見的限流演算法:

固定視窗計數限流演算法(Fixed Window Counter):在固定的時間視窗內,限制請求的數量。例如,在1秒內最多允許處理10個請求,當視窗滿時,後續請求將被拒絕。

滑動視窗計數限流演算法(Sliding Window Counter):設置一個滑動時間視窗,計算在該時間視窗內的請求數量,並限制其在指定範圍內。與固定視窗計數演算法相比,滑動視窗演算法允許更加靈活的流量控制。

令牌桶演算法(Token Bucket):令牌桶演算法通過將請求放入令牌桶中來控制流量。每個請求需要從令牌桶中獲取令牌,如果桶中沒有足夠的令牌,則請求被拒絕。令牌桶演算法允許突發流量一定程度的處理,並平滑了請求的速率。

  1. 令牌桶是一個固定容量的桶,它以恆定的速率產生令牌(即令牌產生速率),並將其放入桶中。
  2. 桶中最大可以保存的令牌數量為桶的容量,當桶滿時,多餘的令牌會被丟棄。
  3. 每當有請求到達時,如果令牌桶中有足夠的令牌,該請求會獲取一個令牌,並被處理。如果桶中沒有令牌可用,該請求將被延遲或丟棄。
  4. 令牌桶可以應用於固定視窗計數限流演算法和滑動視窗計數限流演算法。在固定視窗計數限流中,令牌桶以固定速率產生令牌,而在滑動視窗計數限流中,令牌桶按照滑動時間視窗的速率產生令牌。

令牌桶演算法的優點在於,它可以平滑地處理突發流量,即使在短時間內有大量請求到達,令牌桶演算法仍然能夠保持相對穩定的速率來處理這些請求。此外,令牌桶演算法還可以允許一定程度的突發流量,因為桶中積累的令牌可以處理突發的請求。令牌桶演算法的缺點是在某些情況下可能會導致請求的延遲。如果請求到達時桶中沒有足夠的令牌,該請求將被延遲等待令牌,可能會導致響應時間增加。

漏桶演算法(Leaky Bucket):漏桶演算法將請求放入一個漏桶中,請求以恆定的速率從漏桶中流出。如果漏桶已滿,則多餘的請求將被拒絕。漏桶演算法可以用於平滑流量,防止突發請求造成的資源浪費。

  1. 漏桶是一個固定容量的桶,它有一個漏口。桶底的漏口以固定的速率(即令牌產生速率)漏水。
  2. 每個請求都會向漏桶中添加一個令牌。如果漏桶已滿(即桶內令牌數量達到了最大容量),則新的令牌會被丟棄。
  3. 當請求到達時,如果漏桶中有可用的令牌,則請求被處理,且漏桶中的令牌數量減少一個。如果漏桶中沒有足夠的令牌,則請求被丟棄或延遲處理。

漏桶演算法的優點在於,它能夠以固定的速率來處理請求,從而平滑流量,防止突發請求對系統造成過大的壓力。此外,漏桶演算法還能夠控制流出速率,避免資源的浪費;然而,漏桶演算法的缺點是對於突發流量的處理相對較差。如果漏桶中的令牌數量耗盡,那麼突發流量的請求會被丟棄,可能會導致某些請求的延遲。

降級(Fallback)

不知道大家是否有經歷,當在樓下沙縣小店吃面時,如果小店人不多的情況下 店員會端上一碟小菜給到我們;而人很多的情況,如果想吃小菜可以自己去視窗附近用小蝶裝取。換個角度,這其實也可以稱得上服務降級。

服務降級往往指在面對系統過載、資源不足、有計劃的大型活動(雙十一),有意識地降低系統的部分功能或服務質量,以保證系統的核心功能和關鍵服務仍能繼續正常運行。

舉個例子,電商系統中支持 商家對商品的價格調整 是一種非常常見的功能,但當 雙十一零點的時刻 往往會和商家達成一致 不提供在零點後一段時間內商品價格的調整服務,以用來保障零點活動的高效執行。

所以降級是一種非常規應對措施,不應該成為長期的解決方案。一旦面對情況有所改變就應該恢復降級的服務,確保系統能夠正常提供全部功能和服務。

降級本身的實現是根據具體業務規則來進行編碼,常見的設計有:

開關硬編碼: 用一個參數標識是否進行降級,在服務中用 if 來判斷標識 從而進行相關服務降級的業務邏輯。如果時間很短情況下要實現降級,可能是最直接最常見的選擇。

AOP攔截:通過 AOP切麵面編程攔截服務請求,並更加服務降級的業務要求條件,調用降級服務請求。因為使用到了 AOP切麵技術,代碼侵入性小,但代碼可讀性差;如果沒有一些註釋說明,不熟悉相關業務的研發者忽略了降級攔截。

策略/工廠設計模式:在服務設計的時候採用工廠 或者 策略的設計模式,根據降級業務要求條件來進行策略/工廠的具體服務生成,從而實現服務降級邏輯。代碼邏輯實現上會複雜些,可能帶來更多類,可讀性上對於設計模式不熟悉的研發者造成疑惑。

三者的關係

行文至此,也許有部分讀者困惑比如:降級和熔斷是不是一回事?熔斷後執行策略就相當於降級?

糾結於這些問題的本身,還是要回到文章開頭三大策略提出所面對解決的高可用問題。熔斷是針對防止故障擴散所進行的策略設計,而 降級面對的是特殊場景的 服務功能/質量的調整策略。

因此,可以看到 描述降級中提到的 雙十一零點前關閉商家價格調整的功能,顯然 並非為了防止故障擴散的措施而是保障其他業務關註功能性能(不是熔斷,主動改變);同樣的,也可以舉個例子當調用某個服務失敗高時,切換調用到備用伺服器來作為熔斷處理策略,此時提供的服務功能或許都沒有變化,只是啟動了熔斷一種技術處理策略(不屬於服務降級)。

兩者並非一回事。但如果考慮到 熔斷發生時,處理的方式是 調整某種產品功能服務,那其實既可以算熔斷也可以算降級,所以有些文章中也有提到 熔斷降級 的概念。限流 與 降級呢? 熔斷 與 限流呢? 在此就不一一贅述了,簡而言之的話,三者都非一回事,但在某些場景下相互支撐。

熔斷、限流、降級這些概念,更多是指導 在分散式系統 高可用設計上 應該考慮方面,其核心目的都是 達到系統的高可用。

轉載望能 保留,歡迎關註 Java研究者 公眾號

參考文獻

歡迎關註 公眾號
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 用戶使用資料庫客戶端工具如navicat、dbeaver等執行超大結果集的查詢語句導致異常中斷,中斷信息Last read message sequence %d is not equal to the max written message sequence %d。 ...
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 前言 本文我們會先聊聊 DOM 的一些缺陷,然後在此基礎上介紹虛擬 DOM 是如何解決這些缺陷的,最後再站在雙緩存和 MVC 的視角來聊聊虛擬 DOM。理解了這些會讓你對目前的前端框架有一個更加底層的認識,這也有助於你更好地理解這些前端框 ...
  • Vue的路由在執行跳轉時,根據源碼可知,調用了router中定義的navigate函數,源碼中可以看出,由Promise then的鏈式調用保證了路由守衛按照以下順序執行 ...
  • JSX語法  JSX是一種JavaScript的語法擴展(eXtension),也在很多地方稱之為JavaScript XML,因為看起就是一段XML語法;  它用於描述我們的UI界面,並且其完成可以和JavaScript融合在一起使用;  它不同於Vue中的模塊語法,你不需要專門學習模塊語法 ...
  • 提起長連接,我們並不陌生,最常見的長連接非websocket莫屬了。即使沒有在項目中實際用過,至少也應該有所接觸。長連接指在一次網路通信中,客戶端與伺服器之間建立一條持久的連接,可以在多次請求和響應中重覆使用該連接。 ...
  • 本文從為什麼需要WebAssembly、WebAssembly的工作原理、哪些語言可用來創建WebAssembly模塊、WebAssembly可以用在哪裡 以及 怎麼使用 幾方面簡要介紹了webAssembly。如果之前沒有瞭解過webAssembly,可以做一些簡要的瞭解。 ...
  • # Jenkins-Pipline原理 > 本文僅探討jenkins pipline 的原理,是流水線的一個demo版本實現,不能代表Jenkins pipline的具體實現,僅供參考。 ## 1. Jenkins流水線介紹 Jenkinsfile流水線是Jenkins CI/CD工具中用來定義、構 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...