在互聯網架構設計中,高可用是必不可少的環節,要從網路架構、服務架構、數據架構以及軟硬體架構等多方面來分析設計,是架構師必備的技能之一。 ...
高可用指標與問題
高可用,英文單詞High Availability,縮寫HA,它是分散式系統架構設計中一個重要的度量。業界通常用多個9來衡量系統的可用性,如下表:
既然有可用率,有一定會存在不可用的情況。系統宕機一般分為有計劃的和無計劃的,有計劃的如日常維護、系統升級等,無計劃的如設備故障、突發斷電等。我們對此作如下分類:
1.設備故障:機房斷電、硬碟損壞、交換機故障。
2.網路故障:網路帶寬擁堵、網路連接中斷。
3.安全問題:利用系統漏洞進行網路攻擊。
4.性能問題:CPU利用率太高、記憶體不足、磁碟IO過載、資料庫慢SQL。
5.升級維護:由於業務變更或技術改進而引起的系統升級。
6.系統問題:分散式系統中存在服務的依賴而導致數據的不一致性,或是核心服務出現異常。
高可用主要手段
負載均衡
負載均衡(Load Balance),它將工作任務分發到多個工作單元上進行運行,它可以提高網路設備的帶寬,提升網路數據處理能力,增強網路的穩定性。可防止機房斷電、網路設備故障等問題。
負載均衡的實現可分為硬體負載與軟體負載。硬體負載由專門的設備完成專門的任務,這種方式性能較高同時成本也高;軟體負載通過軟體代碼實現,此種方式耗費操作系統資源,性能較低,容易出現BUG,也容易引起安全問題。
負載策略一般有輪詢策略、隨機策略、最小連接策略以及最短響應時間策略。
輪詢策略:講用戶請求輪流分配給伺服器,這種演算法比較簡單。
隨機策略:隨機選擇一臺伺服器來執行任務。
最小連接策略:把請求分配給活動連接數最小的後端伺服器。
最短響應時間策略:將請求分配給平均響應時間最短的伺服器。
限流
限流就是避免服務過載,隨著流量的提高,無論負載策略如何高效,系統的某個環節總會過載。就如木桶能裝多少水取決於最短的那塊木板,我們是無法保證系統的每個部分都保持同樣的高吞吐量,因此要考慮如何優雅地提供有損服務。
常用的三種限流演算法:計數器演算法、滑動視窗演算法、漏桶演算法、令牌桶演算法。
計數器演算法:使用計數器在一定周期內累加某個介面的訪問次數,當達到限流閾值時,觸發限流策略,進入下一個周期後,重新開始計數。此演算法較為簡單,但會降低伺服器的負載能力。
滑動視窗演算法:將時間周期劃分成更小的周期,按小周期來進行計數,根據時間滑動刪除過期的小周期。這種演算法使得周期劃分得越小伺服器的負載能力越高。
漏桶演算法:將請求直接放入漏桶中,如果當前訪問量超出漏桶的限流值,則把後來的請求予以丟棄,這樣可以最大限度地提高伺服器的負載能力。
令牌桶演算法:以(時間周期/限流值)的速度向令牌桶里增加令牌,直到裝滿桶的容量,當請求到達時,分配一個令牌讓其通過,如果沒有獲取到令牌則觸發限流機制。
### 非同步調用
非同步調用一般有兩種方式:一種是非同步回調,一種是消息隊列。消息隊列方式也算是限流的一種手段,可以讓請求一個一個地被處理,避免併發太高而引起的應用無法及時處理。這種方式相對與限流來講,是一種無損的解決方案。但這種方案僅適用於非實時響應的業務。
### 超時重試與冪等設計
很多文章把超時重試與冪等設計分開來討論,但我卻認為它們是相輔相成,密切相關的。在設計超時重試時,一定要考慮冪等設計
超時重試機制:由於伺服器宕機、網路延時、伺服器線程死鎖等原因,導致應用程式無法先限定時間內對服務調用方進行響應。因此當發生調用超時後,應用程式可根據調度策略進行重試。被調用的服務沒有及時響應,可能會存在兩種情況,一是服務內部發生異常,導致執行失敗,沒有返回任何消息;一是執行的服務耗時太長,沒有及時響應,但實際已經執行成功。所以針對第二種情況要做冪等設計。
冪等設計:多次相同參數的請求對系統造成的作業都是相同的。常見的冪等方案有:MCVV多版本併發、唯一索引、token機制、悲觀鎖、狀態機冪等、只讀操作等。
降級與熔斷
服務降級與服務熔斷都是為瞭解決服務雪崩的問題,但不要把他們混為一談,它們是有本質區別的。
降級是對系統的某個功能進行降級,可以只提供部分功能也可以完全停止該功能。降級一般由開關來進行控制,在不重啟服務的情況下,對功能進行降級。它常常發生在高併發時段、機器卡頓、下游不太重要的服務異常等情況下。
熔斷沒有開關,它是一個框架級的設計,常常被稱作斷路器。它的主要作用是,當下游的服務因為某種原因變得不可用或服務不及時,為了保證整體服務的可用性,不再調用目標服務,直接返回預設處理或容錯處理,從而使得整體服務可以快速響應。例如SpringCloud中的Hystrix。
降級與熔斷的主要區別是手動與自動。降級主要是通過配置中心的熱刷新功能,人為地對開關進行打開與關閉操作。而熔斷則是根據事先設計好的策略,系統自動地根據策略來進行開關操作。但它們都是對功能進行關閉。
架構模式
主備模式
實際是一主多備,master負責提供讀寫服務,slave作為數據備份,一旦主機宕機,將其中一個備節點作為主節點。
主從複製
實際是一主多從,master對外提供讀寫服務,slave作為數據備份提供只讀服務。主機定期複製數據給從機。多副本的關鍵問題是保證數據一致性,通常需要考慮數據同步延時的問題。
集群分片
集群分片是為瞭解決每台機器上存儲全量數據的問題,面對大數據單機的存儲量總是有上限的,當面對PB級數據時,單機是無法支撐的,因此就需要對數據進行分片。
異地多活
異地就是指在地理位置上不同的地方,可分為同城異地、跨城異地、跨國異地,多活就是指不同地理位置上的系統都能夠提供服務。這種架構的複雜度較高,且部署成本也會提高。
設計原則:
1、 只把核心業務設計為異地多活,比如流量大、盈利高的業務
2、 保證核心數據的一致性與實時性,且可丟失、可恢復
3、 可採用多種數據同步的方案,比如存儲系統同步、消息隊列同步
4、 異地多活僅適用於大部分用戶,以地區來論,覆蓋主要城區
總結
在互聯網架構設計中,高可用是必不可少的環節,要從網路架構、服務架構、數據架構以及軟硬體架構等多方面來分析設計,是架構師必備的技能之一。
作者:京東零售 谷偉
來源:京東雲開發者社區