系統設計(架構師)指南5設計一致哈希(HASHING)

来源:https://www.cnblogs.com/testing-/archive/2023/09/07/17681955.html
-Advertisement-
Play Games

本文給大家介紹了什麼是"編程範式",選擇合適的編程範式可以提高代碼的可讀性、可維護性和可擴展性。 一、 什麼是編程範式? "編程範式"是一種編程思想的總稱,它是指在編寫程式時所採用的基本方法和規範。常見的編程範式有面向對象、函數式、邏輯式等。 選擇合適的編程範式可以提高代碼的可讀性、可維護性和可擴展 ...


5 設計一致哈希(HASHING)

要實現橫向擴展,就必須在伺服器之間高效、均勻地分配請求/數據。一致哈希是實現這一目標的常用技術。不過,首先讓我們深入瞭解一下這個問題。

5.1 重散列(rehashing)問題

如果有n台緩存伺服器,平衡負載的常用方法是使用下麵的散列方法:

serverIndex = hash(key)%N,其中N是伺服器池的大小。

當伺服器池的大小固定且數據分佈均勻時,這種方法效果很好。但是,當添加新伺服器或移除現有伺服器時,問題就會出現。例如,如果伺服器1離線,伺服器池的大小就會變成3。這意味著當伺服器1離線時,大多數緩存客戶端會連接到錯誤的伺服器來獲取數據。這將導致緩存丟失風暴。一致性散列是緩解這一問題的有效技術。

5.2 一致散列(Consistent hashing)

引自維基百科:"一致散列是一種特殊的散列方式,當重新調整哈希表大小並使用一致散列時,平均只需重新映射 k/n 個鍵,其中k是鍵的個數,n是槽的個數。相比之下,在大多數傳統哈希表中,數組槽數的變化會導致幾乎所有的鍵都要重新映射"。

5.3 散列空間和散列環

既然我們已經理解了一致散列的定義,那就讓我們來看看它是如何工作的。假設使用SHA-1作為散列函數f,散列函數的輸出範圍為:x0, x1, x2, x3, ..., xn。在密碼學中,SHA-1 的散列空間從 0 到 2^160 - 1。也就是說,x0 對應 0,xn 對應 2^160 - 1,中間的所有其他散列值都在 0 和 2^160 - 1 之間。

5.4 散列伺服器

使用相同的哈希函數f,我們根據伺服器IP或名稱將伺服器映射到哈希環上。

5.5 散列鍵

值得一提的是,這裡使用的哈希函數與 "重洗問題 "中的哈希函數不同,沒有模塊化操作。

5.6 伺服器查詢

要確定密鑰存儲在哪個伺服器上,我們要從密鑰在哈希環上的位置開始順時針查找,直到找到伺服器為止。下圖解釋了這一過程。按順時針方向,0存放在伺服器0上;1存放在伺服器1上;2存放在伺服器2上;3存放在伺服器3上。

5.7 添加伺服器

使用上述邏輯,添加新伺服器只需重新分配一部分密鑰。

添加新伺服器 4後,只需重新分配0,而 k1、k2 和 k3 仍保存在相同的伺服器上。讓我們仔細看看其中的邏輯。在伺服器4添加之前,0保存在伺服器0上。現在,密鑰0將被保存在伺服器4上,因為伺服器4是它從密鑰0在環上的位置順時針旋轉遇到的第一個伺服器。其他Key不會根據一致的哈希演算法重新分配。

5.8 移除伺服器

移除伺服器時,只有一小部分Key需要使用一致散列演算法重新分配。下圖中,當伺服器1被移除時,只有key1必須重新映射到伺服器2。其餘的密鑰不受影響。

5.9 基本方法中的兩個問題

一致散列演算法是由麻省理工學院的Karger等人提出的。基本步驟如下

  • 使用均勻分佈的散列函數將伺服器和密鑰映射到環上。

  • 要找出密鑰映射到哪個伺服器上,就從密鑰位置開始順時針查找,直到找到環上的第一個伺服器為止。

這種方法存在兩個問題。首先,考慮到伺服器可以添加或刪除,環上所有伺服器的分區大小不可能保持一致。分區是相鄰伺服器之間的散列空間。分配給每個伺服器的環上分區的大小有可能非常小,也有可能相當大。下圖如果刪除 s1,s2 的分區(雙向箭頭突出顯示)將是 s0 和 s3 分區的兩倍。

其次,環上有可能出現密鑰分佈不均勻的情況。例如,如果將伺服器映射到下圖所列的位置,則大部分密鑰都存儲在伺服器 2 上。然而,伺服器 1 和伺服器 3 卻沒有數據。

一種稱為虛擬節點或副本的技術可用於解決這些問題。

參考資料

5.10 虛擬節點

虛擬節點指的是真實節點,每個伺服器都由環上的多個虛擬節點表示。下圖中,伺服器 0 和伺服器 1 都有 3 個虛擬節點。3 是任意選擇的;而在實際系統中,虛擬節點的數量要大得多。我們不用 s0,而是用 s0_0、s0_1 和 s0_2 來表示環上的伺服器 0。同樣,s1_0、s1_1 和 s1_2 代表環上的伺服器 1。通過虛擬節點,每個伺服器負責多個分區。標簽為 s0 的分區(邊)由伺服器 0 管理,而標簽為 s1 的分區則由伺服器 1 管理。

要查找密鑰存儲在哪台伺服器上,我們可以從密鑰所在位置出發,順時針方向查找環上遇到的第一個虛擬節點。下圖,要找出 k0 存放在哪個伺服器上,我們從 k0 所在位置開始順時針方向查找虛擬節點 s1_1,它指的是伺服器 1。

隨著虛擬節點數量的增加,密鑰的分佈也變得更加均衡。這是因為虛擬節點越多,標準偏差就越小,從而導致數據分佈均衡。標準偏差衡量數據的分佈情況。線上研究[2]的實驗結果表明,在有一兩百個虛擬節點的情況下,標準偏差介於平均值的 5%(200 個虛擬節點)和 10%(100 個虛擬節點)之間。當我們增加虛擬節點的數量時,標準偏差會更小。但是,需要更多空間來存儲虛擬節點的數據。這是一個權衡問題,我們可以根據系統要求調整虛擬節點的數量。

5.11 找受影響的鍵

添加或刪除伺服器時,需要重新分配一部分數據。我們如何找到受影響的範圍來重新分配密鑰呢?

下圖中,伺服器 4 被添加到環上。受影響的範圍從 s4(新添加的節點)開始,圍繞環逆時針移動,直到找到一個伺服器(s3)。因此,位於 s3 和 s4 之間的密鑰需要重新分配到 s4。

下圖當伺服器(s1)被移除時,受影響的範圍從 s1(被移除的節點)開始,圍繞環路逆時針移動,直到找到伺服器(s0)為止。因此,位於 s0 和 s1 之間的密鑰必須重新分配到 s2。

5.12 總結

在本章中,我們深入討論了一致散列,包括為什麼需要一致散列以及一致散列的工作原理。一致散列的好處包括

  • 當伺服器添加或刪除時,最小化的密鑰會重新分配。
  • 由於數據分佈更均勻,因此易於橫向擴展。
  • 緩解熱點密鑰問題。對特定分片的過度訪問可能會導致伺服器過載。想象一下,凱蒂-佩里、賈斯汀-比伯和 Lady Gaga 的數據最終都在同一個分片上。一致散列法通過更均勻地分配數據,有助於緩解這一問題。

一致散列在現實世界的系統中得到了廣泛應用,其中包括一些著名的系統:

  • 亞馬遜Dynamo資料庫的分區組件。
  • Apache Cassandra 中跨集群的數據分區。
  • Discord 聊天應用程式
  • Akamai 內容交付網路
  • Maglev 網路負載平衡器
釘釘或微信號: pythontesting 微信公眾號:pythontesting
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • SqlServer 單用戶解決方案 USE master; GO DECLARE @SQL VARCHAR(MAX); SET @SQL='' SELECT @SQL=@SQL+'; KILL '+RTRIM(SPID) - FROM master..sysprocesses WHERE dbid= ...
  • 在上一篇文章中,我們介紹了彈性資料庫連接失效的背景,並探討了HikariCP連接池探活策略的相關內容。在本文中,我們將會繼續探討另一個線上常用的連接池——Druid,併為您介紹如何在使用Druid時實現最佳實踐的彈性資料庫連接池探活策略。 ...
  • 原文地址:https://www.mssqltips.com/sqlservertip/3598/troubleshooting-transactional-replication-latency-issues-in-sql-server/ 問題 我安裝了幾個SQL Server 2012實例的集群 ...
  • sidebar: auto # Android 調試橋 (adb) Android 調試橋 (adb) 是一種功能多樣的命令行工具,可讓您與設備進行通信。adb 命令可用於執行各種設備操作,例如安裝和調試應用。adb 提供對 Unix shell(可用來在設備上運行各種命令)的訪問許可權。它是一種客戶 ...
  • 在Service中使用系統dialog彈框,但是無法覆蓋全部,底部菜單依然可以被點擊,在某些場景下是不符合需求的 getDialog().getWindow().setType(WindowManager.LayoutParams.TYPE_SYSTEM_ERROR); 顯然是 dialog 的層級 ...
  • # 什麼是Promise (含如何判斷一個值是Promise) > 本文旨在對 Promise 的規範進行解釋, 便於讀者在學習 Promise 的過程中梳理 Promise 之間的操作關係, 不對具體的代碼實現和Promise用法進行解釋. > > 比如, 為什麼 [[MDN-await]](ht ...
  • 寫在前面:初次嘗試小程式,在不使用框架的情況下,如果遇到問題,可以儘量去參考官方文檔 1.scroll-view組件 scroll-view是一個可滑動的組塊.需要設置其中具體的height高度,並且在標簽中設置scroll-y="true"; 1 <scroll-view class="sceol ...
  • 一、小程式代碼構成 1.創建文件 在app.json文件中,pages中,直接寫上要添加的文件的名及路徑,然後保存即可(此方法在Mac上親測沒成功), Mac創建頁面的方式: pages文件右鍵,新建文件,然後輸入文件名 ![](https://img2023.cnblogs.com/blog/29 ...
一周排行
    -Advertisement-
    Play Games
  • WPF本身不支持直接的3D繪圖,但是它提供了一些用於實現3D效果的高級技術。 如果你想要在WPF中進行3D繪圖,你可以使用兩種主要的方法: WPF 3D:這是一種在WPF應用程式中創建3D圖形的方式。WPF 3D提供了一些基本的3D形狀(如立方體、球體和錐體)以及一些用於控制3D場景和對象的工具(如 ...
  • 一、XML概述 XML(可擴展標記語言)是一種用於描述數據的標記語言,旨在提供一種通用的方式來傳輸和存儲數據,特別是Web應用程式中經常使用的數據。XML並不預定義標記。因此,XML更加靈活,並且可以適用於廣泛的應用領域。 XML文檔由元素(element)、屬性(attribute)和內容(con ...
  • 從今年(2023)三月份開始,Github開始強制用戶開啟兩步驗證2FA(雙因數)登錄驗證,毫無疑問,是出於安全層面的考慮,畢竟Github賬號一旦被盜,所有代碼倉庫都會毀於一旦,關於雙因數登錄的必要性請參見:別讓你的伺服器(vps)淪為肉雞(ssh暴力破解),密鑰驗證、雙向因數登錄值得擁有。 雙因 ...
  • 第一題 下列代碼輸入什麼? public class Test { public static Test t1 = new Test(); { System.out.println("blockA"); } static { System.out.println("blockB"); } publi ...
  • 本文主要涉及的問題:用ElementTree和XPath讀寫XML文件;解決ElementTree新增元素後再寫入格式不統一的問題;QTableWidget單元格設置控制項 ...
  • QStandardItemModel 類作為標準模型,主打“類型通用”,前一篇水文中,老周還沒提到樹形結構的列表,本篇咱們就好好探討一下這貨。 還是老辦法,咱們先做示例,然後再聊知識點。下麵這個例子,使用 QTreeView 組件來顯示數據,使用的列表模型比較簡單,只有一列。 #include <Q ...
  • 一、直充內充(充值方式) 直充: 包裝套餐直接充值到上游API系統。【PID/Smart】 (如:支付寶、微信 話費/流量/語音/簡訊 等 充值系統)。 內充(套餐打包常見物聯卡系統功能): 套餐包裝 適用於不同類型套餐 如 流量、簡訊、語音 等。 (目前已完善流量邏輯) 二、套餐與計費產品 計費產 ...
  • 在前面幾天中,我們學習了Dart基礎語法、可迭代集合,它們是Flutter應用研發的基本功。今天,我們繼續學習Flutter應用另一個必須掌握知識點:非同步編程(即Future和async/await)。它類似於Java中的FutureTask、JavaScript中的Promise。它是後續Flut... ...
  • 針對改動範圍大、影響面廣的需求,我通常會問上線了最壞情況是什麼?應急預案是什麼?你帶開關了嗎?。當然開關也是有成本的,接下來本篇跟大家一起交流下高頻發佈支撐下的功能開關技術理論與實踐結合的點點滴滴。 ...
  • 1.d3.shuffle D3.shuffle() 方法用於將數組中的元素隨機排序。它使用 Fisher–Yates 洗牌演算法,該演算法是無偏的,具有最佳的漸近性能(線性時間和常數記憶體)。 D3.shuffle() 方法的語法如下: d3.shuffle(array, [start, end]) 其中 ...