本文給大家介紹了什麼是"編程範式",選擇合適的編程範式可以提高代碼的可讀性、可維護性和可擴展性。 一、 什麼是編程範式? "編程範式"是一種編程思想的總稱,它是指在編寫程式時所採用的基本方法和規範。常見的編程範式有面向對象、函數式、邏輯式等。 選擇合適的編程範式可以提高代碼的可讀性、可維護性和可擴展 ...
5 設計一致哈希(HASHING)
要實現橫向擴展,就必須在伺服器之間高效、均勻地分配請求/數據。一致哈希是實現這一目標的常用技術。不過,首先讓我們深入瞭解一下這個問題。
5.1 重散列(rehashing)問題
如果有n台緩存伺服器,平衡負載的常用方法是使用下麵的散列方法:
serverIndex = hash(key)%N,其中N是伺服器池的大小。
當伺服器池的大小固定且數據分佈均勻時,這種方法效果很好。但是,當添加新伺服器或移除現有伺服器時,問題就會出現。例如,如果伺服器1離線,伺服器池的大小就會變成3。這意味著當伺服器1離線時,大多數緩存客戶端會連接到錯誤的伺服器來獲取數據。這將導致緩存丟失風暴。一致性散列是緩解這一問題的有效技術。
5.2 一致散列(Consistent hashing)
引自維基百科:"一致散列是一種特殊的散列方式,當重新調整哈希表大小並使用一致散列時,平均只需重新映射 k/n 個鍵,其中k是鍵的個數,n是槽的個數。相比之下,在大多數傳統哈希表中,數組槽數的變化會導致幾乎所有的鍵都要重新映射"。
5.3 散列空間和散列環
既然我們已經理解了一致散列的定義,那就讓我們來看看它是如何工作的。假設使用SHA-1作為散列函數f,散列函數的輸出範圍為:x0, x1, x2, x3, ..., xn。在密碼學中,SHA-1 的散列空間從 0 到 2^160 - 1。也就是說,x0 對應 0,xn 對應 2^160 - 1,中間的所有其他散列值都在 0 和 2^160 - 1 之間。
5.4 散列伺服器
使用相同的哈希函數f,我們根據伺服器IP或名稱將伺服器映射到哈希環上。
5.5 散列鍵
值得一提的是,這裡使用的哈希函數與 "重洗問題 "中的哈希函數不同,沒有模塊化操作。
5.6 伺服器查詢
要確定密鑰存儲在哪個伺服器上,我們要從密鑰在哈希環上的位置開始順時針查找,直到找到伺服器為止。下圖解釋了這一過程。按順時針方向,0存放在伺服器0上;1存放在伺服器1上;2存放在伺服器2上;3存放在伺服器3上。
5.7 添加伺服器
使用上述邏輯,添加新伺服器只需重新分配一部分密鑰。
添加新伺服器 4後,只需重新分配0,而 k1、k2 和 k3 仍保存在相同的伺服器上。讓我們仔細看看其中的邏輯。在伺服器4添加之前,0保存在伺服器0上。現在,密鑰0將被保存在伺服器4上,因為伺服器4是它從密鑰0在環上的位置順時針旋轉遇到的第一個伺服器。其他Key不會根據一致的哈希演算法重新分配。
5.8 移除伺服器
移除伺服器時,只有一小部分Key需要使用一致散列演算法重新分配。下圖中,當伺服器1被移除時,只有key1必須重新映射到伺服器2。其餘的密鑰不受影響。
5.9 基本方法中的兩個問題
一致散列演算法是由麻省理工學院的Karger等人提出的。基本步驟如下
-
使用均勻分佈的散列函數將伺服器和密鑰映射到環上。
-
要找出密鑰映射到哪個伺服器上,就從密鑰位置開始順時針查找,直到找到環上的第一個伺服器為止。
這種方法存在兩個問題。首先,考慮到伺服器可以添加或刪除,環上所有伺服器的分區大小不可能保持一致。分區是相鄰伺服器之間的散列空間。分配給每個伺服器的環上分區的大小有可能非常小,也有可能相當大。下圖如果刪除 s1,s2 的分區(雙向箭頭突出顯示)將是 s0 和 s3 分區的兩倍。
其次,環上有可能出現密鑰分佈不均勻的情況。例如,如果將伺服器映射到下圖所列的位置,則大部分密鑰都存儲在伺服器 2 上。然而,伺服器 1 和伺服器 3 卻沒有數據。
一種稱為虛擬節點或副本的技術可用於解決這些問題。
參考資料
- 軟體測試精品書籍文檔下載持續更新 https://github.com/china-testing/python-testing-examples 請點贊,謝謝!
- 本文涉及的python測試開發庫 謝謝點贊! https://github.com/china-testing/python_cn_resouce
- python精品書籍下載 https://github.com/china-testing/python_cn_resouce/blob/main/python_good_books.md
- Linux精品書籍下載 https://www.cnblogs.com/testing-/p/17438558.html
- 一致散列:https://en.wikipedia.org/wiki/Consistent_hashing
- 一致散列:
https://tom-e-white.com/2007/11/consistent-hashing.html - Dynamo: 亞馬遜的高可用鍵值存儲:
https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf - Cassandra - 一種分散的結構化存儲系統:
http://www.cs.cornell.edu/Projects/ladis2009/papers/Lakshman-ladis2009.PDF - Discord 如何將 Elixir 擴展到 5,000,000 併發用戶:
https://blog.discord.com/scaling-elixir-f9b8e1e7c29b - CS168: 現代演算法工具箱講座 #1:導論和一致性
哈希演算法:http://theory.stanford.edu/~tim/s16/l/l1.pdf - Maglev: A Fast and Reliable Software Network Load Balancer:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/44824.pdf
5.10 虛擬節點
虛擬節點指的是真實節點,每個伺服器都由環上的多個虛擬節點表示。下圖中,伺服器 0 和伺服器 1 都有 3 個虛擬節點。3 是任意選擇的;而在實際系統中,虛擬節點的數量要大得多。我們不用 s0,而是用 s0_0、s0_1 和 s0_2 來表示環上的伺服器 0。同樣,s1_0、s1_1 和 s1_2 代表環上的伺服器 1。通過虛擬節點,每個伺服器負責多個分區。標簽為 s0 的分區(邊)由伺服器 0 管理,而標簽為 s1 的分區則由伺服器 1 管理。
要查找密鑰存儲在哪台伺服器上,我們可以從密鑰所在位置出發,順時針方向查找環上遇到的第一個虛擬節點。下圖,要找出 k0 存放在哪個伺服器上,我們從 k0 所在位置開始順時針方向查找虛擬節點 s1_1,它指的是伺服器 1。
隨著虛擬節點數量的增加,密鑰的分佈也變得更加均衡。這是因為虛擬節點越多,標準偏差就越小,從而導致數據分佈均衡。標準偏差衡量數據的分佈情況。線上研究[2]的實驗結果表明,在有一兩百個虛擬節點的情況下,標準偏差介於平均值的 5%(200 個虛擬節點)和 10%(100 個虛擬節點)之間。當我們增加虛擬節點的數量時,標準偏差會更小。但是,需要更多空間來存儲虛擬節點的數據。這是一個權衡問題,我們可以根據系統要求調整虛擬節點的數量。
5.11 找受影響的鍵
添加或刪除伺服器時,需要重新分配一部分數據。我們如何找到受影響的範圍來重新分配密鑰呢?
下圖中,伺服器 4 被添加到環上。受影響的範圍從 s4(新添加的節點)開始,圍繞環逆時針移動,直到找到一個伺服器(s3)。因此,位於 s3 和 s4 之間的密鑰需要重新分配到 s4。
下圖當伺服器(s1)被移除時,受影響的範圍從 s1(被移除的節點)開始,圍繞環路逆時針移動,直到找到伺服器(s0)為止。因此,位於 s0 和 s1 之間的密鑰必須重新分配到 s2。
5.12 總結
在本章中,我們深入討論了一致散列,包括為什麼需要一致散列以及一致散列的工作原理。一致散列的好處包括
- 當伺服器添加或刪除時,最小化的密鑰會重新分配。
- 由於數據分佈更均勻,因此易於橫向擴展。
- 緩解熱點密鑰問題。對特定分片的過度訪問可能會導致伺服器過載。想象一下,凱蒂-佩里、賈斯汀-比伯和 Lady Gaga 的數據最終都在同一個分片上。一致散列法通過更均勻地分配數據,有助於緩解這一問題。
一致散列在現實世界的系統中得到了廣泛應用,其中包括一些著名的系統:
- 亞馬遜Dynamo資料庫的分區組件。
- Apache Cassandra 中跨集群的數據分區。
- Discord 聊天應用程式
- Akamai 內容交付網路
- Maglev 網路負載平衡器