概述 在實際工作中,在關係資料庫(MySQL、PostgreSQL)的單表數據量上億後,往往會出現查詢和分析變慢甚至無法執行統計分析的情況。這時就需要將大表拆分為多個小表,將小表分佈在多個資料庫上,形成一個資料庫集群。這樣的話,一條 SQL 統計語句就可以在多台伺服器上併發執行,然後將執行結果彙總, ...
概述
在實際工作中,在關係資料庫(MySQL、PostgreSQL)的單表數據量上億後,往往會出現查詢和分析變慢甚至無法執行統計分析的情況。這時就需要將大表拆分為多個小表,將小表分佈在多個資料庫上,形成一個資料庫集群。這樣的話,一條 SQL 統計語句就可以在多台伺服器上併發執行,然後將執行結果彙總,實現關係資料庫的大數據量分析
資料庫三範式
範式是具有最小冗餘的表結構,三範式的概念如下所述
第一範式:如果每列都是不可再分的最小數據單元,則滿足第一範式,第一範式的目標是確保每列的原子性。例如 Address 列存儲地址信息,值為“中國北京市”,違背了第一範式列不可再分的原則,要滿足第一範式,就需要將 Address 列拆分為 Country 列和 Ciy 列,分別存儲“中國”和“北京市”
第二範式:第二範式在第一範式的基礎上,規定表中的非主鍵列不存在對主鍵的部分依賴,即第二範式要求每個表都只描述一件事情。例如 Orders 表有“訂單編號”,“產品編號”,“訂單日期”,“產品價格”列,既包含了訂單信息,也包含了產品信息,需要拆分成訂單表和產品表
第三範式:滿足第一範式和第二範式,並且表中的列不存在對非主鍵列的業務依賴。例如 Orders 表有“訂單編號”,“顧客編號”,“訂單日期”,“顧客姓名”列,除了主鍵“訂單編號”,“顧客姓名”依賴於“顧客編號”,因此需要將該“顧客編號”移去
按照範圍分表
按照範圍分表指在某個欄位上按照範圍對數據進行拆分,例如將數據按照用戶 ID 的範圍 0-10w、10w-20w、20w-30w 分別劃分到不同的資料庫中。採用這種方法擴容簡單,按照規劃提前建好庫和表即可,缺點是大部分讀和寫操作都會訪問新的數據,造成新庫壓力過大
哈希取模
哈希取模指在某個欄位上計算該欄位的哈希值,按照其哈希值對數據進行拆分。哈希取模的具體做法是首先對 N 台伺服器從 0 到 N-1 進行編號,按照自定義的哈希演算法,對每個請求的哈希值都按 N 取模,得到的餘數即該數據所在的伺服器編號。採用該方法的好處是數據分佈均衡,資料庫的整體壓力小,缺點是擴縮容麻煩,在擴縮容過程中需要對所有數據重新進行哈希分配和遷移
一致性哈希演算法
一致性哈希演算法取代傳統的哈希取模,避免伺服器集群數量發生變化導致哈希值失效,以致整個集群數據都需要重新分配的問題
一致性哈希演算法將整個哈希空間虛擬成一個 0-2^(32-1) 的哈希環,將伺服器節點和數據分別映射到哈希環上,並將對象映射到伺服器節點,來實現數據在各台伺服器上的哈希分
布,具體過程如下:
構建哈希環:將整個哈希空間組成一個 0-2^(32-1) 的虛擬圓環,即哈希環,如圖所示
將伺服器節點映射到哈希環:使用哈希函數將伺服器映射到虛擬的哈希環上,一般可以使用伺服器節點機器的 IP 地址或者機器名作為哈希函數的計算值。假設有 3 個伺服器節點:node-0、node-1、node-2,通過哈希函數計算出伺服器 IP 地址的哈希值,並將其分佈在哈希環上
將數據映射到哈希環:使用相同的哈希函數計算需要存儲的數據的哈希值,並將數據映射到哈希環上。假設有 4 個對象:o1、o2、o3、o4,通過哈希函數計算出對象的哈希值,並將其分佈在哈希環上
將對象映射到伺服器節點:找到對象的哈希值在哈希環上的位置,從該位置開始沿哈希環順時針尋找,遇到的第 1 台伺服器就是該對象的存儲節點伺服器,將該對象映射
到該伺服器上。如圖所示,對象 o1 被映射到 cs1 上,對象 o2 被映射到 cs2 上,對象 o3 被映射到 cs1 上,對象 o4 被映射到 cs3 上
傳統的哈希取模,當伺服器有變動(增加節點或移除節點)時,整個系統的哈希值都會失效(因為伺服器的數量發生了變化,即被除數發生了變化),從而需要重新計算哈希值,併進行哈希映射和數據分佈。而一致性哈希在伺服器發生變動時,由於對象的數據分佈只與順時針方向的下一臺伺服器相關,因此只會影響所變化節點的下一個節點的數據分佈
移除節點:假設某台伺服器宕機,受影響的對象僅僅是原本映射到該伺服器的對象,根據一致性哈希順時針數據映射的原則,只需將原本映射到該伺服器上的對象重新映射到下一個正常的伺服器即可。例如 cs1 宕機,只需將 o1 重新映射到 cs3 即可
添加節點:添加節點,受影響的數據僅是新節點到沿逆時針方向的第一個節點之間的對象,將這些對象重新映射到新加入的節點即可。例如在 cs1 和 cs2 之間加入新節點 cs3,cs3 位於 o1 和 o3 之間,只需要將 o3 重新映射到 cs3 即可
一致性哈希演算法不能保證數據的絕對平衡,在集群對象數據較少的情況下,對象並不能被均勻映射到各個節點上。為瞭解決數據分佈不均的問題,一致性哈希演算法引入“虛擬節點”的概念。虛擬節點是實際節點在哈希空間中的副本,一個實際節點對應若幹虛擬節點,對應的個數也被稱為副本個數,虛擬節點在哈希空間中以哈希值排列。在引入虛擬節點後,映射關係就從對象到節點轉換為從對象到虛擬節點