MySQL 大表拆分_ZenDei技術網路在線

MySQL 大表拆分

-Advertisement-

概述在實際工作中，在關係資料庫（MySQL、PostgreSQL）的單表數據量上億後，往往會出現查詢和分析變慢甚至無法執行統計分析的情況。這時就需要將大表拆分為多個小表，將小表分佈在多個資料庫上，形成一個資料庫集群。這樣的話，一條 SQL 統計語句就可以在多台伺服器上併發執行，然後將執行結果彙總， ...

概述

在實際工作中，在關係資料庫（MySQL、PostgreSQL）的單表數據量上億後，往往會出現查詢和分析變慢甚至無法執行統計分析的情況。這時就需要將大表拆分為多個小表，將小表分佈在多個資料庫上，形成一個資料庫集群。這樣的話，一條 SQL 統計語句就可以在多台伺服器上併發執行，然後將執行結果彙總，實現關係資料庫的大數據量分析

資料庫三範式

範式是具有最小冗餘的表結構，三範式的概念如下所述

第一範式：如果每列都是不可再分的最小數據單元，則滿足第一範式，第一範式的目標是確保每列的原子性。例如 Address 列存儲地址信息，值為“中國北京市”，違背了第一範式列不可再分的原則，要滿足第一範式，就需要將 Address 列拆分為 Country 列和 Ciy 列，分別存儲“中國”和“北京市”

第二範式：第二範式在第一範式的基礎上，規定表中的非主鍵列不存在對主鍵的部分依賴，即第二範式要求每個表都只描述一件事情。例如 Orders 表有“訂單編號”，“產品編號”，“訂單日期”，“產品價格”列，既包含了訂單信息，也包含了產品信息，需要拆分成訂單表和產品表

第三範式：滿足第一範式和第二範式，並且表中的列不存在對非主鍵列的業務依賴。例如 Orders 表有“訂單編號”，“顧客編號”，“訂單日期”，“顧客姓名”列，除了主鍵“訂單編號”，“顧客姓名”依賴於“顧客編號”，因此需要將該“顧客編號”移去

按照範圍分表

按照範圍分表指在某個欄位上按照範圍對數據進行拆分，例如將數據按照用戶 ID 的範圍 0-10w、10w-20w、20w-30w 分別劃分到不同的資料庫中。採用這種方法擴容簡單，按照規劃提前建好庫和表即可，缺點是大部分讀和寫操作都會訪問新的數據，造成新庫壓力過大

哈希取模

哈希取模指在某個欄位上計算該欄位的哈希值，按照其哈希值對數據進行拆分。哈希取模的具體做法是首先對 N 台伺服器從 0 到 N-1 進行編號，按照自定義的哈希演算法，對每個請求的哈希值都按 N 取模，得到的餘數即該數據所在的伺服器編號。採用該方法的好處是數據分佈均衡，資料庫的整體壓力小，缺點是擴縮容麻煩，在擴縮容過程中需要對所有數據重新進行哈希分配和遷移

一致性哈希演算法

一致性哈希演算法取代傳統的哈希取模，避免伺服器集群數量發生變化導致哈希值失效，以致整個集群數據都需要重新分配的問題

一致性哈希演算法將整個哈希空間虛擬成一個 0-2^(32-1) 的哈希環，將伺服器節點和數據分別映射到哈希環上，並將對象映射到伺服器節點，來實現數據在各台伺服器上的哈希分
布，具體過程如下：

構建哈希環：將整個哈希空間組成一個 0-2^(32-1) 的虛擬圓環，即哈希環，如圖所示

將伺服器節點映射到哈希環：使用哈希函數將伺服器映射到虛擬的哈希環上，一般可以使用伺服器節點機器的 IP 地址或者機器名作為哈希函數的計算值。假設有 3 個伺服器節點：node-0、node-1、node-2，通過哈希函數計算出伺服器 IP 地址的哈希值，並將其分佈在哈希環上

將數據映射到哈希環：使用相同的哈希函數計算需要存儲的數據的哈希值，並將數據映射到哈希環上。假設有 4 個對象：o1、o2、o3、o4，通過哈希函數計算出對象的哈希值，並將其分佈在哈希環上

將對象映射到伺服器節點：找到對象的哈希值在哈希環上的位置，從該位置開始沿哈希環順時針尋找，遇到的第 1 台伺服器就是該對象的存儲節點伺服器，將該對象映射
到該伺服器上。如圖所示，對象 o1 被映射到 cs1 上，對象 o2 被映射到 cs2 上，對象 o3 被映射到 cs1 上，對象 o4 被映射到 cs3 上

傳統的哈希取模，當伺服器有變動（增加節點或移除節點）時，整個系統的哈希值都會失效（因為伺服器的數量發生了變化，即被除數發生了變化），從而需要重新計算哈希值，併進行哈希映射和數據分佈。而一致性哈希在伺服器發生變動時，由於對象的數據分佈只與順時針方向的下一臺伺服器相關，因此只會影響所變化節點的下一個節點的數據分佈

移除節點：假設某台伺服器宕機，受影響的對象僅僅是原本映射到該伺服器的對象，根據一致性哈希順時針數據映射的原則，只需將原本映射到該伺服器上的對象重新映射到下一個正常的伺服器即可。例如 cs1 宕機，只需將 o1 重新映射到 cs3 即可

添加節點：添加節點，受影響的數據僅是新節點到沿逆時針方向的第一個節點之間的對象，將這些對象重新映射到新加入的節點即可。例如在 cs1 和 cs2 之間加入新節點 cs3，cs3 位於 o1 和 o3 之間，只需要將 o3 重新映射到 cs3 即可

一致性哈希演算法不能保證數據的絕對平衡，在集群對象數據較少的情況下，對象並不能被均勻映射到各個節點上。為瞭解決數據分佈不均的問題，一致性哈希演算法引入“虛擬節點”的概念。虛擬節點是實際節點在哈希空間中的副本，一個實際節點對應若幹虛擬節點，對應的個數也被稱為副本個數，虛擬節點在哈希空間中以哈希值排列。在引入虛擬節點後，映射關係就從對象到節點轉換為從對象到虛擬節點

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Lesson01-利用Makefile創建內核鏡像文件kernel8.img

編寫樹莓派內核映像的過程可以等同於gcc的編譯過程：預處理、編譯、彙編、鏈接，後面還會加一步：將可執行文件轉換成二進位的鏡像文件。在MakeFile里的構建過程分為3步： 1.將.c文件經過預處理、編譯、彙編生成.o文件，將.S文件經過彙編生成.o文件。 2.將.o文件經過鏈接生成.elf可執行文 ...
Packaging.DebUOS 專門為 dotnet 應用製作 UOS 安裝包

寫在前面主要使用軟體： VMware Workstation Pro17 Navicat Premium17 Xshell7 Xftp7 1.在虛擬機安裝CentOS7 訪問阿裡雲鏡像站，選擇標記鏡像文件下載打開虛擬機VMware，新建虛擬機點擊“新CD/DVD”，“使用ISO映像文件”，設 ...
痞子衡嵌入式：在MDK開發環境下自定義安裝與切換不同編譯器版本的方法

大家好，我是痞子衡，是正經搞技術的痞子。今天痞子衡給大家分享的是在MDK開發環境下自定義安裝與切換不同編譯器版本的方法。 Keil MDK 想必是嵌入式開發者最熟悉的工具之一了，自 2005 年 Arm 公司收購 Keil 公司之後，MDK 就走上了發展快車道，從 v2.50a 一路狂奔到現在最新的 ...
freeRTOS源碼解析4--tasks.c 4

在Linux系統中，磁碟大小和文件系統大小是兩個不同的概念，它們之間存在明顯的區別。以下是對這兩個概念的詳細解析：磁碟大小定義：磁碟大小指的是物理存儲設備的總容量，即硬碟或固態硬碟（SSD）等存儲介質上能夠存儲數據的總空間。這個大小是固定的，由磁碟的製造工藝和規格決定。特點：固定性：磁碟一 ...
WiFi基礎(三)：802.11ac/ax/be 與 WiFi4、WiFi5、WiFi6、WiFi7

前面我們介紹了 802.11 b/g/n 的一些核心技術和基礎概念，本章將介紹目前比較新的 WiFi5 和 WiFi6，以及在今年會發佈的 WiFi7。 ...
freeRTOS源碼解析4--tasks.c 3

本章將和大家分享Docker中如何實現數據的持久化。廢話不多說，下麵我們直接進入主題。一、什麼是數據捲我們都知道在Docker中，容器的數據讀寫預設發生在容器的存儲層，當容器被刪除時其上的數據將會丟失。如果想實現數據的持久化，就需要將容器和宿主機建立聯繫（將數據從宿主機掛載到容器內），通俗的說， ...
mysql 常用知識點總結

MySQL 是一種廣泛使用的關係型資料庫管理系統（RDBMS），它基於結構化查詢語言（SQL）。瞭解 MySQL 的語法對資料庫管理和操作非常重要。以下是 MySQL 語法的詳細完整解釋，涵蓋基本概念、創建表、查詢、修改數據等內容。 1. 基礎概念資料庫 (Database): 資料庫是存儲數據的 ...
Redis 管道技術

概述 Redis 是基於請求/響應協議的 TCP 服務。在客戶端向伺服器發送一個查詢請求後，需要監聽 Socket 的返回結果，該監聽過程一直阻塞，直到伺服器有結果返回。如果一次請求延遲20ms，則多次請求的網路延遲會不斷累加。也就是說，Redis 的性能瓶頸主要體現在網路延遲上 Redis 的管道 ...