多圖詳解:不停機分庫分表五個步驟

来源:https://www.cnblogs.com/javafront/archive/2023/05/18/17410830.html
-Advertisement-
Play Games

1 理論知識 1.1 分庫分表是否必要 分庫分表確實可以解決單表數據量大這個問題,但是並非首選。因為分庫分表至少引入了三個必須解決的突出問題。 第一是分庫分表方案本身具有的複雜性。第二是本地事務失效問題,原本在同一個資料庫中可以保證強一致性業務邏輯,分庫之後事務失效。第三是難以聚合查詢問題,因為分庫 ...



1 理論知識

1.1 分庫分表是否必要

分庫分表確實可以解決單表數據量大這個問題,但是並非首選。因為分庫分表至少引入了三個必須解決的突出問題。

第一是分庫分表方案本身具有的複雜性。第二是本地事務失效問題,原本在同一個資料庫中可以保證強一致性業務邏輯,分庫之後事務失效。第三是難以聚合查詢問題,因為分庫分表後查詢條件中必須帶有shardingKey,所以限制了很多查詢場景。

我們在之前文章《面試官問單表數據量大是否必須分庫分表》介紹過解決單表數據量過大問題,可以按照刪、換、分、拆、異、熱這六個字順序進行處理,而不是一上來就分庫分表。

刪是指刪除歷史數據併進行歸檔。換是指不要只使用資料庫資源,有些數據可以存儲至其它替代資源。分是指讀寫分離,增加多個讀實例應對讀多寫少的互聯網場景。拆是指分庫分表,將數據分散至不同的庫表中減輕壓力。異指數據異構,將一份數據根據不同業務需求保存多份。熱是指熱點數據,這是一個非常值得註意的問題。


1.2 分庫分表兩大維度

假設有一個電商資料庫存放訂單、商品、支付三張業務表。隨著業務量越來越大,這三張業務數據表也越來越大,查詢性能顯著降低,數據拆分勢在必行,那麼數據拆分可以從縱向和橫向兩個維度進行。


1.2.1 縱向拆分

縱向拆分就是按照業務拆分,我們將電商資料庫拆分成三個庫,訂單庫、商品庫。支付庫,訂單表在訂單庫,商品表在商品庫,支付表在支付庫。這樣每個庫只需要存儲本業務數據,物理隔離不會互相影響。


02 縱向分表.jpg


1.2.2 橫向拆分

按照縱向拆分方案,現在我們已經有三個庫了,平穩運行了一段時間。但是隨著業務增長,每個單庫單表的數據量也越來越大,逐漸到達瓶頸。

這時我們就要對數據表進行橫向拆分,所謂橫向拆分就是根據某種規則將單庫單表數據分散到多庫多表,從而減小單庫單表的壓力。

橫向拆分策略有很多方案,最重要的一點是選好ShardingKey,也就是按照哪一列進行拆分,怎麼分取決於我們訪問數據的方式。


(1) 範圍分片

如果我們選擇的ShardingKey是訂單創建時間,那麼分片策略是拆分四個資料庫,分別存儲每季度數據,每個庫包含三張表,分別存儲每個月數據:


03 橫向分表_範圍分表.jpg


這個方案的優點是對範圍查詢比較友好,例如我們需要統計第一季度的相關數據,查詢條件直接輸入時間範圍即可。這個方案的問題是容易產生熱點數據。例如雙11當天下單量特別大,就會導致11月這張表數據量特別大從而造成訪問壓力。


(2) 查表分片

查表法是根據一張路由表決定ShardingKey路由到哪一張表,每次路由時首先到路由表裡查到分片信息,再到這個分片去取數據。我們分析一個查表法思想應用實際案例。

Redis官方在3.0版本之後提供了集群方案RedisCluster,其中引入了哈希槽(slot)這個概念。一個集群固定有16384個槽,在集群初始化時這些槽會平均分配到Redis集群節點上。每個key請求最終落到哪個槽計算公式是固定的:

SLOT = CRC16(key) mod 16384

一個key請求過來怎麼知道去哪台Redis節點獲取數據?這就要用到查表法思想:

(1) 客戶端連接任意一臺Redis節點,假設隨機訪問到節點A
(2) 節點A根據key計算出slot值
(3) 每個節點都維護著slot和節點映射關係表
(4) 如果節點A查表發現該slot在本節點,直接返回數據給客戶端
(5) 如果節點A查表發現該slot不在本節點,返回給客戶端一個重定向命令,告訴客戶端應該去哪個節點請求這個key的數據
(6) 客戶端向正確節點發起連接請求

查表法方案優點是可以靈活制定路由策略,如果我們發現有的分片已經成為熱點則修改路由策略。缺點是多一次查詢路由表操作增加耗時,而且路由表如果是單點也可能會有單點問題。


(3) 哈希分片

現在比較流行的分片方法是哈希分片,相較於範圍分片,哈希分片可以較為均勻將數據分散在資料庫中。我們現在將訂單庫拆分為4個庫編號為[0,3],每個庫包含3張表編號為[0,2],如下圖如所示:


04 橫向分表_哈希分表_1.jpg


我們選擇使用orderId作為ShardingKey,那麼orderId=100這個訂單會保存在哪張表?因為是分庫分表,第一步確定路由到哪一個庫,取模計算結果表示庫表序號:

db_index = 100 % 4 = 0

第二步確定路由到哪一張表:

table_index = 100 % 3 = 1

第三步數據路由到0號庫1號表:


04 橫向分表_哈希分表_2.jpg


在實際開發中路由邏輯並不需要我們手動實現,因為有許多開源框架通過配置就可以實現路由功能,例如ShardingSphere、TDDL框架等等。


2 分庫分表準備工作

2.1 計算庫表數量

分幾個庫和幾張表是在分庫分表工作開始前必須要回答的問題,我們首先看看阿裡巴巴開發手冊的建議:單表行數超過500萬行或者單表容量超過2GB才推薦進行分庫分表,如果預計3年後數據量根本達不到這個級別,請不要在創建表時就分庫分表。

我們提取出這個建議的兩個關鍵詞500萬、3年作為預估庫表數的基線,假設業務數據日增量60萬,那麼應該如何預估需要分多少個庫,多少張表呢?

日增量60萬計算3年後數據總量:

三年數據總量 = 60 * 365 * 3 = 65700

隨著後續業務發展日增量會超過60萬,所以我們要對數據總量進行冗餘,冗餘指數是多少根據業務情況而定,本文按照3倍冗餘:

三年數據總量三倍冗餘 = 65700 * 3 = 197100

按照單表500萬並向上取整至2的冪次計算表數量

表數量 = 197100 / 500 = 394.2 向上取整 = 512

所有表放在一個庫並不合適,因為隨著數據量增大,訪問併發量也會呈正相關增大,一個資料庫實例是難以支撐的。本文按照一個資料庫實例包含32張表計算庫數量:

庫數量 = 512 / 32 = 16

2.2 shardingKey

確定shardingKey非常關鍵,因為作為分片指標,當數據拆分至多個庫表之後,代理層只能根據shardingKey進行表路由。假設我們設置了userId作為shardingKey,那麼後續DML操作都必須包含userId欄位。但是現在有一種場景只有orderId作為查詢條件,那麼我們應該如何處理這種場景呢?

第一種方案是設計orderId包含userId相關特征,這樣即使只有訂單號作為查詢條件,也可以截取userId特征進行分片:

訂單號 = 毫秒數 + 版本號 + userId後六位 + 全局序列號

第二種方案是數據異構,核心思想是以空間換時間,一份數據根據不同維度存儲到多個數據介質,數據異構一般分為如下類型。

數據異構至MySQL:我們可以選擇orderId作為shardingKey存儲至另一個資料庫實例,那麼orderId就可以作為條件進行查詢。

數據異構至ES:如果每一個維度都新建一個資料庫實例也是不現實的,所以我們可以將數據同步至ES滿足多維度查詢需求。

數據異構至Hive:MySQL和ES可以滿足實時查詢需求,Hive可以滿足離線分析需求,報表等數據分析工作無需通過主庫,而是可以通過Hive進行。

現在又引出一個新問題,業務不可能每次都將數據寫入多個數據源,這樣會帶來性能問題和數據一致性問題,所以需要一個管道進行各數據源之間同步,阿裡開源的canal組件可以解決這個問題。


3 分庫分表實例

在完成準備工作之後,我們可以開始分庫分表工作了。分庫分表方法有很多種,但是說到底都是在處理兩類數據:存量和增量。存量表示舊資料庫已經存在的數據,增量表示不存在於舊資料庫待新增或者變更的數據。根據存量和增量這兩種類型,我們可以將分庫分表方法分為停服拆分和不停服拆分。


3.1 停服拆分

停服是指停止服務,系統不再接收新業務數據,那麼舊數據在分庫分表這個時間段內是靜止不變的,數據全部變為了存量數據。停服拆分一般分為三個階段。

第一階段首先編寫代理層和新DAO,代理層通過開關決定訪問舊表還是新表,此時流量還是全部訪問舊表:


00 停服_階段1.jpg


第二階段停止服務,整個應用都沒有流量,舊表數據已經處於靜止狀態,此時通過腳本將存量數據從舊表遷移至新表:


00 停服_階段2.jpg


第三階段通過代理層訪問新表,如果出現錯誤可以停服排查問題:


00 停服_階段3.jpg


3.2 不停服拆分

停服拆分方案比較簡單,但是在分表這段時間沒有業務流量,對業務是有損的,所以我們一般採用不停服拆分方案,一邊有流量訪問,一邊進行分庫分表,此時數據不僅有存量還有增量,相對而言會複雜一些。

第一階段首先編寫代理層和新DAO,代理層通過開關決定訪問舊表還是新表,此時流量還是全部訪問舊表:


01 不停服_階段1.jpg


第二階段開啟雙寫,增量數據不僅在舊表新增和修改,也在新表新增和修改,日誌或者臨時表記錄下寫入新表ID起始值,舊表中小於這個值的數據就是存量數據:


02 不停服_階段2.jpg


第三階段存量數據遷移,通過腳本將存量數據寫入新表:


03 不停服_階段3.jpg


第四階段停讀舊表改讀新表,此時新表已經承載了所有讀寫業務,但是不要立刻停寫舊表,需要保持雙寫一段時間。

不停寫舊表有兩個原因:第一是因為如果讀新表出現問題,還可以將讀流量切回舊表。第二是因為可以進行數據校對,例如新表和舊表數據都同步至Hive,選取幾天的數據進行校對,從而驗證數據同步的準確性。


04 不停服_階段4.jpg


第五階段當讀寫新表一段時間之後,沒有發生業務問題,可以停寫舊表:


05 不停服_階段5.jpg


3.3 代理層實現

代理層實現了新舊數據源切換,需要儘量減少業務層代碼的侵入性,而適配器模式可以有效減少對業務層的侵入性。我們首先看看舊數據訪問對象和業務服務:

// 訂單數據對象
public class OrderDO {
    private String orderId;
    private Long price;

    public String getOrderId() {
        return orderId;
    }

    public void setOrderId(String orderId) {
        this.orderId = orderId;
    }

    public Long getPrice() {
        return price;
    }

    public void setPrice(Long price) {
        this.price = price;
    }
}

// 舊DAO
public interface OrderDAO {
    public void insert(OrderDO orderDO);
}

// 業務服務
public class OrderServiceImpl implements OrderService {

    @Resource
    private OrderDAO orderDAO;

    @Override
    public String createOrder(Long price) {
        String orderId = "orderId_123";
        OrderDO orderDO = new OrderDO();
        orderDO.setOrderId(orderId);
        orderDO.setPrice(price);
        orderDAO.insert(orderDO);
        return orderId;
    }
}

引入新數據源訪問對象:

// 新數據對象
public class OrderNewDO {
    private String orderId;
    private Long price;
}

// 新DAO
public interface OrderNewDAO {
    public void insert(OrderNewDO orderNewDO);
}

適配器模式減少業務代碼侵入性:

// 代理層
public class OrderDAOProxy implements OrderDAO {
    private OrderDAO orderDAO;
    private OrderNewDAO orderNewDAO;

    public OrderDAOProxy(OrderDAO orderDAO, OrderNewDAO orderNewDAO) {
        this.orderDAO = orderDAO;
        this.orderNewDAO = orderNewDAO;
    }

    @Override
    public void insert(OrderDO orderDO) {
        if(ApolloConfig.routeNewDB) {
            OrderNewDO orderNewDO = new OrderNewDO();
            orderNewDO.setPrice(orderDO.getPrice());
            orderNewDO.setOrderId(orderDO.getOrderId());
            orderNewDAO.insert(orderNewDO);
        } else {
            orderDAO.insert(orderDO);
        }
    }
}


// 業務服務
public class OrderServiceImpl implements OrderService {

    @Resource
    private OrderDAO orderDAO;
    @Resource
    private OrderNewDAO orderNewDAO;

    @Override
    public String createOrder(Long price) {
        String orderId = "orderId_123";
        OrderDO orderDO = new OrderDO();
        orderDO.setOrderId(orderId);
        orderDO.setPrice(price);
        new OrderDAOProxy(orderDAO, orderNewDAO).insert(orderDO);
        return orderId;
    }
}

4 文章總結

分庫分表具有三個必須面對的問題:方案本身複雜性、本地事務失效問題、難以聚合查詢問題,所以分庫分表方案並非解決海量數據問題的首選。

如果必須分庫分表,首先進行容量預估並選擇合適的shardingKey,其次根據實際業務選擇停服或者不停服方案,如果選擇不停服方案,註意保持新表和舊表雙寫一段時間,從而驗證數據準確性,希望本文對大家有所幫助。


5 延伸閱讀

一種簡單可落地的分散式事務方案

面試官問單表數據量大是否必須分庫分表


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄 一、DHCP概念 二、DHCP工作過程 三、DHCP實驗 一、DHCP概念 概念:動態主機配置協議,自動為電腦分配tcp/ip參數 DHCP的優點:1.減少管理員的工作難度 2.避免錯誤的可能 3.避免IP地址重合 4.更改IP地址時,不需要再重新配置 5.提高ip地址利用率 6.方便用戶使 ...
  • 一、環境介紹 Windows Server 2019 64位 標準版 二、IIS安裝 2.1、打開伺服器管理器,單擊添加角色和功能 在Windows Server 2019 伺服器管理中,點擊角色和功能。 2.2、打開添加角色和功能嚮導】對話框,開始安裝 預設選擇,直接下一步。 2.3、打開安裝類型 ...
  • 1.JDK1.8下載並安裝 1.1直接點擊下一步 1.2更改安裝地址 1.3安裝成功 1.4環境配置 1.5查看是否安裝並配置成功,cmd-》java -version 2.IDEA下載並安裝 https://www.exception.site/essay/how-to-free-use-inte ...
  • 本文首發於公眾號:Hunter後端 原文鏈接:es筆記一之es安裝與介紹 首先介紹一下 es,全名為 Elasticsearch,它定義上不是一種資料庫,是一種搜索引擎。 我們可以把海量數據都放到 es 里然後提供搜索操作,但是 MySQL 也同樣可以提供搜索,為什麼要用 es 呢? 一個是因為它搜 ...
  • 最近接手了一個WPF項目,資料庫使用的MySQL,為了簡化生產環境部署流程,果斷選擇遷移到SQLite,由於原項目未使用ORM框架,導致很多SQL語法也得改。 SQLite基礎語法請參考該頁面 1.依賴包的更改 有兩個Nuget包可選: Microsoft.Data.Sqlite.Core / Sy ...
  • [MySql 如何分析性能] Sql性能分析 sql語句: "show global status like "Comlxx____";" 結果: + + + | Variable_name | Value | + + + | Com_binlog | 0 | | Com_commit | 7 | ...
  • 1、數據準備 1.1、springboot導包 springboot版本:2.7.10 點擊查看代碼 <!--mongodb的包--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-s ...
  • 演講內容 摘要:GaussDB(for MySQL)是華為自研雲原生資料庫,具有高性能,高擴展,高可靠的特點,完全相容MySQL協議,自研架構和友好的生態相容性,可以同時滿足資料庫管理員、應用開發者、CTO的運維、使用和業務發展需求,本次主要介紹GaussDB(for MySQL)在雲原生技術方向上 ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...