面試官:說說Mysql資料庫分庫分表,並且會有哪些問題?

来源:https://www.cnblogs.com/lfs2640666960/archive/2019/07/01/11116962.html
-Advertisement-
Play Games

存儲的壓力說白了就是隨著系統的演化,需求的增加,可能表的數量會逐漸增多,比如一段時間上個新功能就得加個表。並且隨著用戶量的增多類似用戶表的行數肯定會增多,訂單表的數據肯定會隨著時間而增多,當這種數據量達到千萬甚至上億的時候,讀寫分離就已經滿足不了,讀寫性能下降嚴重。 ...


之前一篇文章已經談到了資料庫集群之主從集群也就是讀寫分離,也提到了讀寫分離其實只是分擔了訪問的壓力,但是存儲的壓力沒有解決。

存儲的壓力說白了就是隨著系統的演化,需求的增加,可能表的數量會逐漸增多,比如一段時間上個新功能就得加個表。並且隨著用戶量的增多類似用戶表的行數肯定會增多,訂單表的數據肯定會隨著時間而增多,當這種數據量達到千萬甚至上億的時候,讀寫分離就已經滿足不了,讀寫性能下降嚴重。

也就是一臺伺服器的資源例如CPU、記憶體、IO、磁碟等是有限的,所以這時候分庫分表就上啦!

分庫

分庫講白了就是比如現在你有一個資料庫伺服器,資料庫中有兩張表分別是用戶表和訂單表。如果要分庫的話現在你需要買兩台機子,搞兩個資料庫分別放在兩台機子上,並且一個資料庫放用戶表,一個資料庫放訂單表

這樣存儲壓力就分擔到兩個伺服器上了,但是會帶來新的問題,所以東西變複雜了都會有新的問題產生。

1、聯表查詢問題 也就是join了,之前在一個資料庫裡面可以用上join用一條sql語句就可以聯表查詢得到想要的結果,但是現在分為多個資料庫了,所以join用不上了。就比如現在要查註冊時間在2019年之後用戶的訂單信息,你就需要先去資料庫A中用戶表查詢註冊在2019年之後的信息,然後得到用戶id,再拿這些id去資料庫B訂單表中查找訂單信息,然後再拼接這些信息返回。所以等於得多寫一些代碼了。

2、事務問題 搞資料庫基本上都離不開事務,但是現在不同的資料庫事務就不是以前那個簡單的本地事務了,而是分散式事務了,而引入分散式事務也提高了系統的複雜性,並且有些效率不高還會影響性能例如Mysql XA。還有基於消息中間件實現分散式事務的等等這裡不展開講述。

分表

我們已經做了分庫了,但是現在情況是我們的表裡面的數據太多了,就一不小心你的公司的產品火了,像抖音這種,所有用戶如果就存在一張表裡吃不消,所以這時候得分表。分別又分垂直分表和水平分表。

垂直分表

垂直分表的意思形象點就像坐標軸的y軸,把x軸切成了兩半,對應到我們的表就是比如我們表有10列,現在一刀切下去,分成了兩張表,其中一張表3列,另一張表7列。

這個一刀切下去讓兩個表分別有幾列不是固定的,垂直分表適合表中存在不常用並且占用了大量空間的表拆分出去。

就拿頭條的用戶信息,比如用戶表只有用戶id、昵稱、手機號、個人簡介這4個欄位。但是手機號和個人簡介這種信息就屬於不太常用的,占用的空間也不小,個人簡介有些人寫了一坨。所以就把手機號和個人簡介這兩列拆分出去。

那垂直分表影響就是之前只要一個查詢的,現在需要兩次查詢才能拿到分表之前的完整用戶表信息。

水平分表

水平分表的意思形象點就像坐標軸的x軸,把y軸切成了兩半(當然不僅限於切一刀,可以切好幾份)。也拿用戶表來說比如現在用戶表有5000萬行數據,我們切5刀,分成5個表,每個表1000萬行數據。

水平分表就適合用戶表行數很多的情況下,一般單表行數超過5000萬就得分表,如果單表的數據比較複雜那可能2000萬甚至1000萬就得分了,這個得看實際情況有些表很簡單可能一億行都不用分。所以當一個表行數超過千萬級別的時候關註一下,如果沒有性能問題就可以再等等看,不要急著分表,因為分表會是帶來很多問題。

水平分表的問題比垂直分表就更煩了。

要考慮怎麼切,講的高級點就叫路由

1、按id也就是範圍路由,比如id 值1999萬的放一張表,1000萬1999放一張表,一次類推。這個得試的,因為範圍分的大了,可能性能還有問題,範圍分的小了。。那表不得多死。

這種分法的好處就是容易切啊,簡單粗暴,以後新增的數據分表都不會影響到之前的數據,之前的數據都不需要移動。

2、哈希路由 就是取幾列哈希一下看看數據哪個庫,比如拿id來做哈希,1500取餘8等於4,所以這條記錄就放在user_4這個表中,2011取餘8等於3,所以這條記錄就放在user_3中。這種分法好處就是分的很均勻,基本上每個表的數據都差不多,但是以後新增數據又得分表了咋辦,以前的數據都得動,比較煩!

3、搞一張表來存儲路由關係 還是拿用戶表來說,就是弄一個路由表,裡面存userId和表編號,表示這個userId是這張user表的的。這種方式也簡單,之後又要分表了之後改改路由表,遷移一部分數據。但是這種方法導致每次查詢都得查兩次,並且如果路由表太大了,那路由表又成為瓶頸了!

再說說查詢時候的問題。

比如你要查註冊時間最早的前100名用戶,這就等於你得在水平分的每一張表都order by 一下註冊時間並且取100個,然後再把每個表的100個結果對比一下得到最終的結果。首先操作變麻煩了,以前一個order by就搞定的事情現在變的複雜了,而且還得考慮一個因素就是時間的問題,如果你拆成了20個表,那你得執行20個order by,如果是串列執行的話,這個時間開銷也是個問題!

分庫分表的實現

具體實現也分為程式代碼封裝、資料庫中間件封裝。實現難度會比讀寫分離更大,至於兩種封裝的比較在講讀寫分離時候已經說了,這裡不再贅述。

總結

說了這麼多好像分庫分表一點都不好啊,沒錯會引入很多問題,所以在架構設計要遵循演化原則,任何東西都不是一蹴而就的,在不同場景適配不同的架構,架構只有合適的,沒有一個架構可以適配任何場景。

在軟體中簡單夠用就是好的,技術沒有貴賤,不是用了分散式就牛逼,越複雜的系統維護的成本和難度越高,出現問題的幾率越大。這種架構的演化往往都是被用戶所驅動的,可以說是"不得已而為之"。

基本上單機資料庫可以支撐10萬用戶量級別。所以一般情況下像資料庫吃不消就升級硬體,優化資料庫配置、優化代碼、引入redis等。只有在真的不行了才上這些更複雜的東西。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 線程池和連接池 線程池的原理: 來看一下線程池究竟是怎麼一回事?其實線程池的原理很簡單,類似於操作系統中的緩衝區的概念,它的流程如下:先啟動若幹數量的線程,並讓這些線程都處於睡眠狀態,當客戶端有一個新請求時,就會喚醒線程池中的某一個睡眠線程,讓它來處理客戶端的這個請求,當處理完這個請求後,線程又處於 ...
  • 回到目錄 和前面介紹二極體的PN結的工作原理一樣,BJT的量子級工作機制也非常複雜,一般教科書上為了幫助學習者能快速理解,也都是用一種簡化模型的方法來介紹BJT的工作機理,一般只需大致瞭解即可。只要記住關鍵的一點:BJT本質上是一種流控電流源(CCCS)。它可以用一個較小的基極電流控制一個較大的集電 ...
  • 一 RBAC 1.1 RBAC授權 基於角色的訪問控制(RBAC)是一種基於個人用戶的角色來管理對電腦或網路資源的訪問的方法。 RBAC使用rbac.authorization.k8s.io API組來推動授權決策,允許管理員通過Kubernetes API動態配置策略。 使用--authoriz ...
  • 多進程的實現原理 多道技術 操作系統介紹 下圖是操作系統在整個電腦中所在的位置: 位於應用軟體和硬體設備之間,本質上也是一個軟體, 由系統內核(管理所有硬體資源)與系統介面(提供給程式員使用的介面)組成 操作系統是為方便用戶操作電腦而提供的一個運行在硬體之上的軟體 操作系統的兩個核心作用 1.為 ...
  • 今天的任務是在公司的一臺壓力測試機上安裝一個性能監控工具:glances 因為以前我已經多次安裝和使用這個工具,我大意的以為整個過程是這樣的: 分分鐘搞定完事 然而 我們公司的伺服器版本實在是太老了,於是我就在今天早晨踏上了不歸路 yum install epel-release -y yum in ...
  • pwd命令 顯示當前所在的目錄 pwd命令 顯示當前所在的目錄 ls命令 顯示目錄下的子目錄和文件 ls 顯示當前目錄下的子目錄和文件 ls命令 顯示目錄下的子目錄和文件 ls 顯示當前目錄下的子目錄和文件 ls -a 顯示當前目錄下的所以子目錄和文件(包括隱藏文件和文件夾) ls -a 顯示當前目 ...
  • SET SERVEROUTPUT ONBEGIN --列印輸出 DBMS_OUTPUT.PUT_LINE('hello everyone!');END; DECLARE v_name VARCHAR2(10); v_sal NUMBER(7,2); v_hiredate DATE; c_tax_ra ...
  • 資料庫讀寫分離Master-Slave 一個平臺或系統隨著時間的推移和用戶量的增多,資料庫操作往往會變慢,這時我們需要一些有效的優化手段來提高資料庫的執行速度;如SQL優化、表結構優化、索引優化、引擎優化和讀寫分離優化等手段。 1、SQL優化(簡單列幾點): 儘量避免用SELECT*;只查詢一條記錄 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...