為什麼MySQL單表不能超過2000萬行?

来源:https://www.cnblogs.com/huaweiyun/archive/2023/05/22/17420032.html
-Advertisement-
Play Games

摘要:MySQL一張表最多能存多少數據? 本文分享自華為雲社區《為什麼MySQL單表不能超過2000萬行?》,作者: GaussDB 資料庫 。 最近看到一篇《我說MySQL每張表最好不要超過2000萬數據,面試官讓我回去等通知》的文章,非常有趣。 文中提到,他朋友在面試的過程中說,自己的工作就是把 ...


摘要:MySQL一張表最多能存多少數據?

本文分享自華為雲社區《為什麼MySQL單表不能超過2000萬行?》,作者: GaussDB 資料庫 。

最近看到一篇《我說MySQL每張表最好不要超過2000萬數據,面試官讓我回去等通知》的文章,非常有趣。

文中提到,他朋友在面試的過程中說,自己的工作就是把用戶操作信息存到MySQL里,因為數據量超大(5000萬條左右),需要每天定時生成3張表,然後將數據取模分別存到這三張表裡。

下麵是兩人的對話:

面試後續暫且不論,不過,互聯網江湖上的確流傳著一個說法:單表數據量超過500萬行時就要進行分表分庫,已經超過2000萬行時MySQL的性能就會急劇下降。

那麼,MySQL一張表最多能存多少數據?

今天我們就從技術層面剖析一下,MySQL單表數據不能過大的根本原因是什麼?

猜想一:是索引深度嗎?

很多人認為:數據量超過500萬行或2000萬行時,引起B+tree的高度增加,延長了索引的搜索路徑,進而導致了性能下降。事實果真如此嗎?

我們先理一下關係,MySQL採用了索引組織表的形式組織數據,葉子節點存儲數據,非葉子節點存儲主鍵與頁面號的映射關係。若用戶的主鍵長度是8位元組時,MySQL中頁面偏移占4個位元組,在非葉子節點的時候實際上是8+4=12個位元組,12個位元組表示一個頁面的映射關係。

MySQL預設是16K的頁面,拋開它的配置header,大概就是15K,因此,非葉子節點的索引頁面可放15*1024/12=1280條數據,按照每行1K計算,每個葉子節點可以存15條數據。同理,三層就是15*1280*1280=24576000條數據。只有數據量達到24576000條時,深度才會增加為4,所以,索引深度沒有那麼容易增加,詳細數據可參考下表:

搜索路徑延長導致性能下降的說法,與當時的機械硬碟和記憶體條件不無關係。

之前機械硬碟的IOPS在100左右,而現在普遍使用的SSD的IOPS已經過萬,之前的記憶體最大幾十G,現在伺服器記憶體最大可達到TB級。

因此,即使深度增加,以目前的硬體資源,IO也不會成為限制MySQL單表數據量的根本性因素。

那麼,限制MySQL單表不能過大的根本性因素是什麼?

猜想二:是SMO無法併發嗎?

我們可以嘗試從MySQL所採用的存儲引擎InnoDB本身來探究一下。

大家知道InnoDB引擎使用的是索引組織表,它是通過索引來組織數據的,而它採用B+tree作為索引的數據結構。

B+Tree操作非原子,所以當一個線程做結構調整(SMO,Struction-Modification-Operation)時一般會涉及多個節點的改動。

SMO動作過程中,此時若有另一個線程進來可能會訪問到錯誤的B+Tree結構,InnoDB為瞭解決這個問題採用了樂觀鎖和悲觀鎖的併發控制協議。

InnoDB對於葉子節點的修改操作如下:

方式一,先採用樂觀鎖的方式嘗試進行修改

對根節點加S鎖(shared lock,叫共用鎖,也稱讀鎖),依次對非葉子節點加S鎖。

如果葉子節點的修改不會引起B+Tree結構變動,如分裂、合併等操作,那麼只需要對葉子節點進行加X鎖(exclusive lock,叫排他鎖,也稱為寫鎖)即可完成修改。如下圖中所示 :

方式二,採用悲觀鎖的方式

如果對葉子結點的修改會觸發SMO,那麼會採用悲觀鎖的方式。

採用悲觀鎖,需要重新遍歷B+Tree,對根節點加全局SX鎖(SX鎖是行鎖),然後從根節點到葉子節點可能修改的節點加X鎖。

在整個SMO過程中,根節點始終持有SX鎖(SX鎖表示有意向修改這個保護的範圍,SX鎖與SX鎖、X鎖衝突,與S鎖不衝突),此時其他的SMO則需要等待。

因此,InnoDB對於簡單的主鍵查詢比較快,因為數據都存儲在葉子節點中,但對於數據量大且改操作比較多的TP型業務,併發會有很嚴重的瓶頸問題。

在對葉子節點的修改操作中,InnoDB可以實現較好的1與1、1與2的併發,但是無法解決2的併發。因為在方式2中,根節點始終持有SX鎖,必須串列執行,等待上一個SMO操作完成。這樣在具有大量的SMO操作時,InnoDB的B+Tree實現就會出現很嚴重的性能瓶頸。

解決方案

目前業界有一個更好的方案B-Link Tree,與B+Tree相比,B-Link Tree優化了B+Tree結構調整時的鎖粒度,只需要逐層加鎖,無需對root節點加全局鎖。因此,可以做到在SMO過程中寫操作的併發執行,保持高併發下性能的穩定。

B-Link Tree主要改進點有2個:

1.中間節點增加link指針,指向右兄弟節點;

2.每個節點內增加欄位high key,存儲該節點中最大的key值。

新增的link指針是為瞭解決SMO過程中併發寫的問題,在SMO過程中,B-Link Tree對修改節點逐層加鎖,修改完一層即可放鎖,然後去加上一層節點的鎖繼續修改。這樣在InnoDB引擎中被SMO阻塞的寫操作可以有機會在SMO操作過程中併發進行。

如下圖所示,在節點2分裂為節點2和4的過程中,只需要在最後一步將父節點1指向新節點4時,對父節點1加鎖,其他操作均無需對父節點加鎖,更無需對root節點加鎖,因此,大大提升了SMO過程中寫操作的併發度。

由此可見,與B+Tree全局加鎖對比,B-Link Tree在高併發操作下的性能是顯著優於B+Tree的。GaussDB當前採用的就是B-Link Tree索引數據結構。

InnoDB的索引組織表更容易觸發SMO

索引組織表的葉子節點,存儲主鍵以及應對行的數據,InnoDB預設頁面為16K,若每行數據的大小為1000位元組,每個葉子節點僅能存儲16行數據。

在索引組織表中,當葉子節點的扇出值過低時,SMO的觸發將更加頻繁,進而放大了SMO無法併發寫的缺陷。

目前業界有一個堆組織表的數據組織方案,也是華為雲資料庫GaussDB採用的方案。它的葉子節點存儲索引鍵以及對應的行指針(所在的頁面編號及頁內偏移),堆組織表葉子節點可以存更多的數據,分析可得在同樣的數據量與業務併發量下,堆組織表會比索引組織表發生SMO概率低許多。

性能對比

在8U32G的兩台伺服器分別搭建了MySQL(B+Tree和索引組織表)與GaussDB(B-Link Tree和堆組織表)的環境,進行瞭如下性能驗證:

實驗場景:在基礎表的場景上,測試增量隨機插入性能。

1.基礎表總大小10G,包含主鍵隨機分佈的1000w行數據,每行數據1k;

2.插入主鍵隨機分佈的1000w行數據,每行數據大小1k,測試併發插入性能。

結論:隨著併發數的上升,GaussDB能穩步提升系統的TPS,而MySQL併發數的提高並不能帶來TPS的顯著提升。

綜上所述,MySQL無法支持大數據量下併發修改的根本原因,是由於其索引併發控制協議的缺陷造成的,而MySQL選擇索引組織表,又放大了這一缺陷。所以,開源MySQL資料庫更適用於主鍵查詢為主的簡單業務場景,如互聯網類應用,對於複雜的商業場景限制比較明顯。

相比之下 ,採用B-Link Tree和堆組織表的GaussDB資料庫在性能和場景應用方面更勝一籌。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # VMware虛擬機聯網詳述 > 網路上東西都是虛擬的,你把握不住 ## 1. 虛擬網路組件 * **虛擬機**(Virtual Machine) 在物理電腦上通過虛擬化技術創建的一臺虛擬電腦。它具有自己的操作系統、應用程式和網路配置,可以獨立運行和管理。 * **虛擬化軟體**(Virtua ...
  • -- 痞子衡維護的NXP-MCUBootUtility工具距離上一個大版本(v4.0.0)發佈過去4個多月了,期間痞子衡也做過兩個小版本更新,但不足以單獨介紹。這一次痞子衡為大家帶來了全新大版本v5.0.0,這次更新主要是想和大家特別聊聊恩智浦新一代 i.MXRT 旗艦 RT1180。 ### 一、 ...
  • 主機操作系統:windows11 虛擬機操作系統:centos7、kali vmware版本:16 (27條消息) 超詳細虛擬機與主機網路連接以及互Ping不通問題的解決_虛擬機無法ping通主機_一隻傻陽陽的博客-CSDN博客 通過此連接中的教程,事實上幾乎沒有進行什麼配置,僅配置了centos7 ...
  • # 概述 Typecho是一款輕量級的開源PHP博客系統,它簡單易用,界面整潔,性能高效,主題、插件眾多。我使用的是騰訊雲輕量伺服器,Typecho的應用模版,一鍵安裝環境。構建自己的博客網站,記錄生活、分享經驗。 ## 購買功能變數名稱、備案、申請SSL 這樣在之後創建完typecho伺服器,就會在ngi ...
  • 本文是線上問題處理案例系列之一,旨在通過真實案例向讀者介紹發現問題、定位問題、解決問題的方法。本文講述了從垃圾回收耗時過長的表象,逐步定位到資料庫連接池保活問題的全過程,並對其中用到的一些知識點進行了總結。 ...
  • 摘要:本文詳細梳理分析了DWS服務面臨軟硬體故障場景和對應的修複原理,希望藉此能夠讓你對DWS的集群故障修複有個全面深入的瞭解。 本文分享自華為雲社區《GaussDB(DWS)故障修複系統性介紹》,作者: 聞鮮生。 DWS是一個分散式架構的MPP集群,物理部署上涉及數百數千台主機和對應的磁碟,以及這 ...
  • **本系列為:MySQL資料庫詳解,為千鋒資深教學老師獨家創作** **致力於為大家講解清晰MySQL資料庫相關知識點,含有豐富的代碼案例及講解。如果感覺對大家有幫助的話,可以【關註】持續追更\~** **文末有本文重點總結,技術類問題,也歡迎大家和我們溝通交流!** ![在這裡插入圖片描述](ht ...
  • 《1萬多條司法資格考試題庫ACCESS版》搜集了大量司法資格考試試題,包括試卷一、試卷二、試卷三、試卷四等科目。同類的資料庫有《9萬多條執業醫師資格考試題庫ACCESS資料庫》、《6萬多條會計從業資格考試題庫ACCESS版》、《近7萬多條證券從業資格考試題庫ACCESS版》、《1萬多條一級建造師資格 ...
一周排行
    -Advertisement-
    Play Games
  • 一、openKylin簡介 openKylin(開放麒麟) 社區是在開源、自願、平等和協作的基礎上,由基礎軟硬體企業、非營利性組織、社團組織、高等院校、科研機構和個人開發者共同創立的一個開源社區,致力於通過開源、開放的社區合作,構建桌面操作系統開源社區,推動Linux開源技術及其軟硬體生態繁榮發展。 ...
  • 簡介 Flurl是一個用於構建基於HTTP請求的C#代碼的庫。它的主要目的是簡化和優雅地處理網路請求(只用很少的代碼完成請求)。Flurl提供了一種簡單的方法來構建GET、POST、PUT等類型的請求,以及處理響應和異常。它還提供了一些高級功能,如鏈式調用、緩存請求結果、自動重定向等。本文將介紹Fl ...
  • 一:背景 1. 講故事 最近也挺奇怪,看到了兩起 CPU 爆高的案例,且誘因也是一致的,覺得有一些代表性,合併分享出來幫助大家來避坑吧,閑話不多說,直接上 windbg 分析。 二:WinDbg 分析 1. CPU 真的爆高嗎 這裡要提醒一下,別人說爆高不一定真的就是爆高,我們一定要拿數據說話,可以 ...
  • 剛開始寫文章,封裝Base基類的時候,添加了trycatch異常塊,不過當時沒有去記錄日誌,直接return了。有小伙伴勸我不要吃了Exception 其實沒有啦,項目剛開始,我覺得先做好整體結構比較好。像是蓋樓一樣。先把樓體建造出來,然後再一步一步的美化完善。 基礎的倉儲模式已經ok,Autofa ...
  • 框架目標 什麼是框架,框架能做到什麼? 把一個方向的技術研發做封裝,具備通用性,讓使用框架的開發者用起來很輕鬆。 屬性: 通用性 健壯性 穩定性 擴展性 高性能 組件化 跨平臺 從零開始-搭建框架 建立項目 主鍵查詢功能開發 綁定實體 一步一步的給大家推導: 一邊寫一邊測試 從零開始--搭建框架 1 ...
  • 大家好,我是沙漠盡頭的狼。 本方首發於Dotnet9,介紹使用dnSpy調試第三方.NET庫源碼,行文目錄: 安裝dnSpy 編寫示常式序 調試示常式序 調試.NET庫原生方法 總結 1. 安裝dnSpy dnSpy是一款功能強大的.NET程式反編譯工具,可以對.NET程式進行反編譯,代替庫文檔的功 ...
  • 在`Windows`操作系統中,每個進程的虛擬地址空間都被劃分為若幹記憶體塊,每個記憶體塊都具有一些屬性,如記憶體大小、保護模式、類型等。這些屬性可以通過`VirtualQueryEx`函數查詢得到。該函數可用於查詢進程虛擬地址空間中的記憶體信息的函數。它的作用類似於`Windows`操作系統中的`Task... ...
  • 背景介紹 1,最近有一個大數據量插入的操作入庫的業務場景,需要先做一些其他修改操作,然後在執行插入操作,由於插入數據可能會很多,用到多線程去拆分數據並行處理來提高響應時間,如果有一個線程執行失敗,則全部回滾。 2,在spring中可以使用@Transactional註解去控制事務,使出現異常時會進行 ...
  • 線程(thread)是操作系統能夠進行運算調度的最小單位。它被包含在進程之中,是進程中的實際 運作單位。一條線程指的是進程中一個單一順序的控制流,一個進程中可以併發多個線程,每條線 程並行執行不同的任務。 ...
  • 發現Java 21的StringBuilder和StringBuffer中多了repeat方法: /** * @throws IllegalArgumentException {@inheritDoc} * * @since 21 */ @Override public StringBuilder ...