【Java面試】Mysql為什麼使用B+Tree作為索引結構

-Advertisement-

一個工作8年的粉絲私信了我一個問題。他說這個問題是去阿裡面試的時候被問到的，自己查了很多資料也沒搞明白，希望我幫他解答。問題是： “Mysql為什麼使用B+Tree作為索引結構” 關於這個問題，看看普通人和高手的回答。普通人： B+數它的特征就是相對B數來說他的這個非葉子節點不存數據，所有的數 ...

一個工作8年的粉絲私信了我一個問題。

他說這個問題是去阿裡面試的時候被問到的，自己查了很多資料也沒搞明白，希望我幫他解答。

問題是： “Mysql為什麼使用B+Tree作為索引結構”

關於這個問題，看看普通人和高手的回答。

普通人：

B+數它的特征就是相對B數來說他的這個非葉子節點不存數據，所有的數據都存在葉子節點

相對於B數來說他的查詢次數IO次數會更穩。

高手：

關於這個問題，我從幾個方面來回答。

首先，常規的資料庫存儲引擎，一般都是採用B樹或者B+樹來實現索引的存儲。

因為B樹是一種多路平衡樹，用這種存儲結構來存儲大量數據，它的整個高度會相比二叉樹來說，會矮很多。

而對於資料庫來說，所有的數據必然都是存儲在磁碟上的，而磁碟IO的效率實際上是很低的，特別是在隨機磁碟IO的情況下效率更低。

所以樹的高度能夠決定磁碟IO的次數，磁碟IO次數越少，對於性能的提升就越大，這也是為什麼採用B樹作為索引存儲結構的原因。

但是在Mysql的InnoDB存儲引擎裡面，它用了一種增強的B樹結構，也就是B+樹來作為索引和數據的存儲結構。

相比較於B樹結構，B+樹做了幾個方面的優化。

B+樹的所有數據都存儲在葉子節點，非葉子節點只存儲索引。
葉子節點中的數據使用雙向鏈表的方式進行關聯。

使用B+樹來實現索引的原因，我認為有幾個方面。

B+樹非葉子節點不存儲數據，所以每一層能夠存儲的索引數量會增加，意味著B+樹在層高相同的情況下存儲的數據量要比B樹要多，使得磁碟IO次數更少。
在Mysql裡面，範圍查詢是一個比較常用的操作，而B+樹的所有存儲在葉子節點的數據使用了雙向鏈表來關聯，所以在查詢的時候只需查兩個節點進行遍歷就行，而B樹需要獲取所有節點，所以B+樹在範圍查詢上效率更高。
在數據檢索方面，由於所有的數據都存儲在葉子節點，所以B+樹的IO次數會更加穩定一些。
因為葉子節點存儲所有數據，所以B+樹的全局掃描能力更強一些，因為它只需要掃描葉子節點。但是B樹需要遍歷整個樹。

另外，基於B+樹這樣一種結構，如果採用自增的整型數據作為主鍵，還能更好的避免增加數據的時候，帶來葉子節點分裂導致的大量運算的問題。

總的來說，我認為技術方案的選型，更多的是去解決當前場景下的特定問題，並不一定是說B+樹就是最好的選擇，就像MongoDB裡面採用B樹結構，本質上來說，其實是關係型資料庫和非關係型資料庫的差異。

以上就是我對這個問題的理解。

總結

對於“為什麼要選擇xx技術”的問題，其實很好回答。

只要你對這個技術本身的特性足夠瞭解，那麼自然就知道為什麼要這麼設計。

就像，我們在業務開發中，知道什麼時候使用List，什麼時候使用Map，道理是一樣的。

如果有任何面試問題、職業發展問題、學習問題，都可以私信我。

file

版權聲明：本博客所有文章除特別聲明外，均採用 CC BY-NC-SA 4.0 許可協議。轉載請註明來自 Mic帶你學架構！
如果本篇文章對您有幫助，還請幫忙點個關註和贊，您的堅持是我不斷創作的動力。歡迎關註「跟著Mic學架構」公眾號公眾號獲取更多技術乾貨！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C 語言流程式控制制

順序執行 C 語言的程式是順序執行，即先執行前面的語句，再執行後面的語句。條件執行 if if語句用於條件判斷，滿足條件時，就執行指定的語句。 if (expression) { statement // 表達式expression為真（非 0 值）時，就執行 statement 語句。 } if ...
SpringMVC中@ControllerAdvice註解具有什麼功能呢？

@ 一．前言使用PyQt5模仿網易雲音樂，只有UI沒有功能。二．展示-主界面 1.靜圖1 主界面 2.靜圖2 主界面-歌單 3.靜圖3 主界面-播客 3.靜圖3 主界面-最新音樂 4.動圖1 主界面-綜合動圖展示三．展示-登錄界面仿照製作了一個登錄頁面（二維碼是可以掃描的，並且具有時效性哦~ ...
自動化工具：PyAutoGUI的滑鼠與鍵盤控制，解放雙手的利器

C++預設參數及其本質 1. 概述概述 C++ 允許函數設置預設參數，在調用時可以根據情況省略實參其規則如下預設參數只能按照從右到左的順序。如果函數同時有聲明、實現、預設參數只能放在函數聲明中預設參數的值可以是常量、全局符號（全局變數、函數名）實例1：預設參數只能按照從右到左的順序、預設 ...
文字隱寫術-盲水印研究筆記【原創】

blind watermark 盲水印技術實現，這裡主要引用網上三種java實現的效果測試和研究。可以將文字隱藏在圖片中，通過提取還原水印，實現版本保護效果。開源代碼: https://gitee.com/chejiangyi/shuiyin/tree/master ...
Practical usage of cpp reference and move semantic

Practical usage of cpp reference and move semantic 在優化重構一部分老代碼時，實際使用 c++ 的 reference 與 move semantic 遇到了若幹問題，在此記錄。 Aggregation 首先，數據的設計並不複雜，只有一個類，成員變數 ...
C++函數重載的原理

C++函數重載的原理一、函數重載概述 1.1 為什麼要有函數重載在實際的開發中，有時候我們需要實現幾個功能類似的函數，只是有些細節不同。例如希望交換兩個變數的值，但是這兩個變數可能有多種類型：int、char、double、bool等。在C語言中，程式員往往需要分別設計出多個不同名的函數，但是在 ...
Python+AI給老照片上色

前言哈嘍，大家好。有沒有誰跟我一樣喜歡老照片的朋友，老照片總是讓人感覺有一種情懷，可能這就是懷念吧。有一次無意中看到了很久很久以前的照片都是黑白的，當時很想給照片添加點顏色，但是不知道怎麼搞。今天，我終於發現了怎麼去解決這個問題，想了想，我決定得把這個分享給大家… 今天我們分享用NoGAN的圖 ...
美團一面：JDK 1.8 中的 HashMap 如何應對 hash 衝突？我懵逼了。。

1 什麼是hash衝突我們知道HashMap底層是由數組+鏈表/紅黑樹構成的，當我們通過put(key, value)向hashmap中添加元素時，需要通過散列函數確定元素究竟應該放置在數組中的哪個位置，當不同的元素被放置在了數據的同一個位置時，後放入的元素會以鏈表的形式，插在前一個元素的尾部，這 ...