Hash存儲模型、B-Tree存儲模型、LSM存儲模型介紹

-Advertisement-

每一種數據存儲系統，對應有一種存儲模型，或者叫存儲引擎。我們今天要介紹的是三種比較流行的存儲模型，分別是：Hash存儲模型B-Tree存儲模型LSM存儲模型不同存儲模型的應用情況1、Hash存儲模型redismemcache2、B-Tree存儲模型MySQL（以及大多數的關係型資料庫）MongoDB... ...

每一種數據存儲系統，對應有一種存儲模型，或者叫存儲引擎。我們今天要介紹的是三種比較流行的存儲模型，分別是：

Hash存儲模型
B-Tree存儲模型
LSM存儲模型

不同存儲模型的應用情況

1、Hash存儲模型

redis
memcache

2、B-Tree存儲模型

MySQL（以及大多數的關係型資料庫）
MongoDB

3、LSM樹存儲模型

HBase
RocksDB

不同存儲模型介紹

1、Hash存儲模型

Hash存儲模型其實就是HashMap（哈希表）的持久化實現。這種模型的特點是與HashMap有密切關係的。我們知道HashMap可以支持：put（key）增加/修改、delete（key）刪除、get（key）隨機獲取操作，但是HashMap不支持get(1)這樣的操作。因為HashMap是無序的，不支持順序掃描。針對put、get操作，它的時間複雜度是O(1)，也就是說讀寫速度都很快，所以針對單個Key的操作是非常快速的。如果我們在應用中無需遍曆數據，Hash引擎是非常合適的。

首先，通過key，找到對應的文件編號。這個檢索的過程，是通過HashMap來實現的。

其次，通過文件編號找到存儲中的文件

再者，通過value長度和位置找到對應的行數據

最後，讀取出value內容

2、B-Tree存儲模型

B-Tree存儲模型由於是樹狀結構存儲，所以，它是不支持隨機讀寫的。就像我們學習二叉樹時，查找數據得通過遍歷樹的方式來查找數據。

上圖是一種典型的B-Tree存儲索引。葉子節點保存了每行的完整數據，非葉子節點保存了索引信息。數據在每個節點都是有序存儲的，但查詢數據的時候，需要從根節點遍歷，然後根據二分查找直到找到葉子節點。如果數據不再記憶體中，需要從磁碟中讀取，並載入到緩存。B+樹的根節點是常駐記憶體的，最多需要h-1次磁碟IO，複雜度為O(h) = O(logdN)。修改操作首先要記錄提交日誌，然後在修改記憶體中的B+樹。

3、LSM樹存儲引擎

LSM樹的思想很容易理解，就是將數據的新增、修改增量數據先保存在記憶體中，到達指定的大小限制後將修改操作批量寫入到磁碟。讀取時，需要合併磁碟中的歷史數據和記憶體中最近的修改操作。LSM的優勢在於有效地隨機寫入問題，但讀取可能需要訪問較多的磁碟文件。

Level 0 ：日誌/記憶體

先寫入預寫日誌，再寫記憶體
寫入日誌是為了保障可用性

Level 1：日誌/記憶體，當Level 0寫入達到閾值，通過非同步方式將部分數據刷寫到硬碟上
Level 2：合併，由於不斷刷寫會產生大量小文件，這樣不利於管理和查詢。需要在合適的時機啟動一個非同步線程進行合併操作生成一個大文件

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Sublime Text3添加到右鍵菜單，"用 SublimeText3 打開"

在Sublime Text3安裝目錄下新建一個文件 sublime_addright.inf 文件內容： [Version] Signature="$Windows NT$" [DefaultInstall] AddReg=SublimeText3 [SublimeText3] hkcr,"*\\s ...
實用技巧

" 返回《C 併發編程》" "1. 初始化共用資源" "2. Rx延遲求值" "3. 非同步數據綁定" "4. 非同步構造" "5. 非同步屬性" 1. 初始化共用資源不管同時有多少線程調用，這個工廠委托只會運行一次，並且所有線程都等待同一個實例。 + 實例在創建後會被緩存起來，以後所有對 Value ...
Linux 查看磁碟IO並找出占用IO讀寫很高的進程

根據磁碟IO告警，找到占用磁碟IO (util)讀寫很高的進程。 ...
軟鏈接和硬鏈接——Linux中的文件共用

硬鏈接（Hard Link）和軟鏈接也稱為符號鏈接（Symbolic Link）的目的是為瞭解決文件的共用使用問題。要闡明其原理，必須先理解Linux的文件存儲方式。索引結點 Linux是一個UNIX類操作系統，所有類型的UNIX文件都是由操作系統通過索引節點來管理的。索引節點是一個控制結構，包 ...
疫情之下,使用FRP實現內網穿透,遠程連接公司電腦進行辦公

當前情況下，經常會有需要到公司電腦進行一些操作，比如連接內網OA，資料庫或者提交文檔。為了減少外出，將使用frp進行內網穿透的方法進行一個說明。前提條件 1. 一臺擁有公網 IP 的設備(如果沒有，伺服器可以使用https://diannaobos.com/frp/ 提供的免費伺服器) 2、需要遠 ...
痞子衡嵌入式：知名半導體MCU大廠軟體開發C代碼規範

今天要分享的這篇就是2013年痞子衡剛入職飛思卡爾半導體MCU軟體團隊時為了學習C編碼規範所翻譯的（外企嘛，各種資料都是洋文），當時飛思卡爾剛成立MCU軟體團隊不久，那時候Kinetis SDK也還沒有正式推出，整個團隊必須要有一個統一且良好的編碼風格，這樣寫出來的SDK才符合大廠身份。 ...
Eversipn STT-MRAM的MJT細胞

業界一直在尋求取代SRAM。其中之一包括自旋轉移力矩MRAM（STT-MRAM）。新的存儲器帶來了一些大膽的主張。例如STT-MRAM具有SRAM的速度和快閃記憶體的無波動性，具有無限的耐用性。圖1.STT-MRAM的MJT細胞 everspin已經為SSD提供SST-MRAM設備。此外一些晶元製造商正 ...
「Flink」Flink中的時間類型

Flink中的時間類型和視窗是非常重要概念，是學習Flink必須要掌握的兩個知識點。Flink中的時間類型時間類型介紹Flink流式處理中支持不同類型的時間。分為以下幾種：處理時間Flink程式執行對應操作的系統時間。所有基於時間的操作（例如：時間視窗）都將使用運行相應operator的系統時間。例... ...