MongoDB 存儲引擎和數據模型設計

-Advertisement-

標簽： MongoDB NoSQL MongoDB 存儲引擎和數據模型設計 1. 存儲引擎 1.1 存儲引擎是什麼 1.2 MongoDB中的預設存儲引擎 2. 數據模型設計 2.1 內嵌和引用 2.2 設計原則 A. 1 1 或者 1 （較少） B. 1 （較多） C. 1 （非常多） D. E. ...

標簽： MongoDB NoSQL

MongoDB 存儲引擎和數據模型設計
1. 存儲引擎
- 1.1 存儲引擎是什麼
- 1.2 MongoDB中的預設存儲引擎
2. 數據模型設計
- 2.1 內嵌和引用
- 2.2 設計原則

1. 存儲引擎

1.1 存儲引擎是什麼

存儲引擎是位於持久化數據（通常是放在磁碟或者記憶體中）和資料庫之間的一個操作介面，它負責數據的存儲和讀取方式。MongoDB資料庫通過存儲引擎在磁碟中讀取數據，而假設我們的應用是ASP.NET MVC，我們可以使用官方的Mongo.Driver驅動，通過通信協議（如TCP）向MongoDB資料庫發送各種請求。以下是一個簡單的運行圖示

1.2 MongoDB中的預設存儲引擎

自MongoDB 3.2 Release版本起，MongoDB預設的存儲引擎就成了WiredTiger。而在之前的版本中，它還是MMAPv1。但由於,ongoDB架構支持可插拔的存儲引擎，所以使用中即便要更換也是可以做到的。至於其他的功能比較大家可以參閱官方文檔，如不再是In-Place Update，新增Compression等。

我們可以在開啟mongod服務時輸入相關參數調整存儲引擎，如mongod --storageEngine MMAPv1|wiredTiger
我們也可以使用db.collections.stats()查看當前的引擎名稱

MMAPv1
MMAPv1 提供集合級別鎖（實際上稱為collection-level locking）
WiredTiger
WiredTiger 對於寫操作提供文檔級別併發控制（實際上稱為document-level concurrency），因此，不同的客戶端請求可以在同一時間針對一個集合中的不同文檔記性修改

2. 數據模型設計

2.1 內嵌和引用

在MongoDB中，數據的表示方式有內嵌和引用兩種。

“引用”我們比較好理解，是指將不同實體的數據分散不到不同的集合中，而在關係型資料庫設計中就是將實體分別建立相應的模型表。如常見的“老師-學生”，“產品-標簽”關係，只要實體間存在關係，就可以使用“引用”思想。

“內嵌”是一種反範式化的設計，指的是將每個文檔所需的數據都嵌入到文檔內部，我想舉一個“用戶-賬戶”的關係。我們知道在領域驅動設計中，“用戶”是一個聚合根，每個用戶對應一個賬戶，所以是“1對1”的一種關係，在關係型資料庫設計中，大部分時候都會將這兩者嚴格區分開來。但是在MongoDB中，卻不然，我們可以直接選擇將“用戶”需要的“賬戶”數據內嵌到用戶文檔中，便於我們的增刪改查。這是一種反範式化的設計。

設計MongoDB數據模型的時候，我們需要轉變以往設計關係型數據模型時的思維。即便是針對一個關係中不同集合的數量規模，我們的模型也將有很大的不同。

2.2 設計原則

**A. 1 - 1 或者 1 - *（較少）**

用戶與賬戶，以及用戶與收貨地址都是這樣情況，在這樣的情況下，顯而易見我們可以採取內嵌的方式來進行數據管理。

> db.person.findOne()
{
    _id:ObjectId("cccc"),
    name:"wddpct",
    age:22,
    location:"wenzhou",
    addresses:[
        {country:"china",city:"wenzhou",street:"chashan road"}
        {country:"china",city:"wenzhou",street:"north center road"}
    ]
}

這也引伸出一個問題，除了“1”以外的另一端的實體是否有必要在數目較少的時候進行單獨集合的儲存。如用戶和任務模塊，任務是系統定期發佈，分配給相應用戶完成，這意味著我們對任務的操作也將比較複雜。這樣的情況下，顯然是分開不同集合進行存儲，然後讓person集合引用task_id數組。

> db.person.findOne()
{
    _id:ObjectId("cccc"),
    name:"wddpct",
    age:21,
    location:"wenzhou",
    tasks:[
        ObjectId("xxxx"),
        ObjectId("yyyy"),
        ……
    ]
}

所以針對剛纔提到的情況，我們大可以借鑒領域驅動模式中的“實體”和“值對象”的部分概念，主要還是看這些數據模型在系統中是否有較大較複雜的操作可能。

**B. 1 - *（較多）**

博主之前負責過一個市級地區中小學眼視光篩查系統，裡面的簡化模型就比較適合拿來做例子。如學校與學生，數目多也不過數千。這樣的情況下，自然也是使用引用的方式更容易接受

> db.school.findOne()
{
    _id:ObjectId("cccc"),
    name:"middle1",
    location:"wenzhou",
    students:[
        ObjectId("xxxx"),
        ObjectId("yyyy"),
        ……
    ]
}

這裡同樣也引伸出一個“冗餘”的問題，我們知道大多時候我們需要查詢的數據屬性數目是比較少的，比如對於學生而言，我們可能只需要知道他的身高體重，所以我們可以使用“冗餘”思想簡單修改剛纔的集合成以下格式來應付

> db.school.findOne()
{
    _id:ObjectId("cccc"),
    name:"middle1",
    location:"wenzhou",
    students:[
        {ObjectId("xxxx"),name:"wddpct",height:233,weight:233},
        {ObjectId("yyyy"),name:"wddmd",height:233,weight:233}
        ……
    ]
}

不過也要註意的一點是，這樣每次更新student的信息時，不免又要對school中的冗餘信息進行更新，所以也要結合具體場景使用

**C. 1 - *（非常多）**

地區和車牌的關係勉強屬於此類，一個地區可能有幾十上百萬車牌，我們不可能再像剛纔那樣在area中加入所有的license_id，不然可能光是單個文檔大小就超過MongoDB的16MB限制了，而且對於查詢也存在很大的負擔。

這裡我們可以直接套用關係型資料庫中的外鍵思想，在license集合的末尾加入area_id就可以方便解決此類關係

> db.license.findOne()
{
    _id:ObjectId("cccc"),
    license:"middle1",
    area:ObjectId("xxxx")
}

當然，我們也可以對area進行進一步冗餘，所以就不額外說明瞭。

D. * - *

對於多對多關係模型，可能又要祭出那句老話——“視具體情況而定”。不過一般情況下，它不過就是一對多關係的幾個變種。一個基本的原則是考慮兩邊統一引用對方的ObjectId，適當冗餘部分信息。

除此以外，我們還可以從以下幾個原則去考慮

兩邊的數量比（較大方更適合引用）
兩邊的更新頻率比（較大方更適合引用）
兩邊的讀取頻率比（較大方更適合內嵌）
……

E. 通用建議

以下給出一張較通用的建議表，僅供參考

內嵌	引用
子文檔較小	子文檔較大
數據不會定期更改	數據經常改變
最終數據一致即可	中間階段數據也必須一致
文檔數據小額增加	文檔數據大幅增加
數據通常需要執行二次查詢	數據通常不包含在查詢結果中
快速讀取	快速寫入

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

iOS多線程之3.NSThread的線程間通信

我們把一些耗時操作放在子線程，例如下載圖片，但是下載完畢我們不能在子線程更新UI，因為只有主線程才可以更新UI和處理用戶的觸摸事件，否則程式會崩潰。此時，我們就需要把子線程下載完畢的數據傳遞到主線程，讓主線程更新UI，這就是線程間的通信。原理代碼日誌 &em ...
虎撲論壇裝備區到底有沒有李寧水軍？——論壇水軍發現實踐

目錄 1 易建聯脫鞋事件2 傳說中的網路水軍 2.1 網路水軍是什麼？ 2.2 網路水軍發現技術3 基於同貼率的網路水軍發現4 基於情感分析的網路水軍發現5 總結 1 易建聯脫鞋事件（圖片來自網路，侵刪） 2016年11月2日，剛剛從NBA回歸的易建聯沒想到搞了個大新聞！過去4年來，李寧公司作為C ...
MySQL HASH分區

介紹基於給定的分區個數，將數據分配到不同的分區，HASH分區只能針對整數進行HASH，對於非整形的欄位只能通過表達式將其轉換成整數。表達式可以是mysql中任意有效的函數或者表達式，對於非整形的HASH往表插入數據的過程中會多一步表達式的計算操作，所以不建議使用複雜的表達式這樣會影響性能。 MYS ...
My Sql 1067錯誤兼編碼問題解決

My Sql 大部分都是用綠色版(解壓版) 然後註冊服務簡單方便。但是。配置文件頭痛的一逼。首先配置mysql的環境變數。 mySQL 環境變數(我的電腦-右擊屬性-高級-環境變數) MYSQL_HOME(解壓路徑):E:\MYSQL\mysql-5.6.23-winx64 path:在最後面 ...
分頁查詢

MySql select tablename.* from tablename limit firstIndex,pageSize; firstIndex >開始索引 pageSize >頁大小 Oracle Oracle select * from ( select a.*,ROWNUM rn f ...
第五章查詢處理和執行

sql server 2012深入解析與性能優化(第3版) 第五章查詢處理和執行 1.sqlserver通過四個步驟處理一個查詢，分析，algebrizing，優化，執行。2.分析是分析語法錯誤生成分析樹，綁定部分有，名字解析，類型推倒，聚合綁定，組合綁定。查詢優化器，將查詢樹找到好的執行計劃，如 ...
SQL 數據分頁查詢

最近學習了一下SQL的分頁查詢，總結了以下幾種方法。首先建立了一個表，隨意插入的一些測試數據，表結構和數據如下圖：現在假設我們要做的是每頁5條數據，而現在我們要取第三頁的數據。（數據太少，就每頁5條了）方法一：結果：此方法是先取出前10條的SID(前兩頁)，排除前10條數據的SID，然後在 ...
MySQL LIST分區

介紹 LIST分區和RANGE分區非常的相似，主要區別在於LIST是枚舉值列表的集合，RANGE是連續的區間值的集合。二者在語法方面非常的相似。同樣建議LIST分區列是非null列，否則插入null值如果枚舉列表裡面不存在null值會插入失敗，這點和其它的分區不一樣，RANGE分區會將其作為最小分區 ...