簡單瞭解 MongoDB 的基本概念之後,就需要瞭解其提供的一些工具和數據邏輯結構,以真正開始入門 MongoDB 的學習。 ...
組件結構
核心進程
在 MongoDB 中,核心進程主要包含了 mongod、mongos 和 mongosh 三個。
其中最主要的是 mongod 程式,其在不同的部署方案中(單機部署、副本集部署、分片集群部署),通過不同的配置,可以扮演多種不同的角色:
- 在單機部署中作為資料庫伺服器(提供所有讀寫功能)
- 在副本集部署中,通過配置,可以部署為 Primary 節點(負責寫數據,也可以提供查詢)、Secondary 節點(從主節點複製數據,也可以提供查詢)、以及 Arbiter 節點(不保存數據,主要用於參與選舉投票)
- 在分片集群中,除了在每個分片中扮演上述角色外,還扮演著配置伺服器的角色(存儲有分片集群的所有元數據信息,mongos 的數據路由分發等都要依賴於它)
在一臺伺服器上,可以啟動多個 mongod 服務。但在實際生產部署中,通常是建議一臺伺服器部署一個 mongod 實例,這樣不僅減少資源競爭,而且伺服器故障也不會同時影響到多個服務。
mongos 在分片集群中扮演路由的角色,提供客戶端和分片之間的介面。
mongosh 是 MongoDB 集成的互動式 shell 工具。
資料庫工具
MongoDB 資料庫工具是用於處理 MongoDB 部署的命令行實用程式的集合。資料庫工具包括以下二進位文件:
- 二進位導入導出
- mongodump: 導出 mongod 資料庫的二進位數據
- mongorestore: 恢復 mongodump 導出文件的數據到 mongod 或 mongos 資料庫
- bsondump: 轉換 BSON 導出文件成 JSON 格式
- 數據導入導出
- mongoimport: 從外部 JSON、CSV 或 TSV 文件中載入數據
- mongoexport: 從 mongod 實例中導出數據到 JSON 或 CSV 文件中
- 診斷工具
- mongostat: 快速診斷當前運行的 mongod 或 mongos 實例的狀態
- mongotop: 統計 mongod 實例讀取和寫入數據的時間
- GridFS 工具
- mongofiles: 支持在 GridFS 對象中操作 MongoDB 實例中存儲的文件
數據邏輯結構
MongoDB 數據邏輯結構分為資料庫 database、集合 collection、文檔 document 三層 :
- 一個 mongod 實例中允許創建多個資料庫
- 一個資料庫中允許創建多個集合,集合相當於關係型資料庫的表
- 一個集合則是由若幹個文檔構成,文檔相當於關係型資料庫的行,是 MongoDB 中數據的基本單元
資料庫
一個資料庫中可以創建多個集合,原則上應把邏輯相近的集合都放在一個資料庫中。
在 MongoDB 中,會有以下幾個內建的資料庫:
- admin: 存放有資料庫帳號相關信息,在身份驗證和授權時使用
- local: 特定於單個伺服器的數據會存儲在此資料庫中。在副本集中,local 資料庫用於存儲複製過程中所使用的數據,而其本身不會被覆制。
- config: 用於分片集群環境,存放了分片相關的元數據信息
- test: 預設創建的測試庫,連接 mongod 服務時,如果不指定連接的具體資料庫,預設就會連接到 test 資料庫
集合
和 SQL 的表不同,集合是動態模式,不需要在讀寫數據前創建模式就可以使用,集合中的文檔也可以擁有不同的欄位,隨時可以任意增減某個文檔的欄位。
預設情況下,集合不要求其文檔具有相同的模式,但這是一種很好的實踐。可以通過使用 MongoDB 的文檔驗證功能和可用於多種編程語言的對象–文檔映射(object-document mapping)庫來實現文檔驗證。
集合由其名稱進行標識,集合名稱可以是任意 UTF-8 字元串,但有以下限制:
- 不能是空字元串(
""
)。 - 不能含有
\0
(空字元),這個字元用於表示集合名稱的結束 - 不能以
system.
開頭,該首碼為內部集合保留
集合名稱使用 .
字元可以創建子集合,用與區分不同組織集合。雖然子集合沒有任何特殊屬性,但它們很有用,許多 MongoDB 工具整合了子集合。
文檔
文檔是 MongoDB 中數據的基本存儲單元,以一種叫作 BSON 的文檔結構表示。
文檔中的鍵值對是有序的,不同序則是不同文檔。並且鍵是區分大小寫的,否則也為不同文檔。
文檔的鍵是字元串,而值除了字元串,還可以是 Int
、Long
、Double
、Boolean
、數組、嵌入文檔等多種類型。
每個文檔都有一個預設的 _id
鍵,它相當於關係型資料庫中的主鍵,這個鍵的值在同一個集合中必須是唯一的。
_id
鍵的值預設是 ObjectId
類型,在插入文檔的時候,如果用戶不設置文檔的 _id
值的話,MongoDB 會自動生成一個唯一的 ObjectId
值進行填充。
資料庫文件
MongoDB 在 3.2 版本已經將 WiredTiger 作為預設的存儲引擎。其作為存儲引擎的時候,資料庫會有以下存儲文件:
collection-*.wt
: 存儲集合的數據index-*.wt
: 存儲索引的數據WiredTiger
: 存儲基本配置信息WiredTiger.wt
: 存儲所有其他集合的元數據信息WiredTiger.lock
: 存儲進程 ID,用於防止多個進程連接同一個 WiredTiger 資料庫WiredTiger.turtle
: 存儲WiredTiger.wt
的元數據信息journal
: 存儲資料庫的寫日誌
命令行工具
MongoDB 提供的 mongosh 是一個 JavaScript 的 shell,其提供了許多高級功能和自定義功能。
使用技巧
對於 MongoDB 提供的功能,shell 內置了幫助文檔,可以輸入 help
命令進行訪問,使用 db.help()
可以查看資料庫級別的幫助文檔,使用 db.foo.help()
可以查看集合級別的幫助文檔。
在 shell 中使用函數之前,在不使用括弧的情況下輸入函數名,這樣會列印出函數的源代碼,這是一個可以查看函數具體行為的好方法。
執行腳本
shell 不止可以直接執行 JavaScript 的腳本代碼,還可以用於執行 JavaScript 的腳本文件,簡單執行 mongo script.js
即可。
如果已經進入到 shell 中,可以使用 load()
函數載入 JavaScript 腳本文件。
創建 .mongorc.js 文件
對於需要頻繁被載入的腳本,可以將它們添加到 .mongorc.js
中,此文件會在啟動 shell 時自動運行。
在更實際一些的場景中,使用此腳本可以設置全局變數,或者為長名稱設置一個簡短的別名,也可以重寫內置函數。
定製提示信息
通過將 prompt
變數設置為一個字元串或函數,可以重寫預設的 shell 提示,如下示例:
prompt = function() {
if (typeof db == 'undefined') {
return '(nodb)> ';
}
// 檢查最後的資料庫操作
try {
db.runCommand({getLastError: 1});
} catch (e) {
print(e);
}
return db+"> ";
};
提示函數應該返回一個字元串,通常應該包含對 getLastError
的調用,這樣可以捕獲輸入時的錯誤,併在 shell 斷開連接時自動重新連接。
編輯複雜變數
使用 shell 時,編輯多行的時候不能再編輯前面的行,這對於較大的代碼塊或對象非常不友好。
為此,可以在 shell 中設置 EDITOR
變數,則可以使用 edit varname
的方式編輯一個變數,完成更改後只需保存並退出編輯器,變數將被重新解析並載入回 shell 中。
不便使用的集合名稱
大多數情況下可以使用 db.collectionName
語法來獲得一個集合的內容,但如果集合名稱是保留字或是無效的 JavaScript 屬性名稱時,那麼此方法就不能正常工作了。
對於上述的情況,可以使用 db.getCollection()
的方式繞過無效屬性。