MongoDB 數據分發

来源:http://www.cnblogs.com/ljhdo/archive/2016/09/16/5016193.html
-Advertisement-
Play Games

在MongoDB(版本 3.2.9)中,數據的分發是指將collection的數據拆分成塊(chunk),分佈到不同的分片(shard)上,數據分發主要有2種方式:基於數據塊(chunk)數量的均衡分發和基於片鍵範圍(range)的定向分發。MongoDB內置均衡器(balancer),用於拆分塊和 ...


在MongoDB(版本 3.2.9)中,數據的分發是指將collection的數據拆分成塊(chunk),分佈到不同的分片(shard)上,數據分發主要有2種方式:基於數據塊(chunk)數量的均衡分發和基於片鍵範圍(range)的定向分發。MongoDB內置均衡器(balancer),用於拆分塊和移動塊,自動實現數據塊在不同shard上的均勻分佈。balancer只保證每個shard上的chunk數量大致相同,不保證每個shard上的doc數量大致相同。

一,數據按照chunk數量進行均衡分發

均衡分發是MongoDB自動實現的,使資料庫架構對Application透明,簡化系統的管理,使得向分片集群中增減分片變得容易。均衡分發是由MongoDB內置均衡器(balancer)來實現的,Balancer按照collection的索引欄位來進行數據分發,該欄位叫做片鍵(sharded key)。片鍵一般有三種類型:升序片鍵,隨機片鍵和基於分組的片鍵。

塊(chunk)是由多個doc組成的一個分組,在某個索引欄位(片鍵)上是連續的,每個chunk的片鍵是有一定範圍的。塊的預設大小是64MB。有些chunk會非常大,包含的doc數量非常多,但是,在MongoDB看來,仍然是一個chunk,和沒有任何doc的空chunk沒有區別。均衡分發保證每個shard的chunk數量是大致相同的。因此,片鍵的選擇直接影響分片的好壞。

例如:一個MongoDB分片集群有3個shard,分別是shard1,shar2,shard3。片鍵的最小值是:$MinKey,最大值是:$MaxKey。包含端值$MinKey的chunk是最小塊,包含端值$MaxKey的chunk是最大塊。

1,升序片鍵

升序片鍵類似date欄位或者_id欄位,是一種隨著時間穩定增長的欄位。假如分片的欄位是_id欄位,集合foo中存在10個doc,每個shard中存在一個數據塊,分別是:chunk1:$MinKey-3,chunk2:4-8,chunk3:9-$MaxKey。

使用升序片鍵的劣勢是:每次插入一個新的doc,都會插入到最大塊中,這會導致所有的寫請求都會被路由到同一個分片,導致最大塊不斷增長,不斷被拆分,然後不斷被移動到其他分片中,導致數據的寫入不均衡,塊移動會額外增加Disk的寫數量。使用升序片鍵的優勢是:按照片鍵進行範圍讀時,性能高。

2,隨機片鍵

隨機片鍵是指片鍵的值不是固定增長,而是一些沒有規律的鍵值。由於寫入數據是隨機分發的,各分片增長的速度大致相同,減少了chunk 遷移的次數。使用隨機分片的弊端是:寫入的位置是隨機的,如果使用Hash Index來產生隨機值,那麼範圍查詢的速度會很慢。

3,基於分組的片鍵

基於分組的片鍵是兩欄位的複合片鍵,第一個欄位用於分組,該欄位的勢最好是比較低的,勢是在同一欄位中不同值(distinct value)的數量或所占的比例;第二個欄位用於自增,該欄位最好是自增欄位。這種片鍵策略是最好的,能夠實現多熱點數據的讀寫。

單個mongod 在處理升序寫請求時是最有效的,數據只需要寫入到集合的末尾。基於分組的片鍵,將數量不多的分組分佈在分片集群中,每個shard只有少量的chunk,這樣能夠將數據的寫操作分佈在分片集群中的每個shard上,在單個shard上,以升序方式讀寫數據。一個shard上的分組太多,寫請求就相當於隨機寫了,反而不好。

二,按照片鍵範圍進行定向分發

如果希望特定範圍的chunk被分發到特定的分片中,可以為分片添加tag,然後為tag指定相應的片鍵範圍,這樣,如果一個doc屬於tag的片鍵範圍,就會被定向到特定的shard中。

1,為shard指定tag

sh.addShardTag("shar1","shard_tag1");
sh.addShardTag("shar2","shard_tag2");
sh.addShardTag("shar3","shard_tag2");

2,為tag指定片鍵範圍

sh.addTagRange(
    "db_name.collection_name",
    {field:"min_value"},
    {field:"max_value"}, 
    "shard_tag"
)

每個shard的tag可以使用任意數量的tag,MongoDB的均衡器在移動塊時,會將特定片鍵範圍的chunk移動到特定的shard上。
三,手動進行數據的分發

MongoDB內置均衡器(balancer),自動實現數據塊的拆分和移動,有時,可以關閉balancer,使用moveChunk命令手動移動數據塊。

1,關閉balancer

連接到一個mongos,更新config.setting命名空間

use config
db.setting.update({"_id":"balancer"},{"enabled":false},true)

--or
sh.setBalancerState(false);

2,拆分塊
拆分塊是指新增一個邊界點,將一個chunk在邊界點處拆分成兩個chunk。在MongoDB中,將片鍵從小到大排序,邊界值屬於右邊的chunk。

sh.splitAt("db_name.collection_name",{sharded_filed:"new_boundary_value"})

3,移動塊
MongoDB將包含指定文檔的chunk移動到指定的shard上,必須使用片鍵來查找所要一定的chunk。

sh.moveChunk("db_name.collection_name",{sharded_filed:"value_in_chunk"},"new_shard_name")

4,啟用balancer

sh.setBalancerState(true)

5,刷新mongos的緩存

在Application layer 和數據存儲之間,存在一個Query Router,即mongos,mongos會在第一次啟動或分片的元數據被更新之後,從config server 同步配置數據,並緩存在mongos中。有時,mongos無法從config server上及時同步最新的配置信息,導致無法路由到相應的chunk,不能返回正確的數據,可以使用flushRouterConfig 命令手動刷新mongos的緩存

db.adminCommand({"flushRouterConfig":1})

 

參考文檔:

Sharding


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • https://blueprints.launchpad.net/myconnpy/+spec/sp-multi-resultsets Calling a stored procedure can produce multiple result sets. They should be retrie ...
  • 12down votefavorite 8 8 http://stackoverflow.com/questions/31748278/how-do-you-install-mysql-connector-python-development-version-through-pip/34027037 ...
  • SQL 是用於訪問和處理資料庫的標準的電腦語言。 什麼是 SQL? SQL 指結構化查詢語言 SQL 使我們有能力訪問資料庫 SQL 是一種 ANSI 的標準電腦語言 編者註:ANSI,美國國家標準化組織 什麼是 SQL? SQL 指結構化查詢語言 SQL 使我們有能力訪問資料庫 SQL 是一種 ...
  • 之前一直沒用到這個函數,因為一般的情況下分類比較少的情況下,比如 : 男 : 0 女 : 1 我們一般會這麼設計資料庫,前臺顯示的時候一般會用select 或者 redio value = "0" 或=“1”顯示這樣確實是比較方便 其實用decode函數直接就可以使用了 select decode( ...
  • 一、登錄 打開終端,輸入/usr/local/mysql/bin/mysql -u root -p 初次進入mysql,密碼為空。當出現mysql>提示符時,表示你已經進入mysql中。鍵入exit退出mysql。 二、更改Mysqlroot用戶密碼 更改mysql root 用戶密碼,在終端輸入/ ...
  • oracle使用java source調用外部程式 需求 Oracle調用第三方外部程式。Oracle使用sqluldr2快速導出大批量數據,然後用winrar壓縮後發送郵件。 原碼 java source create or replace and compile java source name... ...
  • Spark Streaming Spark Streaming 是Spark為了用戶實現流式計算的模型。 數據源包括Kafka,Flume,HDFS等。 DStream 離散化流(discretized stream), Spark Streaming 使用DStream作為抽象表示。是隨時間推移而 ...
  • 地址:http://www.sqlite.org/download.html組織形式可以看到source code是Amalgamation。真正的源碼在這裡什麼是Amalgamation下載源碼以後,打開時候這樣子的src文件夾里就是所有的代碼,大概有一百多個。那麼為啥還要有一個Amalga... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...