在MongoDB(版本 3.2.9)中,數據的分發是指將collection的數據拆分成塊(chunk),分佈到不同的分片(shard)上,數據分發主要有2種方式:基於數據塊(chunk)數量的均衡分發和基於片鍵範圍(range)的定向分發。MongoDB內置均衡器(balancer),用於拆分塊和 ...
在MongoDB(版本 3.2.9)中,數據的分發是指將collection的數據拆分成塊(chunk),分佈到不同的分片(shard)上,數據分發主要有2種方式:基於數據塊(chunk)數量的均衡分發和基於片鍵範圍(range)的定向分發。MongoDB內置均衡器(balancer),用於拆分塊和移動塊,自動實現數據塊在不同shard上的均勻分佈。balancer只保證每個shard上的chunk數量大致相同,不保證每個shard上的doc數量大致相同。
一,數據按照chunk數量進行均衡分發
均衡分發是MongoDB自動實現的,使資料庫架構對Application透明,簡化系統的管理,使得向分片集群中增減分片變得容易。均衡分發是由MongoDB內置均衡器(balancer)來實現的,Balancer按照collection的索引欄位來進行數據分發,該欄位叫做片鍵(sharded key)。片鍵一般有三種類型:升序片鍵,隨機片鍵和基於分組的片鍵。
塊(chunk)是由多個doc組成的一個分組,在某個索引欄位(片鍵)上是連續的,每個chunk的片鍵是有一定範圍的。塊的預設大小是64MB。有些chunk會非常大,包含的doc數量非常多,但是,在MongoDB看來,仍然是一個chunk,和沒有任何doc的空chunk沒有區別。均衡分發保證每個shard的chunk數量是大致相同的。因此,片鍵的選擇直接影響分片的好壞。
例如:一個MongoDB分片集群有3個shard,分別是shard1,shar2,shard3。片鍵的最小值是:$MinKey,最大值是:$MaxKey。包含端值$MinKey的chunk是最小塊,包含端值$MaxKey的chunk是最大塊。
1,升序片鍵
升序片鍵類似date欄位或者_id欄位,是一種隨著時間穩定增長的欄位。假如分片的欄位是_id欄位,集合foo中存在10個doc,每個shard中存在一個數據塊,分別是:chunk1:$MinKey-3,chunk2:4-8,chunk3:9-$MaxKey。
使用升序片鍵的劣勢是:每次插入一個新的doc,都會插入到最大塊中,這會導致所有的寫請求都會被路由到同一個分片,導致最大塊不斷增長,不斷被拆分,然後不斷被移動到其他分片中,導致數據的寫入不均衡,塊移動會額外增加Disk的寫數量。使用升序片鍵的優勢是:按照片鍵進行範圍讀時,性能高。
2,隨機片鍵
隨機片鍵是指片鍵的值不是固定增長,而是一些沒有規律的鍵值。由於寫入數據是隨機分發的,各分片增長的速度大致相同,減少了chunk 遷移的次數。使用隨機分片的弊端是:寫入的位置是隨機的,如果使用Hash Index來產生隨機值,那麼範圍查詢的速度會很慢。
3,基於分組的片鍵
基於分組的片鍵是兩欄位的複合片鍵,第一個欄位用於分組,該欄位的勢最好是比較低的,勢是在同一欄位中不同值(distinct value)的數量或所占的比例;第二個欄位用於自增,該欄位最好是自增欄位。這種片鍵策略是最好的,能夠實現多熱點數據的讀寫。
單個mongod 在處理升序寫請求時是最有效的,數據只需要寫入到集合的末尾。基於分組的片鍵,將數量不多的分組分佈在分片集群中,每個shard只有少量的chunk,這樣能夠將數據的寫操作分佈在分片集群中的每個shard上,在單個shard上,以升序方式讀寫數據。一個shard上的分組太多,寫請求就相當於隨機寫了,反而不好。
二,按照片鍵範圍進行定向分發
如果希望特定範圍的chunk被分發到特定的分片中,可以為分片添加tag,然後為tag指定相應的片鍵範圍,這樣,如果一個doc屬於tag的片鍵範圍,就會被定向到特定的shard中。
1,為shard指定tag
sh.addShardTag("shar1","shard_tag1"); sh.addShardTag("shar2","shard_tag2"); sh.addShardTag("shar3","shard_tag2");
2,為tag指定片鍵範圍
sh.addTagRange( "db_name.collection_name", {field:"min_value"}, {field:"max_value"}, "shard_tag" )
每個shard的tag可以使用任意數量的tag,MongoDB的均衡器在移動塊時,會將特定片鍵範圍的chunk移動到特定的shard上。
三,手動進行數據的分發
MongoDB內置均衡器(balancer),自動實現數據塊的拆分和移動,有時,可以關閉balancer,使用moveChunk命令手動移動數據塊。
1,關閉balancer
連接到一個mongos,更新config.setting命名空間
use config
db.setting.update({"_id":"balancer"},{"enabled":false},true)
--or
sh.setBalancerState(false);
2,拆分塊
拆分塊是指新增一個邊界點,將一個chunk在邊界點處拆分成兩個chunk。在MongoDB中,將片鍵從小到大排序,邊界值屬於右邊的chunk。
sh.splitAt("db_name.collection_name",{sharded_filed:"new_boundary_value"})
3,移動塊
MongoDB將包含指定文檔的chunk移動到指定的shard上,必須使用片鍵來查找所要一定的chunk。
sh.moveChunk("db_name.collection_name",{sharded_filed:"value_in_chunk"},"new_shard_name")
4,啟用balancer
sh.setBalancerState(true)
5,刷新mongos的緩存
在Application layer 和數據存儲之間,存在一個Query Router,即mongos,mongos會在第一次啟動或分片的元數據被更新之後,從config server 同步配置數據,並緩存在mongos中。有時,mongos無法從config server上及時同步最新的配置信息,導致無法路由到相應的chunk,不能返回正確的數據,可以使用flushRouterConfig 命令手動刷新mongos的緩存
db.adminCommand({"flushRouterConfig":1})
參考文檔: