MongoDB - 副本集簡介

来源:https://www.cnblogs.com/fatedeity/archive/2022/12/29/17011757.html
-Advertisement-
Play Games

MongoDB 的副本集類似於有自動故障修複功能的主從集群,提供了數據的冗餘和高可用,是所有生產部署的基礎。 ...


簡介

在 MongoDB 中,副本集指的是一組 MongoDB 伺服器實例掌管同一個數據集,實例可以在不同的機器上。

其中一個用於處理寫操作的是主節點(Primary),還有多個用於保存主節點的數據副本的從節點(Secondary)。如果主節點崩潰了,則從節點會從其中選取出一個新的主節點。

副本集

副本集保證數據在生產部署時的冗餘和可靠性,通過在不同的機器上保存副本來保證數據不會因為單點損壞而丟失,能夠隨時應對數據丟失、機器損壞帶來的風險。

從另一個角度上看,還能提高讀取能力,用戶的讀取伺服器和寫入伺服器在不同的地方,由不同的伺服器為不同的用戶提供服務,提高了整個系統的負載能力。

節點成員

副本集中的節點主要分為三種:主節點 Primary、從節點 Seconary、仲裁節點 Arbiter。

主節點

主節點包含了所有的寫操作的日誌。

但是副本伺服器集群包含有所有的主服務數據,因此當主伺服器掛掉了,就會在副本伺服器上重新選取一個成為主伺服器。

從節點

正常情況下,副本集的從節點會參與主節點選舉,並從主節點同步最新寫入的數據,以保證與主節點存儲相同的數據。

通常,從節點提供讀服務,增加從節點可以提供副本集的讀服務能力,同時提升副本集的可用性。

仲裁節點

仲裁節點只參與投票,不能被選舉為主節點,並且不從主節點同步數據。

當副本集成員為偶數時,最好加入一個仲裁節點,以提升副本集的可用性。

當然,如果可以的話,最好使用沒有仲裁者的部署。添加額外的仲裁者並不能加快選舉速度,也不能提供更好的數據安全性,僅僅能使得副本集成員數為奇數防止選舉出現平票。

被動成員

給從節點設置 priority 可以指定其成為主節點的優先順序,它的取值範圍是 0 到 100,預設是 1。

優先順序為 0 的從節點不參與選舉,這樣的從節點被稱為被動成員。

擁有最高優先順序的成員總是會被選舉為主節點(只要它能連接到副本集中的大多數成員,並且擁有最新的數據)。

隱藏成員

給從節點設置 hiddentrue 可以將其作為隱藏成員,隱藏成員只對 isMaster 不可見。

客戶端不會向隱藏成員發送請求,隱藏成員也不會優先作為副本集的數據源(儘管當其他複製源不可用時隱藏成員也會被使用)。

通常會將性能較弱的伺服器或者備份伺服器隱藏起來,因此,隱藏成員適合做數據備份、離線計算的任務。

成員狀態

成員之間通過心跳來傳達自己的狀態。最常見的狀態就是“主節點”和“從節點”狀態,其他的一些狀態如下:

  • STARTUP: 成員在第一次啟動時的狀態,正在嘗試載入副本集配置
  • STARTUP2: 配置被載入後進入這個狀態,初始化同步過程會持續處於這個狀態
  • RECOVERING: 成員運行正常,但不能處理讀請求
  • ARBITER: 仲裁節點獨有的特殊狀態
  • DOWN: 一個成員被正常啟動,但後來變為不可訪問
  • UNKNOWN: 如果一個成員未能訪問到另一個成員,那麼就不知道它處於什麼狀態
  • REMOVED: 此成員已被從副本集中移除
  • ROLLBACK: 成員正在回滾數據中會處於此狀態

部署架構

一主兩從

當主節點宕機時,兩個節點都會參與選舉,其中一個會變成主節點。

當原主節點恢復後,將會作為從節點加入當前的副本集群。

一主兩從

一主一從一仲裁

當主節點宕機時,將會選擇從節點稱為主節點。

當原主節點恢復後,將會作為從節點加入當前的副本集群。

一主一從一仲裁

推薦配置

第一種方案是:將“大多數”成員放在一個數據中心。只要主數據中心正常運轉,就會有一個主節點。如果主數據中心不可用了,那麼備份數據中心將無法選舉出主節點。

第二種方案是:在兩個數據中心各自放置數量相等的成員,在第三個地方放置一個用於打破僵局的副本集成員。

複雜的需求可能需要不同的配置,但都需要考慮副本集在不利條件下如何滿足“大多數”的要求。

數據同步

操作日誌

MongoDB 的操作日誌是一個特殊的有上限的集合(老的日誌會被覆蓋),保存了所有資料庫中存儲數據的修改操作的滾動記錄。

當主節點執行資料庫寫操作時,會將這些操作記錄到主節點 local 資料庫中的一個固定集合中,然後從節點通過非同步進程複製和應用(數據同步)這些操作。

每個從節點都維護自己的操作日誌,用於記錄從主節點複製的每個操作,這使得每個成員都可以被用作其他成員的同步源。

操作日誌中的每個操作都是冪等的,同一個操作執行多次和只執行一次效果是一樣的。

在大多數情況下,預設的操作日誌大小就足夠了。通常以下情況需要更大的操作日誌空間:

  • 一次更新多個文檔。操作日誌為了保持冪等性會將多文檔更新轉換成多個單獨操作
  • 刪除數據量與插入數據量相同。這種情況的磁碟占用變化不大,但是操作日誌的大小可能很大
  • 大量的原地(in-place)更新。這種情況的磁碟占用變化不大,但是操作日誌的大小可能很大

初始同步

這裡的初始同步可以理解成全量同步,會使用完整的數據集填充新成員。會有以下場景觸發:

  • 新節點加入副本集時,沒有任何操作日誌,此時會觸發初始同步
  • 上次全量同步中途失敗後重新加入副本集,此時會觸發初始同步
  • 當用戶發送 resync 命令時,記憶體標記 initialSyncRequested 被設置為 true,此時會觸發初始同步

全量同步的流程如下:

  • 全量同步開始,設置 minvalid 集合的 _initialSyncFlagtrue
  • 獲取同步源上最新操作日誌時間戳為 t1
  • 全量同步集合數據(耗時)
  • 獲取同步源上最新操作日誌時間戳為 t2
  • 重放 [t1, t2] 範圍內的所有操作日誌
  • 獲取同步源上最新操作日誌時間戳為 t3
  • 重放 [t2, t3] 範圍內所有的操作日誌
  • 建立集合所有索引(耗時)
  • 獲取同步源上最新操作日誌時間戳為 t4
  • 重放 [t3, t4] 範圍內所有的操作日誌
  • 全量同步結束,清除 minvalid 集合的 _initialSyncFlag

複製數據

這裡的複製可以理解為增量同步,在初始同步結束之後,從節點就會持續同步新的操作日誌並重放。

複製的流程比較複雜,會涉及到幾個線程,其流程如下:

  • 生產者線程會不斷從同步源上拉取操作日誌,並加入到一個阻塞隊列里保存
  • 批處理線程會逐步將阻塞隊列里的操作日誌取出,並放到自己維護的隊列里
  • 同步線程將批處理線程的隊列分發到預設 16 個重放線程,由重放線程最終重放每條操作日誌

拉取操作日誌是單線程進行的,如果把重放的操作也放在這個線程,同步勢必會很慢,所以設計上生產者線程只做拉取操作日誌的工作。

在重放操作日誌時,要保持順序性,而且遇到 createCollection()dropCollection() 等 DDL 命令時,這些命令與其他的增刪查改是不能並行執行的,這些控制都有批處理線程處理。

註意事項

  • 初始同步是單線程複製數據,效率比較低,在生產上應儘量避免做全量同步
  • 合理配置操作日誌的大小,按預設 5% 的可用磁碟空間配置可滿足絕大多數場景
  • 新加入節點時,可以通過物理複製的方式來避免初始同步,將主節點的數據拷貝到新的節點,這樣效率更高
  • 當從節點需要的操作日誌在同步源上已經滾掉,從節點的同步將無法進行,需要從節點主動發送 rsync 命令同步
  • 生產環境使用 db.printSlaveReplicationInfo() 命令監控主備同步滯後的情況
  • 當從節點因為主節點併發寫入太高導致同步滯後,可通過調整從節點的重放線程數來提升

數據高可用

選舉機制

在副本集中,通過選舉機制來選擇主節點,選舉主節點的規則如下:

假設副本集內能夠投票的成員是 N 個,當副本集記憶體活數量不足 \(\frac{N}{2} + 1\) 個時,整個副本集將無法選舉出主節點,副本集將無法提供寫服務,處於只讀狀態。

舉例:3 個投票節點需要 2 個節點的贊成票,容忍選舉失敗次數為 1;5 個投票節點需要 3 個節點的贊成票,容忍選舉失敗次數為 2;通常投票節點為奇數,這樣可以減少選舉失敗的概率。

觸發時機

當出現以下情況時,會觸發選舉機制:

  • 初始化副本集時
  • 往副本集中新加入節點
  • 對副本集進行維護時,比如執行 rs.stepDown() 或者 rs.reconfig() 操作時
  • 從節點失聯時,比如超時(預設是 10 秒)

影響因素

以下因素會影響到選舉結果:

  • 副本集的選舉協議
  • 心跳
  • 成員權重
  • 數據中心失聯
  • 網路分區
  • 鏡像讀取

故障轉移回滾

回滾指的是,當成員在故障轉移後重新加入其副本集時,將還原之前主節點上的寫操作,並恢覆成現在主節點的狀態數據。

僅當節點接收到主節點降級前未成功複製的寫操作後,重新加入副本集群之後發現與現有主節點的數據不一致時,才需要回滾。

當節點重新加入到副本集群時,它會還原或“回滾”其不一致的寫操作,以保持與其他成員的一致性。

與副本集交互

客戶端連接

對於副本集,預設情況下,驅動程式會連接到主節點,並將所有流量都路由到此節點。

對於應用程式,可以像與單機伺服器通信一樣執行讀寫操作,同時副本集會在後臺悄悄地處理熱備份。

你不需要列出伺服器地址列表中的所有成員(儘管這樣做也可以)。當驅動程式連接到伺服器時,它可以從其中發現其他成員。一個連接字元串通常看起來像下麵這樣:

mongodb://server-1:27017,server-2:27017,server-3:27017

如果想提供更強的容錯能力,那麼也可以使用 DNS 種子列表連接格式來指定應用程式連接到副本集的方式。

使用 DNS 的優點是可以輪流更改 MongoDB 副本集成員所在的伺服器,而無須重新配置客戶端。

重試策略

用戶希望驅動程式對其隱藏整個選舉過程(主節點退位,新的主節點被選舉出來)。然而,由於一些原因,沒有驅動程式能夠以這種方式處理故障轉移。

驅動程式經常因為操作失敗而發現主節點已停止運行,這意味著驅動程式不知道主節點在停止運行之前是否處理了該操作。

這是一個不可避免的分散式系統問題。事實證明,正確的策略是最多重試一次。

要解釋清楚這一點,需要先看一下都有哪些策略可供選擇。歸結起來就是:不重試、在重試一定次數後放棄或者最多只重試一次。

我們還需要考慮錯誤的類型,這可能是問題的根源。在嘗試對副本集進行寫操作的過程中,可能

會遇到 3 種類型的錯誤:

  • 短暫的網路錯誤
  • 持續的中斷(網路或伺服器)
  • 由伺服器拒絕的錯誤命令(比如未授權)引起的錯誤

對於短暫的網路錯誤而言,如果遵循重試一定次數的策略,則可能會發生計數過多現象(在第一次嘗試成功的情況下)。對於持續中斷或命令錯誤,多次重試只會浪費資源。

再來看一下僅重試一次的策略。對於短暫的網路錯誤,可能會發生計數過多現象。對於持續的中斷或命令錯誤,這是正確的策略。

然而,如果可以確保操作是冪等的會如何?無論做一次還是多次,冪等操作都會有相同的結果。利用冪等操作,在發生網路錯誤時重試一次最有可能正確處理所有 3 種類型的錯誤。

讀寫優先順序

預設情況下,副本集的所有讀請求都發送到主節點,Driver 可通過設置 Read Preference 來將請求路由到其他節點。規則如下:

  • primary: 預設規則,所有讀請求發送到主節點
  • primaryPreferred: 主節點優先,如果主節點不可達,請求從節點
  • secondary: 所有讀請求發送到從節點
  • secondaryPreferred: 從節點優先,當所有從節點不可達時請求主節點
  • nearest: 讀請求發送到最近的可達節點上(通過 ping 探測得出最近的節點)

讀請求選擇

其實,將讀請求發送到從節點通常並不是一個好主意,在一些情況下,通常更建議將讀請求發送到主節點而不是從節點。

對於數據一致性要求非常高的應用程式,更推薦從主節點讀取數據。這是由於從節點的數據通常會落後於主節點,並且這個時間有可能因其他原因導致更長。

如果將讀請求發送到從節點以分配負載,有可能會因為一個節點崩潰而導致整個副本集出現過載的情況,這個會導致惡性迴圈。一個更好的選擇是使用分片來分配負載。

註意事項

在生產環境中,應該始終使用副本集併為每個成員分配一個專用主機,以避免資源爭用,並針對伺服器故障提供隔離。

為了提供更多的彈性,還應該使用 DNS 種子列表連接格式指定應用程式如何連接到副本集。其優點在於可以輪流更改托管 MongoDB 副本集成員的伺服器,而無須重新配置客戶端。

副本集中的每個成員都必須能夠連接到其他成員(包括自身)。但是 MongoDB 3.6 中 mongod 僅在預設情況下綁定到 localhost(127.0.0.1) 地址上,這個通常需要根據服務本身的地址做配置修改。

並且,在綁定到非 localhost 的地址之前,應該啟用授權控制並指定身份驗證機制。

另外,最好對磁碟上的數據和副本集成員之間以及副本集與客戶端之間的通信進行加密。

需要註意的是,不能在不停止運行的情況下將單機伺服器轉換為副本集,以重新啟動並初始化該副本集。

因此,即便一開始只有一臺伺服器,你也希望將其設置為一個單成員的副本集。這樣,就可以在不停止運行的情況下進行添加。

常見問題

MongoDB 副本集和 MySQL 主從的區別?

從節點讀寫模式

MySQL 中將主從同步的從庫設置為只讀狀態,限制了普通用戶只能進行讀的操作,但限制不了超級許可權用戶對數據進行修改操作,這種情況容易造成主鍵衝突。

MongoDB 中只有主節點才可進行寫操作,從節點是決不允許寫數據的,對數據的一致性有著更高的保證。

主節點唯一性

MongoDB 中主節點是唯一的,其餘均為從節點,但主節點不是固定不變的,集群內部有容災機制。

MySQL 提供了雙主架構方案,MasterA 和 MasterB,MasterA 可以做為 MasterB 的主庫,而 MasterB 也可以做為 MasterA 的主庫,兩者互為主從。

複製過程中是同步還是非同步

MySQL 在 5.5 版本之後提供了半同步複製模式,是介於非同步複製和同步複製之間,主庫在執行完客戶端提交的事務後不是立刻返回給客戶端,而是等待至少一個從庫接收到並寫到 relay log 中才返回給客戶端。相對於非同步複製,半同步複製提高了數據的安全性,同時它也造成了一定程度的延遲,這個延遲最少是一個 TCP/IP 往返的時間。所以,半同步複製最好在低延時的網路中使用。

MongoDB 的同步模式是完全非同步的。

MongoDB 副本集的最大節點數為多少?

在副本集中,每個節點會向其他節點發送心跳請求,間隔時間為 2 秒,預設 10 秒為超時。從這個角度上看,副本集也相當於無中心架構。

當副本集中節點增加時,心跳請求的數量將會以指數級的數量增加,單單是心跳請求對資源的占用也會很大。

因此,在 MongoDB 中副本集的限製為最大 50 個,同時只有 7 個成員擁有投票權。

MongoDB 主節點宕機之後如何進行選舉?

副本集中的健康節點大於集群節點的 \(\frac{1}{2}\) 時,集群才可正常選舉,否則集群將不可寫,只能讀。

這個限制會存在一個情況:副本集原本有 3 個節點,但是其中 2 個從節點因為異常掛掉了,那麼集群檢測之後主節點也將會降級為從節點,只接受讀,不再接受寫入。

官方推薦在副本集中有投票權的節點數量為奇數個,主要是為了避免出現腦裂(一個集群被分成了多個集群)的情況。

首發於「程式員翔仔」,點擊查看更多。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、前言 在數據量大的企業級實踐中,Elasticsearch顯得非常常見,特別是數據表超過千萬級後,無論怎麼優化,還是有點力不從心!使用中,最首先的問題就是怎麼把千萬級數據同步到Elasticsearch中,在一些開源框架中知道了,有專門進行同步的!那就是Logstash 。在思考,同步完怎麼查看 ...
  • 介面組成更新 介面的組成:常量,抽象方法 Java8之前 常量:public static final 抽象方法:public abstract 預設方法(Java8) 靜態方法(Java8) 私有方法(Java9) 介面中預設方法(Java8) 介面中預設方法的格式: 格式:public defa ...
  • 普遍意義上講,生成器是一種特殊的迭代器,它可以在執行過程中暫停併在恢復執行時保留它的狀態。而協程,則可以讓一個函數在執行過程中暫停併在恢復執行時保留它的狀態,在Python3.10中,原生協程的實現手段,就是生成器,或者說的更具體一些:協程就是一種特殊的生成器,而生成器,就是協程的入門心法。 協程底 ...
  • 原文地址 https://www.cnblogs.com/younShieh/p/17010572.html ❤如果本文對你有所幫助,不妨點個關註和推薦呀,這是對筆者最大的支持~❤ 我們先考慮一般會從什麼地方複製文本、圖片到我們的軟體中。 首先說文本。我們可能會從文本文件,網頁,word,ppt,q ...
  • 修訂功能可以跟蹤文檔所有的修改,瞭解修改的過程,這對於團隊協同文檔編輯、審閱是非常有用的一個功能。將工作簿發送給他人審閱時,我們可以開啟修訂功能,共用工作簿被修改後,用戶查看文檔時可以選擇接受或者拒絕他人修改的數據信息。本文將詳細為您介紹如何接受或拒絕 Excel 中的修訂。 接受工作簿中的修訂 拒 ...
  • DWM 建表,需要看 DWS 需求。 DWS 來自維度(訪客、商品、地區、關鍵詞),為了出最終的指標 ADS 需求指標 DWT 為什麼實時數倉沒有DWT,因為它是歷史的聚集,累積結果,實時數倉中不需要 DWD 不需要加工 DWM 需要加工的數據 統計主題 需求指標【ADS】輸出方式計算來源來源層級 ...
  • 大數據 ODS&DWD&DIM-SQL分享 需求 思路一:等差數列 斷2天、3天,嵌套太多 1.1 開窗,按照 id 分組,同時按照 dt 排序,求 Rank -- linux 中空格不能用 tab 鍵 select id,dt,rank() over(partition by id order b ...
  • 摘要:今日校園攜手華為雲資料庫聯合打造穩定高效的數據底座服務,基於雲原生資料庫GaussDB(for Cassandra) 提供的超強讀寫、彈性擴展、便捷管理等能力,高效支撐業務穩定運行。 隨著信息技術的發展,移動校園APP走入萬千高校,不僅為廣大師生提供了高效便捷的校園服務,也為校園生活增添了更多 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...