四. 檢測下線狀態 對於Redis的Sentinel中關於下線有兩個不同的概念:(1)主觀下線(Subjectively Down, 簡稱 Sdown) 指的是單個 Sentinel 實例對伺服器做出的下線判斷,此時不會進行故障轉移。(2) 客觀下線(Objectively Down, 簡稱 Odo ...
四. 檢測下線狀態
對於Redis的Sentinel中關於下線有兩個不同的概念:(1)主觀下線(Subjectively Down, 簡稱 Sdown) 指的是單個 Sentinel 實例對伺服器做出的下線判斷,此時不會進行故障轉移。(2) 客觀下線(Objectively Down, 簡稱 Odown)指的是多個 Sentinel 實例在對同一個伺服器做出 Sdown 判斷,此時目標sentinel會對主伺服器進行故障轉移。本篇具體詳細介紹。
4.1 檢測主觀下線狀態
預設情況下,Sentinel會以每秒一次的頻率向所有與它創建命令連接的實例(包括主、從、其他sentinel在內)發送ping命令,並通過實例返回的ping命令回覆來判斷實例是否線上。例如:有二個sentinel服務,共同監視一主二從的redis服務。(1) sentinel服務將向sentine2、主服務master、從服務slave1和slave2發送ping命令。(2) sentine2服務將向sentine1、主服務master、從服務slave1和slave2發送ping命令。實例對於ping命令的回覆可以分為兩種情況:
(1) 有效回覆: 實例返回 +pong 、 -loading、 -masterdown三種回覆的其中一種。
(2)無效回覆: 實例返回上面三種回覆之處的其它回覆,或者在指定時限內沒有返回任何回覆。在Sentinel.conf配置文件中的down-after-milliseconds選項指定了Sentinel判斷實例進入主觀下線所需的時間長度。
4.1.1主觀下線時長選項的作用範圍
用戶設置down-after-milliseconds選項的值,不僅會被sentinel用來判斷主伺服器的主觀下線狀態,還會被用於判斷主伺服器下的所有從伺服器,以及同樣監視主伺服器的其他sentinel的主觀下線狀態。
-- 例如用戶向sentinel設置以了下配置: sentinel monitor master 127.0.0.1 6379 2 sentinel down-after-milliseconds master 50000
這裡的master是主伺服器的名稱, 埠預設6379 ,2代表sentinel集群中有2個sentinel認為master 狀態下線時,才能真正認為該master已經不可用了(也就是客觀下線,下麵會講)。這50000毫秒不僅會成為sentinel判斷master進入主觀下線的標準,還會判斷所有從庫、其它sentinel進入主觀下線的標準。
4.1.2 多個sentinel設置的主觀下線時長可能不同
對於多個sentinel共同監視同一個主伺服器時,這些sentinle在配置文件sentinle.conf中所設置的down-after-milliseconds值也可能不同,因此當一個sentinel將主伺服器判斷為主觀下線時,其它sentinel可能仍然會認為主伺服器處於線上狀態。只有全部的sentine都判斷進入了主觀下線狀態時,才會認為主master進入了主觀下線狀態。
4.2 檢查客觀下線狀態
當sentinel將一個主伺服器判斷為主觀下線之後,為了確認這個主伺服器是否真要下線,會向同樣監視這一主伺服器的其它sentinel進行詢問,其它sentinel回覆已下線之後,sentinel就會將主伺服器從主觀判定為客觀下線,並對主伺服器執行故障轉移操作。客觀下線條件只適用於主伺服器。
客觀判斷是:sentinel向其它sentinel發送sentinel is-master-down-by-addr命令進行互相交流之後,得出主伺服器下線判斷。 只要一個 Sentinel 發現某個主伺服器進入了客觀下線狀態, 這個 Sentinel 就可能會被其他 Sentinel 推選出, 並對失效的主伺服器執行自動故障遷移操作。
4.2.1 is-master-down-by-addr命令用來判斷是否客觀下線
命令格式:sentinel is-master-down-by-addr ip port current runid
分別代表主觀下線的主伺服器ip址址,埠號, sentinel當前的配置紀元用於選舉領頭羊sentinel, runid可以是*或者sentinel的運行ID。
--例如一個sentinel向其它sentinel發送以下命令: sentinel is-master-down-by-addr 127.0.0.1 6379 0 *
最後一個參數:*代表命令僅僅用於檢測主伺服器客觀下線狀態。而sentinel的運行ID則用於選舉領頭羊。當接收的sentinel收到其它sentinel回覆的命令時,會取出命令中包含的參數,來檢查主伺服器是否已下線,然後向源sentinel返回一條信息。該信息包括三個參數:
(1) down_state: 檢查主伺服器的結果,1代表已下線,2代表未下線。
(2) leader_runid: 如果是* 用於檢測主伺服器下線狀態。如果是runid則是局部領頭sentinel的運行ID,用於選舉領頭sentinel。
(3) leader_epoch: 目標sentinel的局部領頭sentinel的配置紀元。
例如返回: 1 * 1 。說明其它sentinel也同意主伺服器下線。接收sentinel將統計其他sentinel同意主伺服器下線的數量,當這一數量達到配置指定的數量時,就會客觀下線,進行故障轉移。
例如: sentinel monitor master 127.0.0.1 6379 2 配置是指包括當前sentinel在內,只要總共有兩個sentinel 服務認為主伺服器已經進入下線狀態,那麼當前sentinel就將主伺服器判斷為客觀下線。
五. 選舉領頭sentinel
當一個主伺服器被判斷為客觀下線時,監視這個下線主伺服器的各個sentinel會進行協商,選擇出一個領頭sentinel,並由領頭sentinel對下線主伺服器執行故障轉移操作,關於Redis選舉領頭sentinel規則和方法就不在述說,請看"redis設計與實現"書籍。
六.故障轉移
選舉產生領頭sentinel之後,領頭sentinel將對已下線的主伺服器執行故障轉移,操作包括三個步驟:
(1) 在已下線的主伺服器屬下的所有從伺服器中,挑選出一個從伺服器,並將其轉換為主伺服器。挑選是經過了嚴格的一項一項的過濾(如過濾從庫下線的,5秒內沒有回覆領頭sentinel的info命令的,與以下線的主伺服器連接斷開超過down-after-milliseconds *10 毫秒的。這些通通都刪除),之後選出最優的從伺服器。向這個從伺服器發送slaveof no one命令,將這個從伺服器轉換為主伺服器。
(2) 讓已下線主伺服器屬下的所有從伺服器改為複製新的主伺服器。領頭sentinel向已下線的主服務和所有從伺服器(除了新的主服務)發送slaveof 命令,讓它們複製新的主伺服器。
(3) 將已下線的主伺服器設置為從伺服器。當已下線的主伺服器重新上線時,sentinel就會向它發送slaveof命令,讓它成為從服務。
七 sentinel上下二篇原理總結:
對於sentinel的高可用,用了二篇來介紹了sentinel服務、主服務、從服務、其它sentinel服務的原理關係。知識點比較多,下麵再總結下:
(1) sentinel只是一個運行在特殊模式下的redis伺服器,它使用了和普通模式不同的命令表,以及區別與普通模式下使用的命令不同。
(2) sentinel會讀入指定的配置文件(sentinel.conf),為每個要監視的主伺服器創建相應的實例結構,並創建連向主伺服器的命令連接和訂閱連接,其中命令連接用於向主伺服器發送命令請求,訂閱連接則用於接收指定頻道的消息。
(3) sentinel通過向主伺服器發送info命令來獲得主伺服器屬下所有從伺服器的地址信息,併為這些從伺服器創建相應的實例結構,以及連向這些從伺服器的命令連接和訂閱連接。
(4) 一般情況下,sentinel以每10秒一次的頻率向被監視的主伺服器和從伺服器發送info命令,當主伺服器處於下線狀態,或者sentinel正在對主伺服器進行故障轉移操作時,sentinel向從伺服器發送info命令的頻率會改為1秒一次。
(5)對於監視同一個主伺服器和從伺服器的多個sentinel來說,它們會以每2秒一次的頻率,通過向被監視的_sentinel_:hello頻道發送消息來向其他sentinel宣告自己的存在。
(6)每個sentinel也會從_sentinel_:hello中頻道中接收其他sentinel發來的信息,並根據這些信息為其他sentinel創建相應的實例結構,以及命令連接。
(7) sentinel只會與主伺服器和從伺服器創建命令連接和訂閱連接,sentinel與sentinel之間則只創建命令連接。
(8) sentinel以每秒一次的頻率向實例(包括主,從,其它sentinel)發送ping命令,並根據實例對ping命令的回覆來判斷實例是否線上,當一個實例在指定的時長中連續向sentinel發送無效回覆時,sentinel會將這個實例判斷為主觀下線。
(9)當sentinel將一個主伺服器判斷為主觀下線時,它會向同樣的監視這個主伺服器的其他sentinel進行詢問,看它們是否同意這個主伺服器已經進入主觀下線狀態。
(10)當sentinel收集到足夠多的主觀下線投票之後,它會將主伺服器判斷為客觀下線,併發起一次針對主伺服器的故障轉移操作。