一.前言 上一篇文章Redis 之複製-初入江湖中,講了關於Redis複製配置,如:如何建立配置、如何斷開複製、關於鏈接的安全性等等,那麼本篇文章將深入的去說一下關於Redis複製原理,如下: 複製過程 數據同步 全量複製 部分複製 心跳 非同步複製 二.複製過程 在從節點執行slaveof命令後,復 ...
一.前言
上一篇文章Redis 之複製-初入江湖中,講了關於Redis複製配置,如:如何建立配置、如何斷開複製、關於鏈接的安全性等等,那麼本篇文章將深入的去說一下關於Redis複製原理,如下:
- 複製過程
- 數據同步
- 全量複製
- 部分複製
- 心跳
- 非同步複製
二.複製過程
在從節點執行slaveof命令後,複製過程便開始運作,下麵將會詳細的講解建立複製的完整流程,如下圖所示:
從上圖中,可以看出複製的一個大致流程:
- 保存master(主節點)信息:從節點執行slaveof後只保存主節點的地址信息後便直接返回,這時建立複製的流程還沒開始.
- slave(從節點)內部通過每秒運行的定時任務維護複製相關邏輯,當定時任務發現存在新的主節點後,從節點會建立一個socket連接主節點.如果從節點無法建立連接,定時任務會無限重試直到連接成功,或者執行slaveof no one取消複製.
- 發送ping命令,如果發送ping命令後(目的:1)檢測主從之間網路套節字持否可用;2)檢測主節點當前是否可接受處理命令),從節點沒有收到主節點的pong回覆或者連接超時,比如網路超時或者主節點阻塞無法響應,從節點會斷開複製連接,下次定時任務會繼續發起重連.
- 許可權驗證.如果主節點設置了requirepass參數,那麼就需要密碼進行許可權驗證;如果驗證失敗,複製將終止.從節點會重新發起複制流程.
- 同步數據集.許可權驗證通過後,進行數據同步,對於首次建立複製的場景,主節點會把持有的數據全部發給從節點,這個操作耗時最長.(在Redis2.8版本之後,同步操作分兩種情況:全量和部分,下麵將會說到)
- 命令持續複製.當主節點把當前所有數據同步給從節點後,便完成了複製的整個流程,後面主節點將持續把寫命令發給從節點,以保持數據的一致性.
三.數據同步
在上面的複製整個流程中,有一個步驟是“同步數據集”,這個通過過程分為:全量複製和部分複製.
全量複製:一般用於初次複製場景,Redis早期支持的複製功能便只有全量複製,它會把主節點的所有數據一次性發給從節點,當數據量較大時,這會給主從節點之間的各個方面帶來很大的開銷.
部分複製:用於處理在主從複製中因網路閃斷等原因造成數據丟失的場景,當從節點再次連上主節點後,如果條件允許,主節點會補發之前丟失的數據給從節點.因為補發的數據遠遠小於全量數據,可以有效的避免複製過程中的過高開銷.
Redis的同步有2個命令,分別是:sync 和 psync,前者是 redis 2.8 之前的同步命令,後者是 redis 2.8 為了優化 sync 新設計的命令.我們會重點關註 2.8版本以後的 psync 命令.psync 命令的運行需要三個組件支持:(1)主從節點各自複製偏移量;(2)主節點複製積壓緩衝區;(3)主節點運行id.
1).主從節點的複製偏移量
1.參與複製的主從節點都會維護自身複製偏移量.統計信息在使用info replication命令查看中的master_repl_offset指標中.
2.從節點(slave)每秒鐘上報自身複製偏移量給主節點,因此主節點也會保存從節點的偏移量.
3.從節點在接收到主節點發送的命令後,也會累加自身的偏移量.
4.通過對比主從節點的複製偏移量,可以判斷主從節點數據是否一致,如下圖所示.
註:可以通過主節點的統計信息,計算出master_repl_offset-slave_offset位元組量,判斷主從節點複製相差的數據量,根據這個產值判定當前複製的健康度.如果主從之間複製偏移量相差較大,則可能是網路延遲或命令阻塞等原因引起的.
2).複製積壓緩衝區
(1)複製積壓緩衝區是保存在主節點上的一個固定長度的隊列,預設大小為1MB.當主節點有連接的從節點(slave)被創建時,這時主節點(master)響應寫命令時,不但會把命令發送給從節點,還會寫入複製積壓緩衝區,如下圖所示.
(2)由於緩衝區本質上是先進先出的定長隊列,所以能實現保存最近已複製數據的功能,用於部分複製和複製命令丟失的數據補救,可以通過 info replication 查看相關信息.
3).主節點運行ID
(1)每個Redis節點啟動後都會動態分配一個40位的十六進位字元串作為運行ID.
(2)運行ID的主要作用是用來唯一識別的Redis節點,比如從節點保存主節點運行ID識別自己正在複製的是哪個主節點.如果只是使用ip+port的方式識別主節點,那麼主節點重啟變更了整體數據集(如替換RDB/AOF文件),從節點再基於偏移量複製數據將是不安全的,因此當運行ID變化後從節點將做全量複製.
(3)上面提到的是主節點重啟變更,那麼重啟不改變運行ID呢?這時可以使用 debug reload 命令重新載入RDB並保持運行ID不變,從而有效避免不必要的全量複製.
註:debug reload命令會阻塞當前Redis節點主線程,阻塞期間會生成本地RDB快照並清空數據之後再載入RDB文件.因此對於大量數據的主節點和無法容忍阻塞的應用場景,是要謹慎使用的.
4).psync命令
從節點使用psync命令完成部分複製和全量複製功能.命令格式:psync {runId} {offset},其參數含義如下:
- runId:從節點所複製主節點的運行ID
- offset:當前從節點已複製的數據偏移量
psync的執行流程如下:
流程說明:
- slave(從節點)發送sync命令給主節點,參數runId是當前從節點保存的主節點運行ID,如果沒有則預設為-1.offset 是從節點保存的複製偏移量,如果是第一次複製則為 -1.
- master(主節點)根據sync參數和自身數據的情況決定響應結果:
- 如果回覆+FULLRESYNC {runId} {offset} ,那麼從節點將觸發全量複製流程。
- 如果回覆 +CONTINUE,從節點將觸發部分複製.
- 如果回覆 +ERR,說明主節點不支持 2.8 的 psync 命令,將使用 sync 執行全量複製.
四.全量複製
全量複製是Redis最早支持的複製方式,也是主從第一次建立複製是必須要走的流程.觸發全量複製的命令是 sync 和 psync.前面已經說過,redis 2.8 之前使用 sync 只能執行全量不同, 之後同時支持全量同步和部分同步.
流程如圖:
流程說明:
- 發送psync命令進行同步數據,由於是第一次進行複製,從節點還沒有複製偏移量和主節點運行ID,所以發送:psysc ?-1.
- 主節點根據psysc ?-1 當前為全局複製,回覆 +FULLRESYNC 響應.
- 從節點接受主節點的響應並保存運行ID和offset.
- 主節點執行 bgsave 並保存 RDB 到本地.
- 主節點發送RDB文件到從節點,從節點把所接收的RDB文件保存到本地,並將其作為從節點的數據文件.
- 對於從節點接受RDB文件快照到完成期間,主節點依然響應讀寫命令,因此主節點會把這段時間內的數據保存到複製客戶端緩衝區內,當從節點載入完RDB文件後,主節點會再把緩衝區內的數據發給從節點,保證主從之間數據一致性.
- 從節點接受完主節點傳來的全部數據後,會清空自身舊數據.
- 從節點清空數據後開始載入RDB文件,對於較大的RDB文件,這一步還是非常耗時的.
- 從節點成功載入完 RBD 後,如果當前節點開啟了 AOF,會立刻做 bgrewriteaof操作.
以上加粗的部分是整個全量同步耗時的地方.
註:
- 如果線上RDB 文件數據量在 6G左右的主節點,並且是千兆網卡,Redis 的預設超時機制(60 秒),會導致全量複製失敗.可以通過調大 repl-timeout 參數來解決此問題.
- Redis 雖然支持無盤複製,生成的RDB文件不保存到本地,而是直接通過網路發送給從節點,不過無盤複製還處於試驗階段,所以生產環境一定慎用。
五.部分複製
部分複製主要是Redis針對全量複製的過高開銷,所做的一些優化.在slave(從節點)正在向master(主節點)時,如果出現網路閃斷或者命令丟失等異常情況發生時,從節點會向主節點要求補發丟失的命令數據,如果主節點的複製積壓緩衝區記憶體在這部分,則直接打給從節點,這樣便可以保持主從節點複製的一致性.補發的這部分數據遠遠小於全量數據,所以開銷很小.部分複製流程圖如下:
- 當主從節點之間網路出現中斷時,如果超過repl-timeout時間,主節點會認為從節點故障並中斷複製連接.
- 主節點連接中斷期間,主節點依然響應命令,但因複製連接中斷命令無法發送給從節點,不過主節點內部存在複製積壓緩衝區,依然可保存最近一段時間的數據,預設為1MB.
- 當從節點網路恢復後,從節點會在此連上主節點.
- 當主從連接恢復後,因為之前從節點保存了自身已複製的offset和運行ID,所以會把把其當作psync參數發給主節點.
- 主節點連接到psync命令後,首先核對參數runId是否一致,如果一致說明之前複製的是當前主節點,然後根據offset參數在自身複製積壓緩衝區中進行查找,如果偏移量之後的數據存在緩衝區中,則想從節點發送 +CONTINUE 響應,表示進行部分複製.
- 主節點根據偏移量吧複製積壓緩衝區里數據發給從節點,以保證主從複製進入正常狀態.
六.心跳
主從節點在建立複製後,他們之間維護著長連接,並且彼此發送心跳.如圖:
主從心跳判斷機制:
- 主從節點彼此都有心跳檢測機制,各自模擬成對方的客戶端急性通信,通過 client list 命令查看複製相關客戶端信息,主節點的連接狀態為 flags = M,從節點的連接狀態是 flags = S.
- 主節點預設每隔10秒對從節點發送ping命令,判斷從節點的存活狀態和連接狀態,可通過修改配置 repl-ping-slave-period 控制發送頻率.
- 從節點在主線程每隔1秒發送 replconf ack{offset} 命令,給主節點上報自身當前的複製偏移量.
- 主節點收到 replconf 信息後,判斷從節點超時時間,如果超過 repl-timeout 設置的值(預設值為60 秒),則判斷從節點下線,並斷開複製客戶端連接.
replconf的作用:
- 實時監測主從節點的網路狀態
- 上報自身的偏移量,檢查複製數據是否丟失
- 實現保證從節點的數量和延遲功能,通過min-slaves-to-write,min-slaves-max-lag參數配置定義
註意:為了降低主從延遲,一般把 Redis 主從節點部署在相同的機房/同城機房,避免網路延遲帶來的網路分區造成的心跳中斷等情況.
七.非同步複製
主節點不但負責數據讀寫,還負責把寫命令同步給從節點.寫命令的發送過程是非同步完成的,也就是說主節點自身處理完寫命令後直接返回給客戶端,並不等待從節點複製完成,如下圖所示:
非同步複製的流程如下:
- 主節點接受處理命令
- 命令處理完之後返迴響應結果
- 對於修改命令非同步發送給從節點,從節點在主線程中執行複製的命令.
八.回顧
本篇文章,大略分析了下複製過程、數據同步、全量複製、部分複製、心跳、非同步複製等方面的原理.
參考:《Redis開發與運維》
版權聲明:尊重博主原創文章,轉載請註明出處 https://www.cnblogs.com/hsdy