概述 租約機制指在租約期限內,擁有租約的節點有權利操作一些預設好的對象,具體如下 租約是由授權者授予的一段時間內的承諾 授權者一旦發出租約,則無論接受方是否收到,也無論後續接收方處於何種狀態,只要租約不過期,授權者就得遵守承諾,按承諾的時間和內容執行。 接收方在有效期內可以使用授權者的租約,如果租約 ...
概述
租約機制指在租約期限內,擁有租約的節點有權利操作一些預設好的對象,具體如下
- 租約是由授權者授予的一段時間內的承諾
- 授權者一旦發出租約,則無論接受方是否收到,也無論後續接收方處於何種狀態,只要租約不過期,授權者就得遵守承諾,按承諾的時間和內容執行。
- 接收方在有效期內可以使用授權者的租約,如果租約過期,那麼授權者將不再對租約的承諾負責。如果要繼續使用租約,則需要重新申請。
- 可以通過版本號、時間周期或者某個固定的時間點判斷租約是否有效
可以把租約機制和公司的權利下放做類比來幫助理解。公司有董事會、CEO、CTO 和 CFO,董事會把公司不同的管理許可權在一定時間內分別授權 CEO、CTO、CFO,在固定的時間段內如果有相關事宜,則直接找 CEO、CTO、CFO 處理,不必所有事情都要經過董事會,因為董事會已經授權了 CEO、CTO、CFO 在部分時間段內擁有相關事宜的執行許可權,而在該時間段內董事會不能違約,因此 CEO、CTO、CFO 可以按照線定執行相關權利,在約定的時間到期後,CEO、CTO、CFO 需要考慮是續約還是解約
租約機制解決的問題
1. 分散式系統節點的狀態變化
目前,大部分分散式系統都是採用主備的方式來實現的,一般主節點負責集群的管理工作,同時負責數據的寫操作並將數據同步到各個備節點。備節點接收用戶的讀操作,噹噹主節點發生宕機時,從備節點中選舉出一個主節點,繼續為系統服務
那麼集群中的各個節點是如何確定其他節點狀態的呢?答案是通過心跳機制。假設有三個節點,分別為 Server-1、Server-2、Server-3,它們之間互為副本,其中 Server-1 為主節點,Server-2、Server-3 為備節點。另一個節點 Server-Electer 負責判斷節點狀態,在發現主節點異常後,會從備節點重新選出一個主節點繼續為集群服務。
Server-Electer 通過心跳機制定時與其他節點通信,如果超過一段時間收不到某個節點的心跳,則認為該節點異常。這種機制在集群中各個節點之間網路正常的情況下運行良好,但是在發生網路分區(集群中各個節點網路通信異常)時會出現問題。比如 Server-Electer 節點收不到主節點的心跳,除了可能是因為主節點本身發生異常,還有可能是因為 Server-Electer 和主節點之間的網路通信發生異常。這時,如果 Server-Electer 和 Server-2、Server-3 之間的通信正常,則 Server-Electer 會從兩個備節點中選出一個主節點,這裡假定選舉 Server-2 為主節點,則集群出現兩個主節點,我們稱之為雙主問題。如果集群出現雙主問題,則在 Server-1 的網路恢復後,備節點 Server-3 收到 Server-1 和 Server-2 兩個主節點的數據同步請求,Server-3 的數據就會出現不一致的情況
出現雙主問題時該如何處理呢?租約機制給了我們很好的解決方案。在租約機制的實現中,由選舉節點向其他節點發送租約,如果該節點持有有效的租約,則認為該節點可以正常提供服務。例如三個工作節點 Server-1、Server-2、Server-3 仍然通過心跳機制向選舉節點 Server-Electer 彙報自己的狀態,選舉節點在收到心跳後發送一個租約給三個工作節點,表示確認節點的狀態,並允許在有效期內使用該租約的權力並對外提供服務
這時可以讓選舉節點 Server-Electer 給主節點 Server-1 一個特殊的租約,表示該節點為主節點,一旦發生網路分區或者其他問題,選舉節點需要切換主節點,則只需等待之前主節點的租約到期,再重新給新選舉出的主節點頒發新的租約即可。即使之前的主節點網路恢復,其他節點發現其租約已經到期,也不會將其認定為主節點
2. 分散式緩存
在分散式系統中,為了加快用戶讀取數據的速度,我們常常將經常被訪問的數據緩存在客戶端,這樣在用戶讀取數據時,會先從本地緩存讀取,如果在緩存中沒有則從服務端獲取最新的數據並更新本地緩存
但是這種方案存在緩存一致性問題,針對該問題有兩種常見的解決方案,一種方案是輪詢,即客戶端在每次讀取數據時,都先詢問服務端緩存中的數據是不是最新的,如果不是,就從服務端獲取最新的數據。採用這種方案時,每次讀取數據都要與服務端通信,會增加服務端的壓力,降低緩存的效果
另一種方案就是無效化,服務端對數據做修改時,會首先通知這些客戶端數據已經失效,讓客戶端重新載入。這種做法的問題在於服務端需要維護所有客戶端的狀態,並且每次進行數據更新通知所有客戶端。這增加了服務端的複雜度和運行的負擔,如果聯繫不上客戶端、則修改操作將無法順利通知到客戶端,使得客戶端出現數據不一致的情況
那我們如何利用租約機制來解決緩存一致性問題呢?我們可以讓伺服器給緩存客戶端發一個租約,在租約有效期內,客戶從客戶端讀取數據,如果伺服器要更改數據,則首先征求這塊數據租約的客戶端的同意,之後才可以修改數據。客戶端在從伺服器中取數據時獲取租約,在租約有效期內,如果沒有收到伺服器的修改請求,就可以保證當前緩存中的內容是最新的。如果在租約時限內收到了數據修改請求,並且同意了,就需要清空緩存並重新載入緩存。在租約過期以後,客戶端如果還要從緩存中讀取數據,就必須獲取新的租約,我們稱這個過程為續約。
這樣在租約期限內,客戶端可以保證其緩存中的數據是最新的。同時,租約可以容忍網路分割問題,如果發生客戶端崩潰或者網路中斷,則伺服器只需等待其租約過期就可以進行修改操作。如果伺服器出錯,丟失了所有客戶端的信息,則它只需知道租約的最長期限,就可以在這個期限之後安全地修改數據。與無效化的方式相比,伺服器只需記住還有租約的客戶端即可。
3. 緩解主節點壓力
在分散式系統中,元數據的信息都在主節點上維護,用戶在訪問數據時,首先需要在主節點上訪問元數據的信息,來定位數據所在的數據節點,然後到數據節點上訪問數據,這樣所有客戶端的請求都要先從主節點上獲取源數據的信息,導致主節點壓力過大
為瞭解決這個問題,我們可以將元數據的信息緩存在客戶端,並通過租約機制保證租約有效期內主節點的數據和客戶端一致。客戶端在訪問數據時,會先從本地緩仔中查找。如果本地援存沒有,則再到主節點上查找,並更新緩存和租約信息,降低主節點的壓力
租約機制的時鐘同步問題
1. 頒發者的時鐘比接收者的時鐘快
如果頒發者的時鐘比接收者的時鐘快,那麼在頒發者認為租約已經過期時,接收者卻依舊認為租約有效,導致承諾失效,影響系統的正確性。通常做法是將頒發者的有效期限設置得比接收者的略大,只要大過時鐘誤差,就可以避免對租約有效性產生影響
2. 頒發者的時鐘比接收者的時鐘慢
如果頒發者的時鐘比接收者的時鐘慢,則當接收者認為租約已經過期時,頒發者依舊認為租約有效。接收者可以在租約到期前,以再次申請租約的方式解決這個問題
租約機制的應用
1. HDFS 中的租約機制
在 HDFS 中,當客戶端用戶向某個文件中寫數據時,為了保障數據的一致性,其他客戶端是不允許向此文件寫數據的。那麼 HDFS 是如何實現這一點的呢?答案是租約機制,當客戶要寫某一個 HDFS 文件時,首先從 HDFS 服務獲取一個寫該文件的租約,只有持有該租約的客戶端才允許對該文件進行寫操作,否則客戶端對該文件的寫請求將被駁回,客戶端在對文件寫操作完成時釋放租約
2. Eureka 中的租約機制
Eureka 實現了服務註冊和服務發現的功能。Eureka 的角色分為服務端(EurekaServer)和客戶瑞,客戶端指註冊到註冊中心(EurekaServer)的服務實例,又分為服務提供者和服務消費者,服務消費者從計冊中心獲取服務提供者的服務地址,並調用該服務。服務提供者在啟動時,首先會將自己的信息註冊到 EurekaServer,並維護一個續約請求,持續發送信息給 EurekaServer 表示其正常運行。如果 EurekaServer 長時間收不到續約請求,會將該服務實例從服務列表中剔除
租約機制的特性
- 在租約機制的頒發過程中只要求網路可以單向通信,同一個租約頒發者可以重覆向接受方發送租約,頒發者即使偶爾發送租約失敗,也可以簡單地通過重發租約來解決向題
- 機器宕機對租約機制的影響不大,如果頒發者發生宕機,則宕機的頒發者通常無法改變之前的承諾,不會影響租約的正確性。在頒發者宕機恢復後,如果頒發者恢復了之前的租約信息,則頒發者可以繼續遵守租約的承諾。如果頒發者無法恢復租約信息,則只需等待一個最大的租約超時時間即可
- 租約機制依賴於有效期,這就要求頒發者和接收者的時鐘同步
- 在實際實現中,我們還需要考慮租約失效後頒發者或主節點資源釋放的問題