可調CAP策略是在原來CAP理論基礎上的延伸和發展,它允許我們隨時重組電腦集群的運行模式,根據不同的業務需求,在CP和AP之間動態調節。 ...
在說可調CAP策略之前,我們要先說說CAP理論。
CAP理論是設計分散式系統必用的黃金法則,它提出了設計分散式系統的三個基本要求:一致性(Consistency)、可用性(Availability)、分區容錯(Partition Tolerance)。具體的要旨是:在分佈環境下,電腦系統最多只能滿足CAP理論中的兩項要求,另外一項要被捨棄。CAP理論經過20年的發展,已經被大量分散式軟體證實和採用,它和經濟學的蒙代爾三角有異曲同工之妙。現在也同樣被Laxcus分散式操作系統接受。
如果通俗地解釋CAP理論,具體的CAP三項要求是:
(一)Consistency 一致性
一致性也稱為原子性或者事務性。表示一個事務的處理不可分割,要麼這個事務完成,要麼這個事務完不成,不能出現完成一半的情況。例如Laxcus分散式操作系統的數據多點寫操作,就不能夠出現一個節點成功一個點失敗的現象。如果出現,系統也將執行回滾操作,擦除已經成功寫入的數據,恢復到初始狀態,通知用戶寫入錯誤。
(二)Availability 可用性
好的可用性是指系統能夠隨時隨地,為大多數人提供服務(穩定可靠的分散式系統能達到99.999%以上),不會同時出現多數人操作失敗、拒絕訪問、訪問超時等不友好現象(非法訪問或者安全原因的限制除外)。可用性和分散式系統的冗餘處理、負載均衡、限載處理能力有很大關係。目前Laxcus分散式操作系統生產環境中,涉及可用性的計算單元,都要求提供一主二從的冗餘備份,即一個主節點,兩個從節點。正常情況下,主節點處理正常的作業流,從節點監視主節點,同時備份主節點的元數據。當主節點發生故障時(機器損壞、網路通信故障),從節點會在秒級時間反應過來,通過協商選出新的主節點,替換掉發生故障的主節點,避免應用業務受到影響涉及。並且這些工作完全是電腦自動完成,不需要管理人員參與。
(三)Partition Tolerance 分區容錯
分區容錯和系統的伸縮性擴展能力緊密相關。在分散式環境中,可能會由於網路通信等原因,導致多機協同工作的系統無法正常運行的現象。合格的分區容錯要求系統雖然處於物理的分散部署和運行狀態,而邏輯看上去卻像是一個正常運轉的整體。比如Laxcus分散式操作系統系統中,即使其中一臺或者幾台電腦宕機,其他剩下的電腦在Laxcus分散式操作系統調度下,也能夠正常運轉滿足業務需求,這樣就具有好的分區容錯性。
以上是CAP的基本情況,理論上CAP三種選項雖然可以三選二自由組合,但是放到現實的分散式應用場景中,如果分區容錯(P)無法保證時(一臺電腦宕機,其它電腦不能提供服務或者只能提供部分服務),分散式系統也就失去存在的意義,所以分區容錯屬於分散式系統的必備選項,需要得到絕對保證。這樣,用戶在設計分散式系統時,實際上只能在選項CP和AP之間進行選擇。比如WEB業務強調高併發能力,要求隨時隨地的高可用性,允許一定額度的錯誤,這時就可以放寬對一致性的限制。而線上支付系統因為必須保證最終數據的正確性,所以對數據一致性有極高要求。
CAP理論發展到近些年,情況又開始變化,隨著市場和用戶需求的調整,大家對CAP理論有了新的要求。具體到分散式系統,就是現在的用戶越來越希望能夠在一套系統里,同時滿足高併發和高可靠性兩種需求,也就是說,要求一套分散式系統同時具備CP和AP兩種能力。
這給基礎軟體開發者提出了新的課題。
Laxcus分散式操作系統對此的解決方案是可調CAP策略。
可調CAP策略是在原來CAP理論基礎上的延伸和發展,它允許我們在使用Laxcus分散式操作系統過程中,隨時重組電腦集群的運行模式,能夠根據不同的業務需求,以CP和AP之間動態調節。
如果用戶不做任何設置,Laxcus分散式操作系統預設是AP策略,即電腦集群服務於高可用性場景。例如用戶在處理分散式計算工作時,當電腦集群同時執行多項分散式計算工作,某項工作的故障和失敗不影響其它應用業務的正常運行。
同時,當面對分散式存儲工作時,Laxcus分散式操作系統預設是CP策略,即保證同質數據的分佈一致性,也就是滿足事務性操作要求。這時任何一點數據的寫操作失敗都會導致數據整體回滾,從而滿足同質數據的分佈一致性要求。
在Laxcus分散式操作系統里,將處理業務切換到CP狀態使用Create Limit 命令。見下圖,這個命令有三種處理模型:用戶、資料庫、數據表。如果用戶使用Create Limit命令執行用戶模式處理且被系統接受後,那麼表示除數據處理工作之外,用戶的其它業務,都執行CP策略(一致性處理)。
Create Limit命令
執行Create Limit命令
Create Limit命令生效後,與Create Limit命令配合的是Create Fault命令。如果在CP狀態發生了不一致故障,相關業務將被系統鎖定,用戶即使有後續的請求工作,系統也不會接受,直到用戶使用“Drop Fault”命令手工解除故障,相關的業務才能恢復工作。
與Create Limit命令配合使用的Create Fault命令
與Create Limit命令對應的反向操作是Drop Limit命令,它解除之前Create Limit命令執行的限制,將業務處理恢復到系統的預設狀態。比如對用戶業務執行了“Create Limit”命令後,想恢復到AP狀態(高可用性),那麼就使用“Drop Limit”命令重置。
Drop Limit命令是Create Limit命令的反向操作
對於數據處理工作,正常情況下,我們還是應該保持為CP狀態,畢竟一致性是數據處理重要的基礎功能。
但是特殊情況總是存在,為此,Laxcus分散式操作系統也為用戶提供了多種可能選擇。比如我們為了滿足高併發需要,有時會將資料庫或者數據表切換到AP狀態,然後出現數據不一致性現象,這時為了將電腦集群的分佈數據恢復到一致狀態,我們可以使用“”命令來完成。這個命令將掃描電腦集群上的所有相關數據,將數據調整到一致狀態。掃描和重組數據過程中,相關的資源會被系統鎖定,直到完成後才解鎖,所以處理過程中不會出現“多寫”現象,也就是杜絕了不一致的現象發生。
檢查分佈數據的一致性
將分佈數據恢復到一致性狀態
以上是可調CAP策略的大致情況。Laxcus分散式操作系統把複雜的CAP理論、可調CAP策略,以及相關的大量基礎功能和處理流程,簡化成幾個命令來實現。讓用戶面對不同業務需求時,通過簡單地切換系統運行模式,有更多選擇符合更多應用場景的需要。
說明:Laxcus是一個開源、容錯、高擴展、多人共用、多機協同分佈運行的操作系統,通過分散式應用軟體,處理大規模、超大規模的存儲和計算工作。企業版本支持百萬級節點規模的電腦集群、億級用戶線上。