本文分享自天翼雲開發者社區《快照技術對比學習》,作者:z****n 1.快照的分類 根據 SNIA 的定義, 快照有全量快照 (full snapshot) 和增量快照 (incremental snapshot) 兩種類型。 2.全量快照 克隆(Clone): 與備份操作類似,克隆技術是一種數據復 ...
本文分享自天翼雲開發者社區《快照技術對比學習》,作者:z****n
1.快照的分類
根據 SNIA 的定義, 快照有全量快照 (full snapshot) 和增量快照 (incremental snapshot) 兩種類型。
2.全量快照
克隆(Clone):
與備份操作類似,克隆技術是一種數據複製和恢復的方法,用於創建源數據的完全副本。將源數據的所有信息和狀態以二進位形式進行備份,併在需要時將其恢復到相同或另一個系統中。克隆對象可以是存儲捲、文件系統或者LUN,優勢在於它提供了完全一致和獨立的複製,不受源系統的影響。缺點就是在創建時要完整的複製一份數據,需要占用和源數據空間一樣大的存儲空間,資源成本高,消耗時間長。
鏡像分離(Split Mirror):
鏡像分離也屬於全量快照,先創建源捲的一個鏡像捲,每次磁碟寫入數據的時候,都會向源捲和快照捲同時寫入內容。當啟動快照時,鏡像捲能快速脫離,直接生成一個快照捲。因此鏡像分離在讀操作時沒有任何影響,在寫操作時會有兩次寫入操作,分別寫入源捲與鏡像捲。
3.增量快照
3.1寫時拷貝(Copy-On-Write,CoW):在源捲之外創建一個快照捲,用於存放快照數據。
寫數據:
1、寫入請求:當需要對原始數據進行寫入操作時,系統首先創建一個新的空白數據塊(或稱為寫時複製快照),並將寫入請求發送到該新數據塊。
2、數據複製:系統將需要被修改的數據塊從原始數據中複製到新的寫時複製快照中,這樣可以確保原始數據不會被修改。
3、修改寫時複製快照:在寫時複製快照中進行實際的數據修改操作,即將寫入請求應用於寫時複製快照。
4、更新快照指針:完成寫入操作後,系統更新增量快照指針,使其指向新的寫時複製快照,以反映最新的數據狀態。
讀數據:
1、初始狀態:增量快照指向原始數據。
2、讀取請求:當有讀取請求時,系統檢查增量快照指針。
3、檢查增量快照:如果讀取請求的數據在增量快照中存在,系統直接從增量快照中讀取相應的數據,並返回給請求方。
4、查找原始數據:如果讀取請求的數據不在增量快照中,系統將查找原始數據。
5、讀取原始數據:系統根據讀取請求定位到原始數據,並返回相應的數據給請求方。
優點:CoW在寫入操作時,不直接修改原始數據,而是創建副本併在副本上進行修改。這樣可以減少對原始數據的複製操作,因此CoW快照創建非常快。其次,CoW確保了數據的完整性和一致性,原始數據始終保持不變,只有在寫入操作完成後,新的數據副本才會出現。同時CoW可以節省存儲空間。由於只有在數據塊被修改時才複製數據,多個副本可以共用未修改的數據塊,減少了存儲空間的占用。
缺點:降低源數據捲的寫性能,因為每次改寫新數據,實際上都進行了兩次寫操作。
應用場景:CoW技術提供了空間效率、寫入性能和數據完整性的優勢,適用於需要高效存儲、備份和恢複數據的場景。因此在虛擬化、容器化、數據備份、文件系統和資料庫管理等領域得到廣泛應用。
3.2寫時重定向(Redirect-On-Write,RoW)
寫數據:
1、初始狀態:RoW技術在初始狀態下指向原始數據。
2、寫入請求:當有寫入請求時,系統首先檢查RoW指針。
3、創建副本:如果RoW指針指向原始數據,系統會創建原始數據的副本。
4、修改副本:系統在副本上進行修改操作,而不會對原始數據進行任何更改。
5、更新RoW指針:當修改操作完成後,系統會更新RoW指針,使其指向新創建的副本。
6、更新元數據:系統會更新相關的元數據,如指針或索引,以反映新的數據位置。
讀數據:
1、初始狀態:RoW技術在初始狀態下指向原始數據。
2、讀取請求:當有讀取請求時,系統會根據讀取操作所需的數據確定讀取路徑。
3、檢查RoW指針:系統首先檢查RoW指針。
4、判斷讀取路徑:根據RoW指針的狀態,有兩種可能的讀取路徑:
1)如果RoW指針指向原始數據,則系統直接讀取原始數據。
2)如果RoW指針指向副本數據,則系統需要跟蹤回溯到原始數據,並讀取經過修改的副本數據。
5、讀取數據:根據所確定的讀取路徑,系統從相應的位置讀取數據。
1)如果RoW指針指向原始數據,系統直接從原始數據位置讀取數據。
2)如果RoW指針指向副本數據,系統通過回溯到原始數據並按照修改路徑讀取副本數據。
優點:RoW技術避免了對原始數據的複製,只在修改發生時創建副本,因此具有較高的空間效率。其次解決了CoW快照寫兩次的問題,就寫性能而言RoW是優於CoW 的。RoW技術通過在副本上進行修改而不直接修改原始數據來保持數據的完整性和一致性。RoW技術可以通過跟蹤回溯到原始數據來實現快速恢復和數據保護。
缺點:RoW技術在讀取操作時可能需要進行回溯操作以獲取經過修改的副本數據,這可能略微降低讀取性能。RoW沒有一個完整的快照捲,其快照之間的關係是鏈式的,如果快照層級越多,進行快照恢復時的系統開銷會比較大。
應用場景:RoW技術適用於需要高效存儲、備份和恢複數據的場景。它提供了空間效率、寫入性能和數據完整性的優勢,因此在虛擬化、容器化、文件系統和資料庫管理等領域得到廣泛應用。
在傳統存儲場景下,RoW技術存在一個重要問題,即對讀取性能的影響較大。隨著多次讀寫操作的進行,源數據捲中的數據會變得非常離散,這導致RoW在連續讀取和寫入性能方面不如CoW。因此,RoW更適用於寫入密集型的存儲系統。然而,在分散式存儲的情況下,RoW的連續讀寫性能卻會超過CoW。在傳統存儲場景中,讀寫性能的瓶頸通常出現在磁碟上,但這種瓶頸在分散式存儲場景中不存在。在業務層面上,用戶看到的是連續存儲,實際上數據分佈在不同伺服器的不同硬碟上,數據越分散,系統性能越高。RoW技術將源數據捲中的原始數據打散後,反而對性能有益。因此,目前階段下,RoW結合分散式存儲的快照方式是業界主要發展方向。