知乎問題: 斷電時文件系統發生了什麼?硬碟又發生了什麼?下一次開機時寫到一半的文件在系統層面還在嗎?在底層還在嗎? 更進一步的, 文件系統如何保證事務性, 會不會存在某種極端情況導致例如最後幾個bit還沒寫完, 文件系統卻認為它成功了的情況? 回答不限任何文件系統,謝謝! 作者「北極」的回答: 斷電 ...
知乎問題:
斷電時文件系統發生了什麼?硬碟又發生了什麼?下一次開機時寫到一半的文件在系統層面還在嗎?在底層還在嗎?
更進一步的, 文件系統如何保證事務性, 會不會存在某種極端情況導致例如最後幾個bit還沒寫完, 文件系統卻認為它成功了的情況?
回答不限任何文件系統,謝謝!
作者「北極」的回答:
斷電的一瞬間,很多事情是無法確定的:
1.你無法確定你試圖向設備驅動發送的寫指令是否成功,驅動程式本身一般都有緩存;
2. 即使寫指令正常返回,你也無法確定設備實際上是否寫成功,因為設備本身可能也有緩存。目前沒有設備能保證寫指令返回的情況下,所有數據一定成功的保存在介質上(但部分廠商能保證少量數據一定能成功寫入),對存儲設備的flush操作並非絕對可靠;
3. 哪些成功哪些失敗可能是亂序的,換句話說,如果先發送寫請求A,再發送寫請求B,並且都成功返回,掉電時請求A可能丟失,但B成功(NCQ功能);
4. 機械式磁碟可能會出現丟失半截數據的情況(比如,一個512位元組扇區只寫入了100位元組,也就是題主說的bit級錯誤),但這種一般都會通過校驗位檢測出來。
因為有以上這麼多的限制,實際上文件系統一般沒辦法保證數據一定不丟失,甚至哪些丟失哪些能恢復也是不確定的。
一般來說,文件系統有以下的幾種策略:
1. 完全不管錯誤的事情,錯了就錯了;
2. 打標記位的方式,如果懷疑有錯,通過磁碟檢測功能恢復;
3. 在設計上保證文件系統結構上可恢復,但不保證用戶數據可恢復;
4. 能在用戶數據層面上保證數據的絕對正確。
第一種和第二種策略現在比較少見,FAT文件系統算是屬於這類;主流文件系統基本上都能保證第三種,比如NTFS之類的;第四種比較難,一般都要配合存儲驅動一起,多見於Flash介質的專屬文件系統。
保證數據不損壞,具體的方案一般有:
方案1:Copy-On-Write,寫數據的時候不在原來的位置寫,而是先讀一份,然後寫到另外一個位置,當確認寫成功時,把文件系統的指針指向新的位置。如下圖:
實際應用中,比這個情況複雜,因為Data2寫入的過程中,File1本身的一些信息(修改時間等)也發生了變化,所以CopyOnWrite產生的影響不止這一個塊,而是很多。
方案2:日誌(Journal)技術。使用日誌記錄meta-data甚至是數據塊的變化情況(NTFS就是這種策略),一旦出現掉電情況,在日誌中反推到一個正確的狀態上,就可以保證meta-data不損壞。
常見的方案就這兩種,當然還有別的更複雜的技術,可以參考這個鏈接(Comparison of file systems),但不管用什麼方案,本質上都是以犧牲性能為代價換取結構上的穩定。
最後回到題主的問題,文件系統如何保證數據的正確性?如果是指文件的數據部分,是無法保證的,因為文件系統無法確定數據到底寫沒寫進去,絕大多數文件系統只能保證自身結構是正確的,但這個正確可能是回滾之後的狀態,具體回滾多少內容,文件系統自己也不能保證。
這事說起來挺複雜的,不同文件系統,不同設備,不同介質,效果都是有區別的。