詳細分析du和df的統計結果為什麼不一樣

来源:https://www.cnblogs.com/f-ck-need-u/archive/2018/03/27/8659301.html
-Advertisement-
Play Games

今天有個人問我du和df的統計結果為什麼會不同。給他解析了一番,後來想想還是寫篇文章從原理上來分析分析。 我們常常使用du和df來獲取目錄或文件系統已占用空間的情況。但它們的統計結果是不一致的,大多數時候,它們的結果相差不會很大,但有時候它們的統計結果會相差非常大。 例如: df中"/"的使用空間是 ...


今天有個人問我du和df的統計結果為什麼會不同。給他解析了一番,後來想想還是寫篇文章從原理上來分析分析。

我們常常使用du和df來獲取目錄或文件系統已占用空間的情況。但它們的統計結果是不一致的,大多數時候,它們的結果相差不會很大,但有時候它們的統計結果會相差非常大。

例如:

##### df的統計結果
[root@xuexi ~]# df -hT 
Filesystem          Type   Size  Used Avail Use% Mounted on
/dev/sda2           ext4    18G  1.7G   15G  11% /
tmpfs               tmpfs  491M     0  491M   0% /dev/shm
/dev/sda1           ext4   239M   68M  159M  30% /boot
//192.168.0.124/win cifs   381G  243G  138G  64% /mnt

##### du對根目錄的統計結果
[root@xuexi ~]# du -sh /  2>/dev/null
244G    /

df中"/"的使用空間是1.7G,但是du的結果卻是244G。這裡du的統計結果大於df。

再看看對/boot分區的統計結果。

[root@xuexi ~]# df -hT /boot;echo;du -sh /boot
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sda1      ext4  239M   68M  159M  30% /boot

66M     /boot

du的結果是66M,df的結果是68M,相差不大,但df的結果大於du。

1.文件存儲和刪除的底層過程

這裡簡單說明下文件系統相關的底層機制,詳細的內容參見:ext文件系統機制

首先說明下文件是怎麼存儲到文件系統中的。假如要存儲a.txt到/tmp目錄下。

當a.txt文件要存儲到/tmp下時:

  • (1).首先從inode table中找一個空閑的inode號分配給a.txt,例如2222。再將inode map(imap)中2222這個inode號標記為已使用。
  • (2).在/tmp的data block中添加一條a.txt文件的記錄。該記錄中包括一個指向inode號的指針,例如"0x2222"。
  • (3).然後從block map(bmap)中找出空閑的data block,並開始將a.txt中的數據寫入到data block中。每寫一段空間(每次分配一段空間)就從bmap中找一次空閑的data block,直到存完所有數據。
  • (4).設置inode table中關於2222這條記錄的data block指針,通過該指針可以找到a.txt使用了哪些data block。

當要刪除a.txt文件時:

  • (1).在inode table中刪除指向a.txt的data block指針。這裡只要一刪除,外界就找不到a.txt的數據了。但是這個文件還存在,只是它是被"損壞"的文件,因為沒有任何指針指向數據塊。
  • (2).在imap中將2222的inode號標記為未使用。於是這個inode號就被釋放,可以被後續的文件重用。
  • (3).刪除父目錄/tmp的data block中關於a.txt的記錄。這裡只要一刪除,外界就看不到也找不到這個文件了。
  • (4).在bmap中將a.txt占用的block標記為未使用。這裡被標記為未使用後,這些data block就可以被後續文件覆蓋重用。

考慮一種情況,當一個文件被刪除時,但此時還有進程在使用這個文件,這時是怎樣的情況呢?外界是看不到也找不到這個文件的,所以刪除的過程已經進行到了第(3)步。但進程還在使用這個文件的數據,也能找到這個文件的數據,是因為進程在載入這個文件的時候就已經獲取到了該文件占用哪些data block,雖然刪除了文件,但bmap中這些data block還沒有標記為未使用。

2.du統計的原理

du是通過stat命令來統計每個文件(包括子目錄)的空間占用總和。因為會對每個涉及到的文件使用stat命令,所以速度較慢。

1.如果統計目錄下掛載了其他文件系統,那麼也會對這個文件系統進行統計。

例如"du -sh /"的時候,會統計所有分區的文件,包括掛載上來的。正如本文開頭統計的"/"一樣,du的結果是244G,明顯比df統計的結果大,就是因為將某個分區掛載到了/mnt目錄下。

##### df的統計結果
[root@xuexi ~]# df -hT 
Filesystem          Type   Size  Used Avail Use% Mounted on
/dev/sda2           ext4    18G  1.7G   15G  11% /
tmpfs               tmpfs  491M     0  491M   0% /dev/shm
/dev/sda1           ext4   239M   68M  159M  30% /boot
//192.168.0.124/win cifs   381G  243G  138G  64% /mnt

##### du對根目錄的統計結果
[root@xuexi ~]# du -sh /  2>/dev/null
244G    /

2.如果文件被刪除,即使被其他進程引用了,du命令也無法對其統計。因為stat命令找不到這個文件

3.可以跨分區統計某些你想統計的文件大小總和。因為它們都能被stat找到並統計。

例如:

統計Linux下所有img文件的大小。

[root@xuexi ~]# find / -type f -name "*.img" -print0 | xargs -0 du -csh 
19M     /boot/initramfs-2.6.32-504.el6.x86_64.img
13M     /mnt/linux工具/cirros-0.3.4-x86_64-disk.img
31M     total

這裡統計的兩個img文件就是在不同分區內的。

3.df統計的原理

df是讀取每個分區的superblock來獲取空閑數據塊、已使用數據塊,從而計算出空閑空間和已使用空間,因此df統計的速度極快(superblock才占用1024位元組)。

1.當某個文件系統下掛載了其他分區,df不會把這個分區也統計進去。

這很容易理解,因為df讀取的是各自分區的superblock,即使分區1掛載在分區0的目錄下,df統計分區0的時候,也只能讀取分區0的superblock。

例如,下麵的/mnt、/boot都沒有統計在"/"中。

[root@xuexi ~]# df -hT 
Filesystem          Type   Size  Used Avail Use% Mounted on
/dev/sda2           ext4    18G  1.7G   15G  11% /
tmpfs               tmpfs  491M     0  491M   0% /dev/shm
/dev/sda1           ext4   239M   68M  159M  30% /boot
//192.168.0.124/win cifs   381G  243G  138G  64% /mnt

2.由於df每次統計都是讀取superblock,所以df對文件系統中的某個文件進行統計時,會自動轉為統計這個文件系統的信息。

[root@xuexi ~]# df -hT /etc/fstab
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sda2      ext4   18G  1.7G   15G  11% /

3.df會統計已刪除但卻仍有進程引用的文件。

正常情況下,刪除文件會立刻釋放相關指針,並將imap和bmap中相關的點陣圖標記為未使用。bmap只要一改變,文件系統立刻就能知道每個塊組中哪些數據塊是空閑的,哪些數據塊是被使用的,這些信息都會更新到分區的superblock中。於是df能立刻統計到實時的空間信息。

但是當一個文件被刪除時,如果還有進程在引用這個文件,根據前文的分析,bmap中不會將這個文件的data block標記為未使用,也就不會將數據塊的使用情況更新到superblock中。由於df是根據superblock中空閑和使用數據塊的數量來計算空閑空間和已使用空間的,所以df統計的時候會將這個已被"刪除"的文件統計到已使用空間中。

例如,創建一個較大一點的文件放在"/"目錄下,並du和df統計根目錄的已使用空間。

[root@xuexi ~]# dd if=/dev/zero of=/my.iso bs=1M count=1000

[root@xuexi ~]# df -hT /
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sda2      ext4   18G  2.7G   14G  17% /

[root@xuexi ~]# du -sh --exclude="/mnt" / 2>/dev/null
2.7G    /

它們在GB級的單位上是相等的。

現在使用一個進程來引用這個文件,然後刪除這個文件,再du和df統計。

[root@xuexi ~]# tail -f /my.iso &

[root@xuexi ~]# rm -rf /my.iso 
[root@xuexi ~]# ls /my.iso
ls: cannot access /my.iso: No such file or directory

[root@xuexi ~]# du -sh --exclude="/mnt" / 2>/dev/null
1.8G    /

[root@xuexi ~]# df -hT /
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sda2      ext4   18G  2.7G   14G  17% /

可以發現,外界已經獲取不到my.iso文件了,所以du無法統計這個文件。而df卻將該文件大小統計進去了,因為my.iso占用的data block還未被標記為未使用。

再關掉tail進程,然後df再統計空間,結果將和du一樣顯示為正常的大小。

[root@xuexi ~]# jobs
[1]+  Running                 tail -f /my.iso &
[root@xuexi ~]# kill %1

[root@xuexi ~]# df -hT /
Filesystem     Type  Size  Used Avail Use% Mounted on
/dev/sda2      ext4   18G  1.7G   15G  11% /

如果不知道文件系統中哪些已被刪除,但卻還被進程引用的文件,可以使用lsof來獲取。通過它還能獲取到文件的大小,看看到底是哪個文件在"占著茅坑以及占了多少茅坑"。

例如,關掉tail進程前,使用lsof查看。可以看到tail進程占用了/my.iso,且這個文件的大小為1048576000位元組。

[root@xuexi ~]# lsof | grep deleted   
php-fpm   12597      root  txt     REG   8,2    4058416   931143 /usr/sbin/php-fpm (deleted)
php-fpm   12657    nobody  txt     REG   8,2    4058416   931143 /usr/sbin/php-fpm (deleted)
php-fpm   12707    nobody  txt     REG   8,2    4058416   931143 /usr/sbin/php-fpm (deleted)
php-fpm   12708    nobody  txt     REG   8,2    4058416   931143 /usr/sbin/php-fpm (deleted)
tail      14437      root    3r    REG   8,2 1048576000     7171 /my.iso (deleted)

經過上面的分析,想必對du和df的結果不會再有任何疑惑了吧。

 

回到Linux系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7048359.html
回到網站架構系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7576137.html
回到資料庫系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7586194.html
轉載請註明出處:http://www.cnblogs.com/f-ck-need-u/p/8659301.html

註:若您覺得這篇文章還不錯請點擊右下角推薦,您的支持能激發作者更大的寫作熱情,非常感謝!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Web; using System.Web.UI.HtmlControls; using System... ...
  • 1 public static T Mapper(S source) 2 { 3 T t = Activator.CreateInstance(); 4 try 5 { 6 var s_type = source.GetType(); 7 ... ...
  • 有些時候我們寫的shell腳本中有一些後臺任務,當腳本的流程已經執行到結尾處並退出時,這些後臺任務會直接掛靠在init/systemd進程下,而不會隨著腳本退出而停止。 例如: 從結果中可以看到,腳本退出後,sleep進程的父進程變為了1,也就是掛在了init/systemd進程下。 這時我們可以在 ...
  • Ubuntu上官方的源,比如 Ubuntu14.04 預設源中的是 PHP5.6.x、Ubuntu16.04 預設源中的是 PHP7.0.x,那麼如果想在 Ubuntu16.04 上安裝 PHP7.1,PHP7.2,應該怎麼辦呢? 答案是通過第三方的源來安裝, "ppa:ondrej/php" 是一 ...
  • yum工具比RPM工具好用,所以直接介紹yum工具來管理RPM包。 yum list |head -n 20 列出所有RPM資源。 yum search vim 搜索RPM包vim yum install -y protobuf-vim 安裝RPM包,如果不加-y,則會以與用戶交互的方式安裝。 yu ...
  • 低功耗廣域網路LPWAN(Low Power Wide Area Network),專為低帶寬、低功耗、遠距離、大量連接的物聯網應用而設計。今天痞子衡就用一張表為大家搜羅常見的低功耗廣域物聯網協議。 ...
  • .rar壓縮文件linux中不識別,.zip在windows和Linux中動能使用。 .gz:由gzip壓縮工具壓縮的文件 .bz2:bzip2壓縮工具壓縮的文件 .tar:由tar打包程式打包的文件。(tar並沒有壓縮功能,只是把一個目錄合併成一個文件)。 .tar.gz:先有tar打包,然後再由 ...
  • 一、SELinux的歷史 SELinux全稱是Security Enhanced Linux,由美國國家安全部(National Security Agency)領導開發的GPL項目,它擁有一個靈活而強制性的訪問控制結構,旨在提高Linux系統的安全性,提供強健的安全保證,可防禦未知攻擊,相當於B1 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...