記憶體映射 Linux 內核給每個進程都提供了一個獨立的虛擬地址空間,並且這個地址空間是連續的。這樣,進程就可以很方便地訪問記憶體,更確切地說是訪問虛擬記憶體。 虛擬地址空間的內部又被分為內核空間和用戶空間兩部分,不同字長(也就是單個 CPU 指令可以處理數據的最大長度)的處理器,地址空間的範圍也不同。比 ...
記憶體映射
Linux 內核給每個進程都提供了一個獨立的虛擬地址空間,並且這個地址空間是連續的。這樣,進程就可以很方便地訪問記憶體,更確切地說是訪問虛擬記憶體。
虛擬地址空間的內部又被分為內核空間和用戶空間兩部分,不同字長(也就是單個 CPU 指令可以處理數據的最大長度)的處理器,地址空間的範圍也不同。比如最常見的 32 位和 64 位系統,如圖:
並不是所有的虛擬記憶體都會分配物理記憶體,只有那些實際使用的虛擬記憶體才分配物理記憶體,並且分配後的物理記憶體,是通過記憶體映射來管理的。
記憶體映射,其實就是將虛擬記憶體地址映射到物理記憶體地址。為了完成記憶體映射,內核為每個進程都維護了一張頁表(頁表實際上存儲在 CPU 的記憶體管理單元 MMU 中),記錄虛擬地址與物理地址的映射關係。
當進程訪問的虛擬地址在頁表中查不到時,系統會產生一個缺頁異常,進入內核空間分配物理記憶體、更新進程頁表,最後再返回用戶空間,恢復進程的運行。(記憶體調用,都只在首次訪問時才分配,也就是通過缺頁異常進入內核中,再由內核來分配記憶體。)
多級頁表和大頁
MMU 規定了一個記憶體映射的最小單位,也就是頁,通常是 4 KB 大小。這樣,每一次記憶體映射,都需要關聯 4 KB 或者 4KB 整數倍的記憶體空間。
多級頁表(Multilevel page tables)就是把記憶體分成區塊來管理,將原來的映射關係改成區塊索引和區塊內的偏移。由於虛擬記憶體空間通常只用了很少一部分,那麼,多級頁表就只保存這些使用中的區塊,這樣就可以大大地減少頁表的項數。Linux 用的正是四級頁表來管理記憶體頁。如下圖所示,虛擬地址被分為 5 個部分,前 4 個表項用於選擇頁,而最後一個索引表示頁內偏移。
大頁(HugePage)就是比普通頁更大的記憶體塊,常見的大小有 2MB 和 1GB。大頁通常用在使用大量記憶體的進程上,比如 Oracle、DPDK 等。
虛擬記憶體空間分佈
在這五個記憶體段中,堆和文件映射段的記憶體是動態分配的。比如說,使用 C 標準庫的 malloc() 或者 mmap() ,就可以分別在堆和文件映射段動態分配記憶體
記憶體回收機制
系統不會任由某個進程用完所有記憶體。在發現記憶體緊張時,系統就會通過一系列機制來回收記憶體:
- 回收緩存,比如使用 LRU(Least Recently Used)演算法,回收最近使用最少的記憶體頁面;
- 回收不常訪問的記憶體,把不常用的記憶體通過交換分區直接寫到磁碟中;
回收不常訪問的記憶體時,會用到交換分區(以下簡稱 Swap)。Swap 其實就是把一塊磁碟空間當成記憶體來用。它可以把進程暫時不用的數據存儲到磁碟中(這個過程稱為換出),當進程訪問這些記憶體時,再從磁碟讀取這些數據到記憶體中(這個過程稱為換入)。
- 殺死進程,記憶體緊張時系統還會通過 OOM(Out of Memory),直接殺掉占用大量記憶體的進程。
OOM它監控進程的記憶體使用情況,並且使用 oom_score 為每個進程的記憶體使用情況進行評分。管理員可以通過 /proc 文件系統,手動設置進程的 oom_adj ,從而調整進程的 oom_score。
記憶體工具
free
[root@k8s ~]# watch -d free
Every 2.0s: free Wed Apr 8 15:59:31 2020
total used free shared buff/cache available
Mem: 8173864 4094104 276572 436676 3803188 3333024
Swap: 0 0 0
- 第一列,total 是總記憶體大小;
- 第二列,used 是已使用記憶體的大小,包含了共用記憶體;
- 第三列,free 是未使用記憶體的大小;
- 第四列,shared 是共用記憶體的大小;
- 第五列,buff/cache 是緩存和緩衝區的大小;
- 最後一列,available 是新進程可用記憶體的大小(包括了可回收的緩存,所以一般會比未使用記憶體更大)。
top
[root@k8s ~]# top
…………
KiB Mem : 8173864 total, 275696 free, 4094212 used, 3803956 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 3332920 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
3482 root 20 0 2430460 1224 760 S 85.1 0.0 3557:06 kswapd0
…………
- VIRT 是進程虛擬記憶體的大小,只要是進程申請過的記憶體,即便還沒有真正分配物理記憶體,也會計算在內。
- RES 是常駐記憶體的大小,也就是進程實際使用的物理記憶體大小,但不包括 Swap 和共用記憶體。
- SHR 是共用記憶體的大小,比如與其他進程共同使用的共用記憶體、載入的動態鏈接庫以及程式的代碼段等。
- %MEM 是進程使用物理記憶體占系統總記憶體的百分比。
Buffer 和 Cache
- 為了協調 CPU 與磁碟間的性能差異,Linux 還會使用 Cache 和 Buffer ,分別把文件和磁碟讀寫的數據緩存到記憶體中。
- buffers Memory used by kernel buffers (Buffers in /proc/meminfo)
- cache Memory used by the page cache and slabs (Cached and SReclaimable in /proc/meminfo)
- buff/cache Sum of buffers and cache
man proc 對 proc 文件系統的說明
- Buffers 是對原始磁碟塊的臨時存儲,也就是用來緩存磁碟的數據,通常不會特別大(20MB 左右)。這樣,內核就可以把分散的寫集中起來,統一優化磁碟的寫入,比如可以把多次小的寫合併成單次大的寫等等。
- Cached 是從磁碟讀取文件的頁緩存,也就是用來緩存從文件讀取的數據。這樣,下次訪問這些文件數據時,就可以直接從記憶體中快速獲取,而不需要再次訪問緩慢的磁碟。
- SReclaimable 是 Slab 的一部分。Slab 包括兩部分,其中的可回收部分,用 SReclaimable 記錄;而不可回收部分,用 SUnreclaim 記錄。
Buffer 是對磁碟數據的緩存,而 Cache 是文件數據的緩存,它們既會用在讀請求中,也會用在寫請求中。
總結
對普通進程來說,它能看到的其實是內核提供的虛擬記憶體,這些虛擬記憶體還需要通過頁表,由系統映射為物理記憶體。
當進程通過 malloc() 申請記憶體後,記憶體並不會立即分配,而是在首次訪問時,才通過缺頁異常陷入內核中分配記憶體。
由於進程的虛擬地址空間比物理記憶體大很多,Linux 還提供了一系列的機制,應對記憶體不足的問題,比如緩存的回收、交換分區 Swap 以及 OOM 等。
Buffer 和 Cache 分別緩存磁碟和文件系統的讀寫數據。
- 從寫的角度來說,不僅可以優化磁碟和文件的寫入,對應用程式也有好處,應用程式可以在數據真正落盤前,就返回去做其他工作。
- 從讀的角度來說,既可以加速讀取那些需要頻繁訪問的數據,也降低了頻繁 I/O 對磁碟的壓力。
學習筆記
整理自極客時間:《Linux性能優化實戰》