直接記憶體回收中的等待隊列

来源:https://www.cnblogs.com/linhaostudy/archive/2020/04/11/12679296.html
-Advertisement-
Play Games

在直接記憶體回收過程中,有可能會造成當前需要分配記憶體的進程被加入一個等待隊列,當整個node的空閑頁數量滿足要求時,由kswapd喚醒它重新獲取記憶體。這個等待隊列頭就是node結點描述符pgdat中的pfmemalloc_wait。如果當前進程加入到了 這個等待隊列中,那麼進程就不會進行直接記憶體回收, ...


在直接記憶體回收過程中,有可能會造成當前需要分配記憶體的進程被加入一個等待隊列,當整個node的空閑頁數量滿足要求時,由kswapd喚醒它重新獲取記憶體。這個等待隊列頭就是node結點描述符pgdat中的pfmemalloc_wait。如果當前進程加入到了pgdat->pfmemalloc_wait這個等待隊列中,那麼進程就不會進行直接記憶體回收,而是由kswapd喚醒後直接進行記憶體分配。

直接記憶體回收執行路徑是:

__alloc_pages_slowpath() -> __alloc_pages_direct_reclaim() -> __perform_reclaim() -> try_to_free_pages() -> do_try_to_free_pages() -> shrink_zones() -> shrink_zone()

在__alloc_pages_slowpath()中可能喚醒了所有node的kswapd內核線程,也可能沒有喚醒,每個node的kswapd是否在__alloc_pages_slowpath()中被喚醒有兩個條件:

  1. 分配標誌中沒有__GFP_NO_KSWAPD,只有在透明大頁的分配過程中會有這個標誌。
  2. node中有至少一個zone的空閑頁框沒有達到 空閑頁框數量 >= high閥值 + 1 << order + 保留記憶體,或者有至少一個zone需要進行記憶體壓縮,這兩種情況node的kswapd都會被喚醒。

而在kswapd中會對node中每一個不平衡的zone進行記憶體回收,直到所有zone都滿足 zone分配頁框後剩餘的頁框數量 > 此zone的high閥值 + 此zone保留的頁框數量。kswapd就會停止記憶體回收,然後喚醒在等待隊列的進程。

之後進程由於記憶體不足,對zonelist進行直接回收時,會調用到try_to_free_pages(),在這個函數內,決定了進程是否加入到node結點的pgdat->pfmemalloc_wait這個等待隊列中,如下:

unsigned long try_to_free_pages(struct zonelist *zonelist, int order,
                gfp_t gfp_mask, nodemask_t *nodemask)
{
    unsigned long nr_reclaimed;
    struct scan_control sc = {
        /* 打算回收32個頁框 */
        .nr_to_reclaim = SWAP_CLUSTER_MAX,
        .gfp_mask = (gfp_mask = memalloc_noio_flags(gfp_mask)),
        /* 本次記憶體分配的order值 */
        .order = order,
        /* 允許進行回收的node掩碼 */
        .nodemask = nodemask,
        /* 優先順序為預設的12 */
        .priority = DEF_PRIORITY,
        /* 與/proc/sys/vm/laptop_mode文件有關
         * laptop_mode為0,則允許進行回寫操作,即使允許回寫,直接記憶體回收也不能對臟文件頁進行回寫
         * 不過允許回寫時,可以對非文件頁進行回寫
         */
        .may_writepage = !laptop_mode,
        /* 允許進行unmap操作 */
        .may_unmap = 1,
        /* 允許進行非文件頁的操作 */
        .may_swap = 1,
    };

    /*
     * Do not enter reclaim if fatal signal was delivered while throttled.
     * 1 is returned so that the page allocator does not OOM kill at this
     * point.
     */
    /* 當zonelist中獲取到的第一個node平衡,則返回,如果獲取到的第一個node不平衡,則將當前進程加入到pgdat->pfmemalloc_wait這個等待隊列中 
     * 這個等待隊列會在kswapd進行記憶體回收時,如果讓node平衡了,則會喚醒這個等待隊列中的進程
     * 判斷node平衡的標準:
     * 此node的ZONE_DMA和ZONE_NORMAL的總共空閑頁框數量 是否大於 此node的ZONE_DMA和ZONE_NORMAL的平均min閥值數量,大於則說明node平衡
     * 加入pgdat->pfmemalloc_wait的情況
     * 1.如果分配標誌禁止了文件系統操作,則將要進行記憶體回收的進程設置為TASK_INTERRUPTIBLE狀態,然後加入到node的pgdat->pfmemalloc_wait,並且會設置超時時間為1s 
     * 2.如果分配標誌沒有禁止了文件系統操作,則將要進行記憶體回收的進程加入到node的pgdat->pfmemalloc_wait,並設置為TASK_KILLABLE狀態,表示允許 TASK_UNINTERRUPTIBLE 響應致命信號的狀態 
     * 返回真,表示此進程加入過pgdat->pfmemalloc_wait等待隊列,並且已經被喚醒
     * 返回假,表示此進程沒有加入過pgdat->pfmemalloc_wait等待隊列
     */
    if (throttle_direct_reclaim(gfp_mask, zonelist, nodemask))
        return 1;

    trace_mm_vmscan_direct_reclaim_begin(order,
                sc.may_writepage,
                gfp_mask);

    /* 進行記憶體回收,有三種情況到這裡 
     * 1.當前進程為內核線程
     * 2.最優node是平衡的,當前進程沒有加入到pgdat->pfmemalloc_wait中
     * 3.當前進程接收到了kill信號
     */
    nr_reclaimed = do_try_to_free_pages(zonelist, &sc);

    trace_mm_vmscan_direct_reclaim_end(nr_reclaimed);

    return nr_reclaimed;
}

主要通過throttle_direct_reclaim()函數判斷是否加入到pgdat->pfmemalloc_wait等待隊列中,主要看此函數:

/* 當zonelist中第一個node平衡,則返回,如果node不平衡,則將當前進程加入到pgdat->pfmemalloc_wait這個等待隊列中 
 * 這個等待隊列會在kswapd進行記憶體回收時,如果讓node平衡了,則會喚醒這個等待隊列中的進程
 * 判斷node平衡的標準:
 * 此node的ZONE_DMA和ZONE_NORMAL的總共空閑頁框數量 是否大於 此node的ZONE_DMA和ZONE_NORMAL的平均min閥值數量,大於則說明node平衡
 * 加入pgdat->pfmemalloc_wait的情況
 * 1.如果分配標誌禁止了文件系統操作,則將要進行記憶體回收的進程設置為TASK_INTERRUPTIBLE狀態,然後加入到node的pgdat->pfmemalloc_wait,並且會設置超時時間為1s 
 * 2.如果分配標誌沒有禁止了文件系統操作,則將要進行記憶體回收的進程加入到node的pgdat->pfmemalloc_wait,並設置為TASK_KILLABLE狀態,表示允許 TASK_UNINTERRUPTIBLE 響應致命信號的狀態 
 */
static bool throttle_direct_reclaim(gfp_t gfp_mask, struct zonelist *zonelist,
                    nodemask_t *nodemask)
{
    struct zoneref *z;
    struct zone *zone;
    pg_data_t *pgdat = NULL;

    /* 如果標記了PF_KTHREAD,表示此進程是一個內核線程,則不會往下執行 */
    if (current->flags & PF_KTHREAD)
        goto out;

    /* 此進程已經接收到了kill信號,準備要被殺掉了 */
    if (fatal_signal_pending(current))
        goto out;

    /* 遍歷zonelist,但是裡面只會在獲取到第一個pgdat時就跳出 */
    for_each_zone_zonelist_nodemask(zone, z, zonelist,
                    gfp_mask, nodemask) {

        /* 只遍歷ZONE_NORMAL和ZONE_DMA區 */
        if (zone_idx(zone) > ZONE_NORMAL)
            continue;

        /* 獲取zone對應的node */
        pgdat = zone->zone_pgdat;
        /* 判斷node是否平衡,如果平衡,則返回真
         * 如果不平衡,如果此node的kswapd沒有被喚醒,則喚醒,並且這裡喚醒kswapd只會對ZONE_NORMAL以下的zone進行記憶體回收
         * node是否平衡的判斷標準是:
         * 此node的ZONE_DMA和ZONE_NORMAL的總共空閑頁框數量 是否大於 此node的ZONE_DMA和ZONE_NORMAL的平均min閥值數量,大於則說明node平衡
         */
        if (pfmemalloc_watermark_ok(pgdat))
            goto out;
        break;
    }

    if (!pgdat)
        goto out;

    count_vm_event(PGSCAN_DIRECT_THROTTLE);

    if (!(gfp_mask & __GFP_FS)) {
        /* 如果分配標誌禁止了文件系統操作,則將要進行記憶體回收的進程設置為TASK_INTERRUPTIBLE狀態,然後加入到node的pgdat->pfmemalloc_wait,並且會設置超時時間為1s 
         * 1.pfmemalloc_watermark_ok(pgdat)為真時被喚醒,而1s沒超時,返回剩餘timeout(jiffies)
         * 2.睡眠超過1s時會喚醒,而pfmemalloc_watermark_ok(pgdat)此時為真,返回1
         * 3.睡眠超過1s時會喚醒,而pfmemalloc_watermark_ok(pgdat)此時為假,返回0
         * 4.接收到信號被喚醒,返回-ERESTARTSYS
         */
        wait_event_interruptible_timeout(pgdat->pfmemalloc_wait,
            pfmemalloc_watermark_ok(pgdat), HZ);

        goto check_pending;
    }

    /* Throttle until kswapd wakes the process */
    /* 如果分配標誌沒有禁止了文件系統操作,則將要進行記憶體回收的進程加入到node的pgdat->pfmemalloc_wait,並設置為TASK_KILLABLE狀態,表示允許 TASK_UNINTERRUPTIBLE 響應致命信號的狀態 
     * 這些進程在兩種情況下被喚醒
     * 1.pfmemalloc_watermark_ok(pgdat)為真時
     * 2.接收到致命信號時
     */
    wait_event_killable(zone->zone_pgdat->pfmemalloc_wait,
        pfmemalloc_watermark_ok(pgdat));

check_pending:
    /* 如果加入到了pgdat->pfmemalloc_wait後被喚醒,就會執行到這 */
    
    /* 喚醒後再次檢查當前進程是否接受到了kill信號,準備退出 */
    if (fatal_signal_pending(current))
        return true;

out:
    return false;
}

 有四點需要註意:

  1. 當前進程已經接收到kill信號,則不會將其加入到pgdat->pfmemalloc_wait中。
  2. 只獲取第一個node,也就是當前進程最希望從此node中分配到記憶體。
  3. 判斷一個node是否平衡的條件是:此node的ZONE_NORMAL和ZONE_DMA兩個區的空閑頁框數量 > 此node的ZONE_NORMAL和ZONE_DMA兩個區的平均min閥值。如果不平衡,則加入到pgdat->pfmemalloc_wait等待隊列中,如果平衡,則直接返回,並由當前進程自己進行直接記憶體回收。
  4. 如果當前進程分配記憶體時使用的標誌沒有__GFP_FS,則加入pgdat->pfmemalloc_wait中會有一個超時限制,為1s。並且加入後的狀態是TASK_INTERRUPTABLE。
    其他情況的進程加入到pgdat->pfmemalloc_wait中沒有超時限制,並且狀態是TASK_KILLABLE。
      

如果進程加入到了node的pgdat->pfmemalloc_wait等待隊列中。在此node的kswapd進行記憶體回收後,會通過再次判斷此node是否平衡來喚醒這些進程,如果node平衡,則喚醒這些進程,否則不喚醒。實際上,不喚醒也說明瞭node沒有平衡,kswapd還是會繼續進行記憶體回收,最後kswapd實在沒辦法讓node達到平衡水平下,會在kswapd睡眠前,將這些進程全部進行喚醒。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • CentOS 7 LAMP搭建並且部署sqli labs 一、LAMP簡介(摘自百度百科) 1.1.簡介 LAMP是指一組通常一起使用來運行動態網站或者伺服器的自由軟體名稱首字母縮寫: L inux,操作系統 A pache,網頁伺服器 M ariaDB或MySQL,資料庫管理系統(或者資料庫伺服器 ...
  • df -Th 保持更新,更多內容請關註cnblogs.com/xuyaowen; http://man7.org/linux/man-pages/man1/df.1.html df - report file system disk space usage ...
  • 背景 By 魯迅 By 高爾基 說明: 1. Kernel版本:4.14 2. ARM64處理器,Contex A53,雙核 3. 使用工具:Source Insight 3.5, Visio 1. 概述 ,是Linux內核中的一種同步機制。 常被描述為讀寫鎖的替代品,它的特點是讀者並不需要直接與寫 ...
  • 引言: 在做練習項目的時候,需要使用Elasticsearch做搜索引擎。因為使用的是阿裡雲的伺服器,為了更好的管理所以使用了Docker來安裝Elasticsearch。但是本著安全性考慮,需要給Elasticsearch做安全驗證。這時後難題來了,Elasticsearch預設的是不開啟安全驗證 ...
  • 1. 不允許多個Host請求頭 2. 忽略額外的Transfer-Encoding請求頭 3.修複在HTTP/2時的socket泄露 4.修複使用OCSP時,工作進程中可能會發生分段錯誤 5.更改使用“ error_page”指令重定向了494時,把狀態碼400換成494 6.修複在njs模塊和使用 ...
  • 利用Docker搭建主從伺服器 首先拉取docker鏡像,我們這裡使用5.7版本的mysql: 然後使用此鏡像啟動容器,這裡需要分別啟動主從兩個容器 Master(主): Slave(從): Master對外映射的埠是3339,Slave對外映射的埠是3340。因為docker容器是相互獨立的, ...
  • 最近需要基於linux文件系統的擴展屬性,做一些自定義的操作;在這裡對調研過程進行簡要記錄;我們常見的很多服務如glusterfs 等,都是使用文件擴展屬性做一些定製化的操作; 擴展屬性(xattrs)提供了一種機制,用來將鍵值對永久得關聯到文件;讓現有的文件系統得以支持在原始設計中未提供的功能。擴 ...
  • 承接記憶體管理相關概念講解相關數據結構。主要有 pg_data_t: 表示節點; zone: 記憶體域; page: 頁幀; pglist_data定義如下: node_zones是一個數組,包含節點中各記憶體域(ZONE_DMA, ZONE_DMA32, ZONE_NORMAL...)的數據結構; no ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...