一次Python本地cache不當使用導致的記憶體泄露

来源:https://www.cnblogs.com/AcAc-t/archive/2023/08/29/python_local_cache_usage.html
-Advertisement-
Play Games

數據類型是編程中的重要概念。數據類型指定了變數值的大小和類型。 Go是靜態類型的,這意味著一旦變數類型被定義,它只能存儲該類型的數據。 Go有三種基本數據類型: - bool:表示布爾值,要麼是true,要麼是false。 - 數值型:表示整數類型、浮點數值和複數類型。 - string:表示字元串 ...


背景

近期一個大版本上線後,Python編寫的api主服務使用記憶體有較明顯上升,服務重啟後數小時就會觸發機器的90%記憶體占用告警,分析後發現了本地cache不當使用導致的一個記憶體泄露問題,這裡記錄一下分析過程。

問題分析

LocalCache實現分析

該cache大概實現代碼如下:

class LocalCache():
    notFound = object() # 定義cache未命中時返回的唯一對象
    # list dict等本身不支持弱引用,但其子類支持,這裡包裝下
    class Dict(dict):
        def __del__(self):
            pass

    def __init__(self, maxlen=10): # maxlen指定最多緩存的對象個數
        self.weak = weakref.WeakValueDictionary() # 存儲緩存對象弱引用的dict
        self.strong = collections.deque(maxlen=maxlen) # 存儲緩存對象強引用的deque

    # 從緩存dict中查找對應key的對象,若已過期或不存在則返回notFound
    def get_ex(self, key):
        value = self.weak.get(key, self.notFound)
        if value is not self.notFound:
            expire = value['expire']
            if self.nowTime() > expire:
                return self.notFound
            else:
                return value['result']
        return self.notFound

    # 設置kv到緩存dict中,並設置其過期時間
    def set_ex(self, key, value, expire):
        self.weak[key] = strongRef = LocalCache.Dict({'result': value, 'expire': self.nowTime()+expire})
        self.strong.append(strongRef)

如上述代碼,該LocalCache核心在於一個存儲弱引用的weakref.WeakValueDictionary對象與存儲強引用的deque對象(Python中弱引用與強引用介紹可以參見這篇文章--Python中的弱引用與基礎類型支持情況探究 ),LocalCache實例化時可以指定最大緩存的對象個數。使用set_ex方法可以設置新的緩存kv,get_ex則獲取指定key的緩存對象,如果key不存在或者已過期則返回notFound。
該LocalCache通過deque在達到maxlen時按先進先出的順序移除隊列元素,而一旦對象的所有強引用被移除後,WeakValueDictionary的特性則保證了對應對象的弱引用也會直接從dict中被移除出去,如此即實現了一個簡單的支持過期時間和最大緩存對象數量限制的本地cache。

LocalCache使用占用記憶體的錯誤評估

按照上面的LocalCache原則,理論上只要設置合理的過期時間與maxlen值應該可以保證其合理記憶體的合理使用,而這次新版本發佈新增了類似如下兩個個LocalCache:

id_local_cache0 = LocalCache(500000)
id_local_cache1 = LocalCache(500000)
id_local_cache0.set_ex('user_id_012345678901', 'display_id_ABCDEFGH', 1800)
id_local_cache1.set_ex('display_id_ABCDEFGH', 'user_id_012345678901', 1800)

如上定義了兩個50w大小的cache,其緩存的是業務內部使用的user_id到用戶app上可見的display_id的映射關係,該映射關係在用戶創建時即生成固定不變,可以設置較長期時間,如果同時有效的對象數超過的maxlen,這個LocalCache直接就等價於一個LRU了,對象釋放可以完全依賴deque的先進先出淘汰機制。
在最開始評估其占用記憶體時考慮了以下因素:

  1. 單個k、v對 user_id最多20位元組,display_id最多8位元組,加上要存入的過期時間float欄位8位元組,總大小20+8+8=36,加上一些額外花銷最多100位元組
  2. 最大50w限制記憶體占用: 500000 * 100/1024 = 47.6MB
  3. 線上api服務為uWSGI框架提供的多進程運行方式,單機4個worker進程,總占用記憶體: 47.6 * 4 = 190MB
  4. 兩個LcoalCache占用記憶體: 190MB * 2 = 380MB

按照這個計算一臺主機即便每個進程都緩存滿了50w對象,也就增加不到400MB記憶體占用,何況按照估算同時處於有效期內的緩存對象應該遠小於50w,所以剩餘記憶體應當完全是綽綽有餘的,然而這個評估值其實遠小於實際值。

LocalCache占用記憶體的正確評估

線上出現記憶體問題後,嘗試使用tracemalloc分析了線上服務的記憶體分配情況,發現很多記憶體都集中於LocalCache這塊,於是結合實際重新評估這個記憶體占用,發現了以下問題:

  1. str與float的記憶體占用評估錯誤,即便str本身len只有10個字元,其占用記憶體其實是遠大於10的,而float並不是占用8位元組而是24位元組,如下代碼可驗證:
In [20]: len('0123456789')
Out[20]: 10
In [21]: sys.getsizeof('0123456789')
Out[21]: 59
In [23]: sys.getsizeof(time.time())
Out[23]: 24
  1. 即便是一個空dict其占用記憶體也有64位元組,而如果存入kv後則更是急速膨脹為至少232:
In [24]: sys.getsizeof({})
Out[24]: 64
In [26]: sys.getsizeof({'result': {'user_id_012345678901': 'display_id_ABCDEFGH'}, 'expire': time.time()})
Out[26]: 232
  1. 無論過期時間設置長短,由於存入該cache的對象資源回收完全是依賴於deque對其存入強引用的移除進行--即便對象按照時間已經過期了,但是只要deque中還存有該對象,對象就不會被回收--所以最終cache中緩存的對象一定會達到設置的maxlen,占用其理論上可占用的最大記憶體。

綜合以上幾點,雖然開始設置的過期時間較短,LocalCache中同時有效的對象數遠小於50w,但最終LocalCache還是會存滿50w的對象,同時實測LocalCache中存入一個對象的平均記憶體大小在700~800位元組,這樣一評估,最終這兩個cache單主機上需要占用的最大且肯定會達到的記憶體大小變成了: 700 * 500000 * 4 * 2 / 1024/1024 = 2.67GB,是之前錯誤評估值的6倍==!這樣一算主機上的記憶體就不夠用了。

後續處理

結合實際正確評估記憶體占用後,總結以下LocalCache使用原則:

  1. maxlen的設置需根據實際數據情況設置為合理值--如最大可能同時有效對象數的1.1 ~ 2.0倍,防止大量過期對象長期占用記憶體而不釋放的情況,check後確認線上代碼就有好幾處maxlen大於其最大有效對象數5~10倍的LocalCache使用。
  2. 拆分大對象與小對象同時使用的cache,因為占用幾百位元組的小對象的maxlen設置為1千、1萬甚至10w都合理,但是對於占用幾MB設置十幾MB的對象,maxlen設置>100就已經可能占用掉大量記憶體了。

針對api服務使用的多處LocalCache按照以上原則進行優化後,其占用的總記憶體量下降了超過3GB。

總結

在初版評估cache記憶體占用時,用了想當然評估法,而沒有實測每個類型、對象的實際占用大小,導致評估值遠小於實際值。
對於LocalCache的對象回收原理未深度理解,一直想當然認為只要過了有效時間其對象即會被回收掉,沒有認識到其回收完全依賴於deque。
又一次想當然造成的問題。

轉載請註明出處,原文地址: https://www.cnblogs.com/AcAc-t/p/python_local_cache_usage.html

參考

https://docs.python.org/3.8/library/tracemalloc.html
https://www.cnblogs.com/AcAc-t/p/python_weakref_study.html
https://docs.python.org/3.8/library/collections.html#collections.deque
https://www.cnblogs.com/AcAc-t/p/python_local_cache_usage.html
https://docs.python.org/3.8/library/sys.html?highlight=getsizeof

簽名:擁抱開源,擁抱自由
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 基於傳統認知,前端產品直接觸達消費者,往往具有高度的定製化、需求變更頻繁等特點,要求具有很好的動態性, 能夠滿足不同客戶的需求。那麼能否建設類似的前端中台產品,我們姑且稱之為“前端領域產品”,實現接入團隊端到端能力復用呢?我們在撮合業務線中進行了一系列思考和探索。 ...
  • 1. 使用 defineStore 創建一個 store, 每個 store 要設置一個唯一 id; ```ts import { defineStore } from 'pinia' import { ref } from 'vue' // useStore 可以是 useUser、useCart ...
  • 通過這個示例,你將更深入地瞭解如何在實際業務中應用Flutter,以及如何運用不同的解決方案和技術來構建高效、穩定的應用。 ...
  • # el-autocomplete核心參數 可以實現非同步的數據拉取,從非同步返回的數據中,選擇需要的結果,並回顯到文本框中。 ## fetch-suggestions 回調列表,非同步的方式獲取數據列表,顯示在列表框中 ## @select 當選中某一項時,會觸發這個方法,將數據獲取到,這時,我們可以將 ...
  • # 核心原理 長鏈接轉為短鏈接的核心原理是: 將短鏈接與原始長鏈接做一個映射,訪問短鏈接的時候,通過重定向的方式轉到長鏈接。 # 應用場景 比如分享功能,查看分享信息的原始鏈接通常是很長的,直接發給用戶,體驗不是很好,這時候就可以將其映射為一個短鏈接再發給用戶。 又比如我們熟知的百度網盤分享文件,雖 ...
  • ##一、定義 **講一個複雜對象的構建與它的表示分離,使得同樣的構建過程可以創建不同的表示。建造者模式是一種創建型模式。** ##二、描述 **包含以下四個角色:** ![](https://img2023.cnblogs.com/blog/1780813/202305/1780813-202305 ...
  • 你想成為一名架構師,對嗎?別對我撒謊,我知道你想成為架構師。即使你不想,你還是想成為一名更好的開發者。否則,你就不會花時間閱讀這篇文章。 這種態度值得贊賞。畢竟,我們都希望在自己所從事的領域變得更好,即使不能稱為最好。我在這裡就是為了幫助你實現這一目標。 那麼,你如何成為一名架構師呢?當然是通過學習 ...
  • #### 本文為[李你幹嘛](https://www.cnblogs.com/liniganma)原創,轉載請註明出處:[Pybind11綁定C++抽象類(DLL介面)](https://www.cnblogs.com/liniganma/p/17666063.html) # 摘要 假設我們將DLL ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...