記一次 .NET某游戲幣自助機後端 記憶體暴漲分析

来源:https://www.cnblogs.com/huangxincheng/p/18243233
-Advertisement-
Play Games

一:背景 1. 講故事 前些天有位朋友找到我,說他們的程式記憶體會偶發性暴漲,自己分析了下是非托管記憶體問題,讓我幫忙看下怎麼回事?哈哈,看到這個dump我還是非常有興趣的,居然還有這種游戲幣自助機類型的程式,下次去大玩家看看他們出幣的機器後端是不是C#寫的?由於dump是linux上的程式,剛好win ...


一:背景

1. 講故事

前些天有位朋友找到我,說他們的程式記憶體會偶發性暴漲,自己分析了下是非托管記憶體問題,讓我幫忙看下怎麼回事?哈哈,看到這個dump我還是非常有興趣的,居然還有這種游戲幣自助機類型的程式,下次去大玩家看看他們出幣的機器後端是不是C#寫的?由於dump是linux上的程式,剛好windbg可以全平臺分析,太爽了,直接用windbg開乾吧。

二:WinDbg 分析

1. 到底是哪裡的泄漏

在 windows 平臺上相信有很多朋友都知道用 !address -summary 命令看,但這是專屬於windows平臺的命令,在分析linux上的dump不好使,參考如下輸出:


0:000> !address -summary

--- Usage Summary ---------------- RgnCount ----------- Total Size -------- %ofBusy %ofTotal
<unknown>                              1685     7ffc`d6725c00 ( 127.988 TB) 100.00%  100.00%
Image                                  7102        0`0b524400 ( 181.142 MB)   0.00%    0.00%

--- Type Summary (for busy) ------ RgnCount ----------- Total Size -------- %ofBusy %ofTotal
                                       2248     7ffc`02549000 ( 127.984 TB)          100.00%
MEM_PRIVATE                            6539        0`df701000 (   3.491 GB)   0.00%    0.00%

--- State Summary ---------------- RgnCount ----------- Total Size -------- %ofBusy %ofTotal
                                       2248     7ffc`02549000 ( 127.984 TB) 100.00%  100.00%
MEM_COMMIT                             6539        0`df701000 (   3.491 GB)   0.00%    0.00%

--- Protect Summary (for commit) - RgnCount ----------- Total Size -------- %ofBusy %ofTotal
PAGE_READWRITE                         2099        0`dd75e000 (   3.460 GB)   0.00%    0.00%
PAGE_EXECUTE_WRITECOPY                   33        0`00d4c000 (  13.297 MB)   0.00%    0.00%
PAGE_READONLY                          2736        0`00b01000 (  11.004 MB)   0.00%    0.00%
PAGE_EXECUTE_READ                      1671        0`00756000 (   7.336 MB)   0.00%    0.00%

--- Largest Region by Usage ----------- Base Address -------- Region Size ----------
<unknown>                                 0`00000000     55cb`2dc3b000 (  85.794 TB)
Image                                  7f71`9dbdd000        0`01b16000 (  27.086 MB)

卦中的記憶體段分類用處不大,也沒有多大的參考價值,那怎麼辦呢?其實 coreclr 團隊也考慮到了這個情況,它提供了一個 maddress 命令來實現跨平臺的 !address,更改後輸出如下:


0:000> !sos maddress
Enumerating and tagging the entire address space and caching the result...
Subsequent runs of this command should be faster.
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
 | Memory Kind            |        StartAddr |        EndAddr-1 |         Size | Type        | State       | Protect                | Image                                                             | 
 +------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 
 | Stack                  |     7f6e356ec000 |     7f6e35eec000 |       8.00mb | MEM_PRIVATE | MEM_COMMIT  | PAGE_READWRITE         |                                                                   | 
 | Stack                  |     7f6e35eed000 |     7f6e366ed000 |       8.00mb | MEM_PRIVATE | MEM_COMMIT  | PAGE_READWRITE         |                                                                   | 
 | Stack                  |     7f6e366ee000 |     7f6e36eee000 |       8.00mb | MEM_PRIVATE | MEM_COMMIT  | PAGE_READWRITE         |                                                                   | 
 | Stack                  |     7f6e36eef000 |     7f6e376ef000 |       8.00mb | MEM_PRIVATE | MEM_COMMIT  | PAGE_READWRITE         |                                                                   | 
 ...
 +-------------------------------------------------------------------------+ 
 | Memory Type            |          Count |         Size |   Size (bytes) | 
 +-------------------------------------------------------------------------+ 
 | Stack                  |            423 |       3.29gb |  3,528,859,648 | 
 | Image                  |          7,102 |     181.14mb |    189,940,736 | 
 | PAGE_READWRITE         |            206 |      89.18mb |     93,511,680 | 
 | GCHeap                 |              3 |      37.75mb |     39,587,840 | 
 | HighFrequencyHeap      |            395 |      24.66mb |     25,858,048 | 
 | LowFrequencyHeap       |            316 |      22.20mb |     23,277,568 | 
 | LoaderCodeHeap         |             13 |      17.00mb |     17,825,792 | 
 | ResolveHeap            |              2 |     732.00kb |        749,568 | 
 | HostCodeHeap           |              8 |     668.00kb |        684,032 | 
 | DispatchHeap           |              1 |     196.00kb |        200,704 | 
 | PAGE_EXECUTE_WRITECOPY |              6 |     184.00kb |        188,416 | 
 | CacheEntryHeap         |              3 |     164.00kb |        167,936 | 
 | IndirectionCellHeap    |              3 |     152.00kb |        155,648 | 
 | LookupHeap             |              3 |     144.00kb |        147,456 | 
 | StubHeap               |              2 |      76.00kb |         77,824 | 
 | PAGE_EXECUTE_READ      |              1 |       4.00kb |          4,096 | 
 +-------------------------------------------------------------------------+ 
 | [TOTAL]                |          8,487 |       3.65gb |  3,921,236,992 | 
 +-------------------------------------------------------------------------+ 

從卦中可以看到當前程式總計 3.65G 記憶體占用,基本上都被線程棧給吃掉了,更讓人意想不到的是這個線程棧居然占用 8M 的記憶體空間,這個著實有點大了,而且 linux 不像 windows 有一個 reserved 的概念,這裡的 8M 是實實在在的預占,可以觀察這 8M 的記憶體地址即可,都是初始化的 0, 這就說不過去了。


0:000> dp 7f6e356ec000 7f6e35eec000
00007f6e`356ec000  00000000`00000000 00000000`00000000
...
00007f6e`35eebfc0  00000000`00000000 00000000`00000000
00007f6e`35eebfd0  00000000`00000000 00000000`00000000
00007f6e`35eebfe0  00000000`00000000 00000000`00000000
00007f6e`35eebff0  00000000`00000000 00000000`00000000

2. 如何修改棧空間大小

一般來說不同的操作系統發行版有不同的預設棧空間配置,可以先到記憶體搜一下當前是哪一個發行版,做法就是搜索操作系統名稱主要關鍵字。


0:000> s-a 0 L?0xffffffffffffffff "centos"
...
000055cb`2ecf08c8  63 65 6e 74 6f 73 2e 37-2d 78 36 34 00 00 00 00  centos.7-x64....
...

從卦中可以看到當前操作系統是 centos7-x64,在 windows 平臺上修改棧空間大小可以修改 PE 頭,在 linux 上有兩種做法。

  • 修改 ulimit -s 參數

root@ubuntu:/data# ulimit -s
8192
root@ubuntu:/data# ulimit -s 2048
root@ubuntu:/data# ulimit -s
2048

  • 修改 DOTNET_DefaultStackSize 環境變數

DOTNET_DefaultStackSize=180000

更多可以參考文章: https://www.alexander-koepke.de/post/2023-10-18-til-dotnet-stack-size/

上面是解決問題的第一個方向,接下來我們說另一個方向,為什麼會產生總計 423 個線程呢?

3. 為什麼會有那麼多線程

要找到這個答案,需要去看每一個線程此時都在幹嘛,這個可以使用 windbg 專屬命令。


0:000> ~*e !clrstack
...
OS Thread Id: 0x4e (24)
        Child SP               IP Call Site
00007F70B20FC4B0 00007f71a4131ad8 [InlinedCallFrame: 00007f70b20fc4b0] /app/Confluent.Kafka.dll!Unknown
00007F70B20FC4B0 00007f7130299970 [InlinedCallFrame: 00007f70b20fc4b0] /app/Confluent.Kafka.dll!Unknown
00007F70B20FC4A0 00007f7130299970 ILStubClass.IL_STUB_PInvoke(IntPtr, IntPtr)
00007F70B20FC530 00007f7130309fab /app/Confluent.Kafka.dll!Unknown
00007F70B20FC880 00007f7131c5a75d /app/Confluent.Kafka.dll!Unknown
00007F70B20FC8A0 00007f7130303ebe /app/DotNetCore.CAP.Kafka.dll!Unknown
00007F70B20FC980 00007f71302f4854 /app/DotNetCore.CAP.dll!Unknown
00007F70B20FCA50 00007f7129b187f4 System.Threading.Tasks.Task.InnerInvoke() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/Tasks/Task.cs @ 2387]
00007F70B20FCA70 00007f7129b1d316 System.Threading.Tasks.Task+c.<.cctor>b__272_0(System.Object) [/_/src/libraries/System.Private.CoreLib/src/System/Threading/Tasks/Task.cs @ 2375]
00007F70B20FCA80 00007f7129b03d6b System.Threading.ExecutionContext.RunInternal(System.Threading.ExecutionContext, System.Threading.ContextCallback, System.Object) [/_/src/libraries/System.Private.CoreLib/src/System/Threading/ExecutionContext.cs @ 183]
00007F70B20FCAD0 00007f7129b18524 System.Threading.Tasks.Task.ExecuteWithThreadLocal(System.Threading.Tasks.Task ByRef, System.Threading.Thread) [/_/src/libraries/System.Private.CoreLib/src/System/Threading/Tasks/Task.cs @ 2333]
00007F70B20FCB50 00007f7129b18418 System.Threading.Tasks.Task.ExecuteEntryUnsafe(System.Threading.Thread) [/_/src/libraries/System.Private.CoreLib/src/System/Threading/Tasks/Task.cs @ 2271]
00007F70B20FCB70 00007f7129b21a67 System.Threading.Tasks.ThreadPoolTaskScheduler+c.<.cctor>b__10_0(System.Object) [/_/src/libraries/System.Private.CoreLib/src/System/Threading/Tasks/ThreadPoolTaskScheduler.cs @ 35]
00007F70B20FCB80 00007f7129af88c2 System.Threading.Thread.StartCallback() [/_/src/coreclr/System.Private.CoreLib/src/System/Threading/Thread.CoreCLR.cs @ 105]
00007F70B20FCCF0 00007f71a37ab9c7 [DebuggerU2MCatchHandlerFrame: 00007f70b20fccf0] 
...

從卦中數據看有很多的 Unknown,說明dump取得不好,可能不是用正規的 dotnet-dump 或者 procdump,但不管怎麼說,還是可以看到大量的和 Kafka 有關的鏈接庫,並且從 InnerInvoke 這個執行 m_action 來看,應該是有大量線程卡在 Kafka 中的某個函數上。

有了這些知識,最後給到朋友的建議如下:

  • 修改 DOTNET_DefaultStackSize 參數

可以仿照 windows 上的 .netcore 預設 1.5M 的棧空間設置,因為8M真的太大了,扛不住,也和 Linux 的低記憶體使用不符。

  • 觀察 Kafka 的相關邏輯

畢竟有大量線程在 Kafka 的等待上,個人覺得可能是訂閱線程太多,或者什麼業務執行時間長導致的線程饑餓,儘量把線程壓下去。

三:總結

Linux 上的 .NET 調試生態在日漸豐富,這是一件讓人很興奮的事情,最後再給 WinDbg 點個贊,它不僅可以全平臺dump分析,還可以實時調試 Linux 進程,現如今的WinDbg真的是神一般的存在。
圖片名稱


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在處理PDF文件時,我們可能會遇到這樣的情況:原始PDF文檔不符合我們的閱讀習慣,或者需要適配不同顯示設備等。這時,我們就需要及時調整PDF文檔中的頁面尺寸,以滿足不同應用場景的需求。 利用Python語言的高效性和靈活性,再結合Spire.PDF for Python 庫的強大功能,我們可以通過P ...
  • 最近以來,我在力扣上堅持完成每天一題,今天系統推的題目為《甲板上的戰艦》,在此記錄一下。 題目描述如下: 給你一個大小為 m x n 的矩陣 board 表示甲板,其中,每個單元格可以是一艘戰艦 'X' 或者是一個空位 '.' ,返回在甲板 board 上放置的 戰艦 的數量。 戰艦 只能水平或者垂 ...
  • 正文 所有鋼筆墨水都寫完了,今天先用簽字筆吧,懶得打墨水了。 這貨跟我搶被子,我沒搶贏…… 本來空調被就薄,一個人很容易就全捲上跑了。於是我半夜冷醒好多次,每次半夢半醒都要把自己的衣服下擺往下拉。這樣感覺才會好一些。 這弔人還嘲笑我搶不過,媽耶。於是早上非常困。跟他一起到了他的值班室,他開始玩植物大 ...
  • 你應如何運行程式 互動式命令模式 開始一個互動式會話 一般是在操作系統命令行下輸入python,且不帶任何參數 系統路徑 如果沒有設置系統的PATH環境變數來包括Python的安裝路徑,可能需要機器上Python可執行文件的完整路徑來代替python 運行的位置:代碼位置 不要輸入的內容:提示符和註 ...
  • 引入依賴 <!--Freemarker wls--> <dependency> <groupId>org.freemarker</groupId> <artifactId>freemarker</artifactId> <version>2.3.30</version> </dependency> ...
  • 大家好,我是R哥。 今天分享一個爽飛了的面試輔導 case: 這個杭州兄弟空窗期 1 個月+,面試了 6 家公司 0 Offer,不知道問題出在哪,難道是杭州的 IT 崩盤了麽? 報名面試輔導後,經過一個多月的輔導打磨,現在成功入職某上市公司,漲薪 30%+,955 工作制,不咋加班,還不捲。 其他 ...
  • 上一次的介紹,主要圍繞如何統一去捕獲異常,以及為每一種異常添加自己的Mapper實現,並且我們知道,當在ExceptionMapper中返回非200的Response,不支持application/json的響應類型,而是寫死的text/plain類型。 Filter為二方包異常手動捕獲 參考:ht ...
  • 前言 大家好,我是老馬。很高興遇到你。 我們為 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的,可以參考我的另一個項目: 手寫從零實現簡易版 tomcat minicat 手寫 ngin ...
一周排行
    -Advertisement-
    Play Games
  • PasteSpider是什麼? 一款使用.net編寫的開源的Linux容器部署助手,支持一鍵發佈,平滑升級,自動伸縮, Key-Value配置,項目網關,環境隔離,運行報表,差量升級,私有倉庫,集群部署,版本管理等! 30分鐘上手,讓開發也可以很容易的學會在linux上部署你得項目! [從需求角度介 ...
  • SQLSugar是什麼 **1. 輕量級ORM框架,專為.NET CORE開發人員設計,它提供了簡單、高效的方式來處理資料庫操作,使開發人員能夠更輕鬆地與資料庫進行交互 2. 簡化資料庫操作和數據訪問,允許開發人員在C#代碼中直接操作資料庫,而不需要編寫複雜的SQL語句 3. 支持多種資料庫,包括但 ...
  • 在C#中,經常會有一些耗時較長的CPU密集型運算,因為如果直接在UI線程執行這樣的運算就會出現UI不響應的問題。解決這類問題的主要途徑是使用多線程,啟動一個後臺線程,把運算操作放在這個後臺線程中完成。但是原生介面的線程操作有一些難度,如果要更進一步的去完成線程間的通訊就會難上加難。 因此,.NET類 ...
  • 一:背景 1. 講故事 前些天有位朋友在微信上丟了一個崩潰的dump給我,讓我幫忙看下為什麼出現了崩潰,在 Windows 的事件查看器上顯示的是經典的 訪問違例 ,即 c0000005 錯誤碼,不管怎麼說有dump就可以上windbg開幹了。 二:WinDbg 分析 1. 程式為誰崩潰了 在 Wi ...
  • CSharpe中的IO+NPOI+序列化 文件文件夾操作 學習一下常見的文件、文件夾的操作。 什麼是IO流? I:就是input O:就是output,故稱:輸入輸出流 將數據讀入記憶體或者記憶體輸出的過程。 常見的IO流操作,一般說的是[記憶體]與[磁碟]之間的輸入輸出。 作用 持久化數據,保證數據不再 ...
  • C#.NET與JAVA互通之MD5哈希V2024 配套視頻: 要點: 1.計算MD5時,SDK自帶的計算哈希(ComputeHash)方法,輸入輸出參數都是byte數組。就涉及到字元串轉byte數組轉換時,編碼選擇的問題。 2.輸入參數,字元串轉byte數組時,編碼雙方要統一,一般為:UTF-8。 ...
  • CodeWF.EventBus,一款靈活的事件匯流排庫,實現模塊間解耦通信。支持多種.NET項目類型,如WPF、WinForms、ASP.NET Core等。採用簡潔設計,輕鬆實現事件的發佈與訂閱。通過有序的消息處理,確保事件得到妥善處理。簡化您的代碼,提升系統可維護性。 ...
  • 一、基本的.NET框架概念 .NET框架是一個由微軟開發的軟體開發平臺,它提供了一個運行時環境(CLR - Common Language Runtime)和一套豐富的類庫(FCL - Framework Class Library)。CLR負責管理代碼的執行,而FCL則提供了大量預先編寫好的代碼, ...
  • 本章將和大家分享在ASP.NET Core中如何使用高級客戶端NEST來操作我們的Elasticsearch。 NEST是一個高級別的Elasticsearch .NET客戶端,它仍然非常接近原始Elasticsearch API的映射。所有的請求和響應都是通過類型來暴露的,這使得它非常適合快速上手 ...
  • 參考delphi的代碼更改為C# Delphi 檢測密碼強度 規則(仿 google) 仿 google 評分規則 一、密碼長度: 5 分: 小於等於 4 個字元 10 分: 5 到 7 字元 25 分: 大於等於 8 個字元 二、字母: 0 分: 沒有字母 10 分: 全都是小(大)寫字母 20 ...