記一次 .NET某智慧出行系統 CPU爆高分析

来源:https://www.cnblogs.com/huangxincheng/p/18348453
-Advertisement-
Play Games

一:背景 1. 講故事 前些天有位朋友找到我,說他們的系統出現了CPU 100%的情況,讓我幫忙看一下怎麼回事?dump也拿到了,本想著這種情況讓他多抓幾個,既然有了就拿現有的分析吧。 二:WinDbg 分析 1. 為什麼會爆高 既然說是 100%,作為調試者得拿數據說話,可以使用 !tp 來觀測一 ...


一:背景

1. 講故事

前些天有位朋友找到我,說他們的系統出現了CPU 100%的情況,讓我幫忙看一下怎麼回事?dump也拿到了,本想著這種情況讓他多抓幾個,既然有了就拿現有的分析吧。

二:WinDbg 分析

1. 為什麼會爆高

既然說是 100%,作為調試者得拿數據說話,可以使用 !tp 來觀測一下。


0:000:x86> !tp
CPU utilization: 100%
Worker Thread: Total: 382 Running: 382 Idle: 0 MaxLimit: 8191 MinLimit: 8
Work Request in Queue: 8694
    Unknown Function: 6f62b650  Context: 4a36bbbc
    Unknown Function: 6f62b650  Context: 4a36e1d4
    Unknown Function: 6f62b650  Context: 4a372384
    Unknown Function: 6f62b650  Context: 239adfec
    Unknown Function: 6f62b650  Context: 4a374994
    Unknown Function: 6f62b650  Context: 239b9e14
    Unknown Function: 6f62b650  Context: 2399fd9c
    ...

從卦中看,不得了,CPU 100% 之外,所有的線程池線程全部被打滿,人生自古最忌滿,半貧半富半自安。同時線程池隊列還累計了8694個任務待處理,說明這時候的線程池已經全面淪陷,要想找到這個答案,需要用 ~*e !clrstack 命令觀察每一個線程此時正在做什麼,輸出如下:


0:000:x86> ~*e !clrstack
OS Thread Id: 0x22f4 (429)
Child SP       IP Call Site
4bc1e060 0000002b [GCFrame: 4bc1e060] 
4bc1e110 0000002b [HelperMethodFrame_1OBJ: 4bc1e110] System.Threading.Monitor.ObjWait(Boolean, Int32, System.Object)
4bc1e19c 24aad7da System.Threading.Monitor.Wait(System.Object, Int32, Boolean)
4bc1e1ac 2376f0d6 ServiceStack.Redis.PooledRedisClientManager.GetClient()
4bc1e1dc 2420bbc6 xxx.Service.CacheService.GetClient()
...
4bc1e234 24206fbe xxxBLL.GetxxxCount(System.Collections.Generic.Dictionary`2<System.String,System.Object>)
4bc1e3e0 216e25f9 DynamicClass.lambda_method(System.Runtime.CompilerServices.Closure, System.Web.Mvc.ControllerBase, System.Object[])
4bc1e3f0 238b86b7 System.Web.Mvc.ActionMethodDispatcher.Execute(System.Web.Mvc.ControllerBase, System.Object[])
...
4bc1eee0 2353d448 System.Web.Hosting.PipelineRuntime.ProcessRequestNotification(IntPtr, IntPtr, IntPtr, Int32)
4bc1efb8 00a9e3c2 [ContextTransitionFrame: 4bc1efb8] 

從卦中可以看到當前有 371個線程在 PooledRedisClientManager.GetClient 中的 Wait 上出不來,那為什麼出不來呢?

2. 探究源碼

要想找到這個答案,只能從源代碼中觀察,簡化後的代碼如下:


    public IRedisClient GetClient()
    {
        lock (writeClients)
        {
            AssertValidReadWritePool();
            RedisClient inActiveWriteClient;
            while ((inActiveWriteClient = GetInActiveWriteClient()) == null)
            {
                if (!Monitor.Wait(writeClients, PoolTimeout.Value))
                {
                    throw new TimeoutException("Redis Timeout expired. The timeout period elapsed prior to obtaining a connection from the pool. This may have occurred because all pooled connections were in use.");
                }
            }
        }
    }

    private RedisClient GetInActiveWriteClient()
    {
        int num = WritePoolIndex % writeClients.Length;
        for (int i = 0; i < ReadWriteHosts.Count; i++)
        {
            int num2 = (num + i) % ReadWriteHosts.Count;
            RedisEndPoint redisEndPoint = ReadWriteHosts[num2];
            for (int j = num2; j < writeClients.Length; j += ReadWriteHosts.Count)
            {
                if (writeClients[j] != null && !writeClients[j].Active && !writeClients[j].HadExceptions)
                {
                    return writeClients[j];
                }
            }
        }
        return null;
    }

仔細閱讀卦中代碼,之所以進入Wait主要是因為 GetInActiveWriteClient() 方法返回 null 所致,從異常信息看也知道此時是因為 writeClients 池已滿,那這個池是不是滿了呢?可以把 writeClients 數組挖出來,使用 !dso 命令。


0:429:x86> !dso
OS Thread Id: 0x22f4 (429)
ESP/REG  Object   Name
...
4BC1E0D0 0ea38d18 ServiceStack.Redis.RedisClient[]
4BC1E100 0ea38bb0 ServiceStack.Redis.PooledRedisClientManager
...

0:429:x86> !da 0ea38d18
Name:        ServiceStack.Redis.RedisClient[]
MethodTable: 237af1c0
EEClass:     0129a224
Size:        52(0x34) bytes
Array:       Rank 1, Number of elements 10, Type CLASS
Element Methodtable: 237ae954
[0] 0ea38dd4
[1] 0a9f9f58
[2] 0296e468
[3] 0c9786a0
[4] 0a9fe768
[5] 04a21f24
[6] 0aa0d758
[7] 10946d90
[8] 04a8c8b0
[9] 02a2a2a0

0:429:x86> !DumpObj /d 0ea38dd4
Name:        ServiceStack.Redis.RedisClient
MethodTable: 237ae954
EEClass:     2375d154
Size:        152(0x98) bytes
File:        C:\Windows\xxx\ServiceStack.Redis.dll
Fields:
...
0129aa48  4000169       7d       System.Boolean  1 instance        1 <Active>k__BackingField
...

從卦中看 writeClients 池只有10個大小,並且都是 Active=1,所以返回 null 就不足為奇了。

3. 為什麼client都在使用中呢

要想找到這個答案,需要看下上層的 xxxBLL.GetxxxCount 方法是如何調用的,為了保護隱私,就多模糊一點。

從圖中可以看到,問題出在用 foreach 去不斷的迭代 ServiceStack.Redis 導致 writeClient 池耗盡,導致大量的請求在不斷的阻塞,不要忘了這裡有371個線程在爭搶哦,真是大忌。

接下來順帶洞察下這個 foreach 要 foreach 多少次? 繼續用 !dso 去挖。


0:429:x86> !DumpObj /d 077cec20
Name:        System.Collections.Generic.List`1[[xxxInfo, xxx]]
MethodTable: 241ad794
EEClass:     0193166c
Size:        24(0x18) bytes
File:        C:\Windows\Microsoft.Net\assembly\GAC_32\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:
      MT    Field   Offset                 Type VT     Attr    Value Name
01860eec  4001891        4     System.__Canon[]  0 instance 077e0048 _items
0129c9b0  4001892        c         System.Int32  1 instance      307 _size
0129c9b0  4001893       10         System.Int32  1 instance      307 _version
01296780  4001894        8        System.Object  0 instance 00000000 _syncRoot
01860eec  4001895        4     System.__Canon[]  0   static  <no information>

從卦中看當前需要迴圈307次,也就再次驗證了池耗盡的說法,我知道心細的朋友肯定會說,卡死這個我認,但能導致 CPU爆高 我就不能理解了,其實你仔細閱讀源碼就能理解了,這是經典的 鎖護送(lock convoy) 現象,因為滿足如下兩個條件。

  1. 多線程的 foreach 高頻調用。
  2. Wait 導致線程暫停進入等待隊列。

4. 如何解決這個問題

知道了前因後果,解決起來就比較簡單了,三種做法:

  1. 將 foreach 迭代 改成 批量化處理,減少對 writeclient 的租用。
  2. 增加 writeclient 的池大小,官網有所介紹。
  3. ServiceStack.Redis 的版本非常老,又是收費的,最好換掉已除後患。

三:總結

這次生產事故分析還是非常有意思的,一個看似阻塞的問題也會引發CPU爆高,超出了一些人的認知吧,對,其實它就是經典的 lock convoy 現象,大家有任何dump問題可以找我,一如既往的免費分析。

圖片名稱
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 首先看一下效果: 任意控制項可以附加一個文字在控制項的右上角,並帶有紅色背景 第一步,新建一個空的wpf項目: 第二步,創建一個類,取名為badge: 第三步,將badge的父類設置成 System.Windows.Documents.Adorner public class Badge : Adorn ...
  • Aspire8一文通 0、簡介 微軟Aspire是微軟今年推出的一個全新的平臺無關、語言無關的新框架,它的設計目的是簡化雲原生應用的開發、部署和管理過程。Aspire的讀音是[əˈspaɪər],它的意思是渴望(成就);有志(成為),利用它你可以構建新應用程式或將雲原生功能添加到現有的應用程式,或者 ...
  • 前言 在物聯網(IoT)和工業自動化領域,邊緣計算設備扮演著至關重要的角色。邊緣採集網關作為連接物理世界與數字世界的橋梁,負責收集感測器數據並將數據傳輸到雲端或本地數據中心進行處理。 本文將介紹一款基於 .NET 8 的跨平臺高性能邊緣採集網關的開源項目。希望通過這個項目能夠幫助大家搭建和部署高效的 ...
  • 引言 最近在做的項目上做了一些性能優化的工作,用到了 Visual Studio 遠程調試,所以本篇文章整理一下遠程調試技巧。 首先,瞭解一下 Visual Studio遠程調試是什麼? Visual Studio 的遠程調試功能允許在本地調試遠程電腦上運行的應用程式。用遠程調試,可以在本地電腦 ...
  • 視窗/屏幕截圖適用於截圖、批註等工具場景,時時獲取視窗/屏幕圖像數據流呢,下麵講下視頻會議共用桌面、遠程桌面這些場景是如何實現畫面錄製的。 常見的屏幕畫面時時採集方案,主要有GDI、WGC、DXGI。 GDI GDI(Graphics Device Interface)就是使用user32下Wind ...
  • 前言 基於 .NET 8 的開源項目,主要使用 WebAPI + Blazor 支持多租戶和模塊化設計,DDD構建。可以幫助我們輕鬆地搭建起一個功能完善的Web應用程式。除了幫助你快速構建應用程式之外,項目也可以當做學習資料。我們可以從中瞭解到多租戶、CQRS、DDD架構、雲部署、Docker容器化 ...
  • 一:背景 1. 講故事 前些天有位朋友找到我,說他們的程式崩潰了,也自己分析了下初步結果,讓我幫忙再確認下,既然讓我確認,那就開始dump分析之旅吧。 二:WinDbg 分析 1. 為什麼會崩潰 windbg 有一個強大之處就是帶有一個自動化的分析命令 !analyze -v 可以幫助我們快速的分析 ...
  • 前言 WaterCloud 是一個集成了 LayUI 的高效敏捷開發框架,專為 .NET 開發者設計。 它不僅支持多種 .NET 版本(.NET 4.5、.NET Core 3.1、.NET 5、.NET 6),還內置了豐富的功能,如許可權管理、流程表單設計以及多資料庫支持下的多租戶架構。使用了 OR ...
一周排行
    -Advertisement-
    Play Games
  • 前言 推薦一款基於.NET 8、WPF、Prism.DryIoc、MVVM設計模式、Blazor以及MySQL資料庫構建的企業級工作流系統的WPF客戶端框架-AIStudio.Wpf.AClient 6.0。 項目介紹 框架採用了 Prism 框架來實現 MVVM 模式,不僅簡化了 MVVM 的典型 ...
  • 先看一下效果吧: 我們直接通過改造一下原版的TreeView來實現上面這個效果 我們先創建一個普通的TreeView 代碼很簡單: <TreeView> <TreeViewItem Header="人事部"/> <TreeViewItem Header="技術部"> <TreeViewItem He ...
  • 1. 生成式 AI 簡介 https://imp.i384100.net/LXYmq3 2. Python 語言 https://imp.i384100.net/5gmXXo 3. 統計和 R https://youtu.be/ANMuuq502rE?si=hw9GT6JVzMhRvBbF 4. 數 ...
  • 本文為大家介紹下.NET解壓/壓縮zip文件。雖然解壓縮不是啥核心技術,但壓縮性能以及進度處理還是需要關註下,針對使用較多的zip開源組件驗證,給大家提供個技術選型參考 之前在《.NET WebSocket高併發通信阻塞問題 - 唐宋元明清2188 - 博客園 (cnblogs.com)》講過,團隊 ...
  • 之前寫過兩篇關於Roslyn源生成器生成源代碼的用例,今天使用Roslyn的代碼修複器CodeFixProvider實現一個cs文件頭部註釋的功能, 代碼修複器會同時涉及到CodeFixProvider和DiagnosticAnalyzer, 實現FileHeaderAnalyzer 首先我們知道修 ...
  • 在軟體行業,經常會聽到一句話“文不如表,表不如圖”說明瞭圖形在軟體應用中的重要性。同樣在WPF開發中,為了程式美觀或者業務需要,經常會用到各種個樣的圖形。今天以一些簡單的小例子,簡述WPF開發中幾何圖形(Geometry)相關內容,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 在 C# 中使用 RabbitMQ 通過簡訊發送重置後的密碼到用戶的手機號上,你可以按照以下步驟進行 1.安裝 RabbitMQ 客戶端庫 首先,確保你已經安裝了 RabbitMQ 客戶端庫。你可以通過 NuGet 包管理器來安裝: dotnet add package RabbitMQ.Clien ...
  • 1.下載 Protocol Buffers 編譯器(protoc) 前往 Protocol Buffers GitHub Releases 頁面。在 "Assets" 下找到適合您系統的壓縮文件,通常為 protoc-{version}-win32.zip 或 protoc-{version}-wi ...
  • 簡介 在現代微服務架構中,服務發現(Service Discovery)是一項關鍵功能。它允許微服務動態地找到彼此,而無需依賴硬編碼的地址。以前如果你搜 .NET Service Discovery,大概率會搜到一大堆 Eureka,Consul 等的文章。現在微軟為我們帶來了一個官方的包:Micr ...
  • ZY樹洞 前言 ZY樹洞是一個基於.NET Core開發的簡單的評論系統,主要用於大家分享自己心中的感悟、經驗、心得、想法等。 好了,不賣關子了,這個項目其實是上班無聊的時候寫的,為什麼要寫這個項目呢?因為我單純的想吐槽一下工作中的不滿而已。 項目介紹 項目很簡單,主要功能就是提供一個簡單的評論系統 ...