記一次 .NET某智慧出行系統 CPU爆高分析

-Advertisement-

一：背景 1. 講故事前些天有位朋友找到我，說他們的系統出現了CPU 100%的情況，讓我幫忙看一下怎麼回事？dump也拿到了，本想著這種情況讓他多抓幾個，既然有了就拿現有的分析吧。二：WinDbg 分析 1. 為什麼會爆高既然說是 100%，作為調試者得拿數據說話，可以使用 !tp 來觀測一 ...

一：背景

1. 講故事

前些天有位朋友找到我，說他們的系統出現了CPU 100%的情況，讓我幫忙看一下怎麼回事？dump也拿到了，本想著這種情況讓他多抓幾個，既然有了就拿現有的分析吧。

二：WinDbg 分析

1. 為什麼會爆高

既然說是 100%，作為調試者得拿數據說話，可以使用 !tp 來觀測一下。


0:000:x86> !tp
CPU utilization: 100%
Worker Thread: Total: 382 Running: 382 Idle: 0 MaxLimit: 8191 MinLimit: 8
Work Request in Queue: 8694
    Unknown Function: 6f62b650  Context: 4a36bbbc
    Unknown Function: 6f62b650  Context: 4a36e1d4
    Unknown Function: 6f62b650  Context: 4a372384
    Unknown Function: 6f62b650  Context: 239adfec
    Unknown Function: 6f62b650  Context: 4a374994
    Unknown Function: 6f62b650  Context: 239b9e14
    Unknown Function: 6f62b650  Context: 2399fd9c
    ...

從卦中看,不得了，CPU 100% 之外,所有的線程池線程全部被打滿，人生自古最忌滿，半貧半富半自安。同時線程池隊列還累計了8694個任務待處理，說明這時候的線程池已經全面淪陷，要想找到這個答案，需要用 ~*e !clrstack 命令觀察每一個線程此時正在做什麼，輸出如下：


0:000:x86> ~*e !clrstack
OS Thread Id: 0x22f4 (429)
Child SP       IP Call Site
4bc1e060 0000002b [GCFrame: 4bc1e060] 
4bc1e110 0000002b [HelperMethodFrame_1OBJ: 4bc1e110] System.Threading.Monitor.ObjWait(Boolean, Int32, System.Object)
4bc1e19c 24aad7da System.Threading.Monitor.Wait(System.Object, Int32, Boolean)
4bc1e1ac 2376f0d6 ServiceStack.Redis.PooledRedisClientManager.GetClient()
4bc1e1dc 2420bbc6 xxx.Service.CacheService.GetClient()
...
4bc1e234 24206fbe xxxBLL.GetxxxCount(System.Collections.Generic.Dictionary`2<System.String,System.Object>)
4bc1e3e0 216e25f9 DynamicClass.lambda_method(System.Runtime.CompilerServices.Closure, System.Web.Mvc.ControllerBase, System.Object[])
4bc1e3f0 238b86b7 System.Web.Mvc.ActionMethodDispatcher.Execute(System.Web.Mvc.ControllerBase, System.Object[])
...
4bc1eee0 2353d448 System.Web.Hosting.PipelineRuntime.ProcessRequestNotification(IntPtr, IntPtr, IntPtr, Int32)
4bc1efb8 00a9e3c2 [ContextTransitionFrame: 4bc1efb8]

從卦中可以看到當前有 371個線程在 PooledRedisClientManager.GetClient 中的 Wait 上出不來，那為什麼出不來呢？

2. 探究源碼

要想找到這個答案，只能從源代碼中觀察，簡化後的代碼如下：


    public IRedisClient GetClient()
    {
        lock (writeClients)
        {
            AssertValidReadWritePool();
            RedisClient inActiveWriteClient;
            while ((inActiveWriteClient = GetInActiveWriteClient()) == null)
            {
                if (!Monitor.Wait(writeClients, PoolTimeout.Value))
                {
                    throw new TimeoutException("Redis Timeout expired. The timeout period elapsed prior to obtaining a connection from the pool. This may have occurred because all pooled connections were in use.");
                }
            }
        }
    }

    private RedisClient GetInActiveWriteClient()
    {
        int num = WritePoolIndex % writeClients.Length;
        for (int i = 0; i < ReadWriteHosts.Count; i++)
        {
            int num2 = (num + i) % ReadWriteHosts.Count;
            RedisEndPoint redisEndPoint = ReadWriteHosts[num2];
            for (int j = num2; j < writeClients.Length; j += ReadWriteHosts.Count)
            {
                if (writeClients[j] != null && !writeClients[j].Active && !writeClients[j].HadExceptions)
                {
                    return writeClients[j];
                }
            }
        }
        return null;
    }

仔細閱讀卦中代碼，之所以進入Wait主要是因為 GetInActiveWriteClient() 方法返回 null 所致，從異常信息看也知道此時是因為 writeClients 池已滿，那這個池是不是滿了呢？可以把 writeClients 數組挖出來，使用 !dso 命令。


0:429:x86> !dso
OS Thread Id: 0x22f4 (429)
ESP/REG  Object   Name
...
4BC1E0D0 0ea38d18 ServiceStack.Redis.RedisClient[]
4BC1E100 0ea38bb0 ServiceStack.Redis.PooledRedisClientManager
...

0:429:x86> !da 0ea38d18
Name:        ServiceStack.Redis.RedisClient[]
MethodTable: 237af1c0
EEClass:     0129a224
Size:        52(0x34) bytes
Array:       Rank 1, Number of elements 10, Type CLASS
Element Methodtable: 237ae954
[0] 0ea38dd4
[1] 0a9f9f58
[2] 0296e468
[3] 0c9786a0
[4] 0a9fe768
[5] 04a21f24
[6] 0aa0d758
[7] 10946d90
[8] 04a8c8b0
[9] 02a2a2a0

0:429:x86> !DumpObj /d 0ea38dd4
Name:        ServiceStack.Redis.RedisClient
MethodTable: 237ae954
EEClass:     2375d154
Size:        152(0x98) bytes
File:        C:\Windows\xxx\ServiceStack.Redis.dll
Fields:
...
0129aa48  4000169       7d       System.Boolean  1 instance        1 <Active>k__BackingField
...

從卦中看 writeClients 池只有10個大小，並且都是 Active=1，所以返回 null 就不足為奇了。

3. 為什麼client都在使用中呢

要想找到這個答案，需要看下上層的 xxxBLL.GetxxxCount 方法是如何調用的，為了保護隱私，就多模糊一點。

從圖中可以看到，問題出在用 foreach 去不斷的迭代 ServiceStack.Redis 導致 writeClient 池耗盡，導致大量的請求在不斷的阻塞，不要忘了這裡有371個線程在爭搶哦，真是大忌。

接下來順帶洞察下這個 foreach 要 foreach 多少次？繼續用 !dso 去挖。


0:429:x86> !DumpObj /d 077cec20
Name:        System.Collections.Generic.List`1[[xxxInfo, xxx]]
MethodTable: 241ad794
EEClass:     0193166c
Size:        24(0x18) bytes
File:        C:\Windows\Microsoft.Net\assembly\GAC_32\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:
      MT    Field   Offset                 Type VT     Attr    Value Name
01860eec  4001891        4     System.__Canon[]  0 instance 077e0048 _items
0129c9b0  4001892        c         System.Int32  1 instance      307 _size
0129c9b0  4001893       10         System.Int32  1 instance      307 _version
01296780  4001894        8        System.Object  0 instance 00000000 _syncRoot
01860eec  4001895        4     System.__Canon[]  0   static  <no information>

從卦中看當前需要迴圈307次，也就再次驗證了池耗盡的說法，我知道心細的朋友肯定會說，卡死這個我認，但能導致 CPU爆高我就不能理解了，其實你仔細閱讀源碼就能理解了，這是經典的 鎖護送(lock convoy) 現象，因為滿足如下兩個條件。

多線程的 foreach 高頻調用。
Wait 導致線程暫停進入等待隊列。

4. 如何解決這個問題

知道了前因後果，解決起來就比較簡單了，三種做法：

將 foreach 迭代改成批量化處理，減少對 writeclient 的租用。
增加 writeclient 的池大小，官網有所介紹。
ServiceStack.Redis 的版本非常老，又是收費的，最好換掉已除後患。

三：總結

這次生產事故分析還是非常有意思的，一個看似阻塞的問題也會引發CPU爆高，超出了一些人的認知吧，對，其實它就是經典的 lock convoy 現象，大家有任何dump問題可以找我，一如既往的免費分析。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

wpf 如何7步寫一個badge控制項

首先看一下效果: 任意控制項可以附加一個文字在控制項的右上角，並帶有紅色背景第一步，新建一個空的wpf項目: 第二步，創建一個類，取名為badge: 第三步，將badge的父類設置成 System.Windows.Documents.Adorner public class Badge : Adorn ...
Aspire8一文通

Aspire8一文通 0、簡介微軟Aspire是微軟今年推出的一個全新的平臺無關、語言無關的新框架，它的設計目的是簡化雲原生應用的開發、部署和管理過程。Aspire的讀音是[əˈspaɪər]，它的意思是渴望(成就);有志(成為)，利用它你可以構建新應用程式或將雲原生功能添加到現有的應用程式，或者 ...
.NET 8 跨平臺高性能邊緣採集網關

前言在物聯網（IoT）和工業自動化領域，邊緣計算設備扮演著至關重要的角色。邊緣採集網關作為連接物理世界與數字世界的橋梁，負責收集感測器數據並將數據傳輸到雲端或本地數據中心進行處理。本文將介紹一款基於 .NET 8 的跨平臺高性能邊緣採集網關的開源項目。希望通過這個項目能夠幫助大家搭建和部署高效的 ...
編程技巧 --- 遠程調試

引言最近在做的項目上做了一些性能優化的工作，用到了 Visual Studio 遠程調試，所以本篇文章整理一下遠程調試技巧。首先，瞭解一下 Visual Studio遠程調試是什麼？ Visual Studio 的遠程調試功能允許在本地調試遠程電腦上運行的應用程式。用遠程調試，可以在本地電腦 ...
dotnet C# 分享基礎 for 迴圈的寫法

視窗/屏幕截圖適用於截圖、批註等工具場景，時時獲取視窗/屏幕圖像數據流呢，下麵講下視頻會議共用桌面、遠程桌面這些場景是如何實現畫面錄製的。常見的屏幕畫面時時採集方案，主要有GDI、WGC、DXGI。 GDI GDI（Graphics Device Interface）就是使用user32下Wind ...
.NET 8 + Blazor 多租戶、模塊化、DDD框架、開箱即用

前言基於 .NET 8 的開源項目，主要使用 WebAPI + Blazor 支持多租戶和模塊化設計，DDD構建。可以幫助我們輕鬆地搭建起一個功能完善的Web應用程式。除了幫助你快速構建應用程式之外，項目也可以當做學習資料。我們可以從中瞭解到多租戶、CQRS、DDD架構、雲部署、Docker容器化 ...
記一次 .NET某環境監測系統崩潰分析

一：背景 1. 講故事前些天有位朋友找到我，說他們的程式崩潰了，也自己分析了下初步結果，讓我幫忙再確認下，既然讓我確認，那就開始dump分析之旅吧。二：WinDbg 分析 1. 為什麼會崩潰 windbg 有一個強大之處就是帶有一個自動化的分析命令 !analyze -v 可以幫助我們快速的分析 ...
.NET 與 LayUI 實現高效敏捷開發框架

前言 WaterCloud 是一個集成了 LayUI 的高效敏捷開發框架，專為 .NET 開發者設計。它不僅支持多種 .NET 版本（.NET 4.5、.NET Core 3.1、.NET 5、.NET 6），還內置了豐富的功能，如許可權管理、流程表單設計以及多資料庫支持下的多租戶架構。使用了 OR ...