記一次 .NET某設備監控自動化系統 CPU爆高分析

来源:https://www.cnblogs.com/huangxincheng/p/18056337
-Advertisement-
Play Games

一:背景 1. 講故事 先說一下題外話,一個監控別人系統運行狀態的程式,結果自己出問題了,有時候想一想還是挺諷刺的,哈哈,開個玩笑,我們回到正題,前些天有位朋友找到我,說他們的系統會偶發性CPU爆高,CPU上去了就下不來了,讓我幫忙看一下怎麼回事,而且自己也分析過了,沒找到哪裡有問題,寫監控的都是高 ...


一:背景

1. 講故事

先說一下題外話,一個監控別人系統運行狀態的程式,結果自己出問題了,有時候想一想還是挺諷刺的,哈哈,開個玩笑,我們回到正題,前些天有位朋友找到我,說他們的系統會偶發性CPU爆高,CPU上去了就下不來了,讓我幫忙看一下怎麼回事,而且自己也分析過了,沒找到哪裡有問題,寫監控的都是高手,給我的第一感覺就是這個dump可能解決起來不容易,不管怎麼說,有了dump就開乾吧!

二:WinDbg 分析

1. CPU真的爆高嗎

作為調試人,第一准則就是不要輕信任何人透露給你的信息,因為人家在這塊是一個小白,往往他的信息會把你帶偏,我們只相信數據即可,切記!!! 所以我們先用 !tp 觀察下CPU使用率。


0:198> !tp
CPU utilization: 100%
Worker Thread: Total: 197 Running: 42 Idle: 154 MaxLimit: 32767 MinLimit: 8
Work Request in Queue: 0
--------------------------------------
Number of Timers: 0
--------------------------------------
Completion Port Thread:Total: 10 Free: 5 MaxFree: 16 CurrentLimit: 10 MaxLimit: 1000 MinLimit: 8

從卦中信息看當前 CPU=100%,還是蠻慘的,那到底誰在吃CPU資源呢?根據經驗先查一下是不是觸發了2代GC,接下來用 !t 觀察下是否有GC標記。


0:198> !t
ThreadCount:      214
UnstartedThread:  0
BackgroundThread: 211
PendingThread:    0
DeadThread:       1
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 276f0 000002789526b5f0    2a020 Preemptive  0000000000000000:0000000000000000 000002789525e840 0     MTA 
   2    2 25e5c 0000027895296d00    2b220 Preemptive  0000000000000000:0000000000000000 000002789525e840 0     MTA (Finalizer) 
   3    3 260e8 00000278ae35f0c0  202b020 Preemptive  0000000000000000:0000000000000000 000002789525e840 0     MTA 
   ...
 169 2113 10c20 00000278c26766c0  1029220 Preemptive  00000278B5D7D188:00000278B5D7D188 000002789525e840 1     MTA (GC) (Threadpool Worker) xxxException 00000278b5d46ce0
 ...

尼瑪從卦中的 (GC) 來看,還真的觸發了GC,接下來的研究方向就是洞察下是不是CPU爆高的禍首。

2. GC觸發導致的嗎

要尋找這個問題的答案,首先就是看下這次GC是不是 FullGC 即可,可以切到 169 號線程,觀察下線程棧。


0:169> k 10
 # Child-SP          RetAddr               Call Site
00 000000c4`36ffb798 00007ffc`d5f14313     ntdll!NtWaitForSingleObject+0x14
01 000000c4`36ffb7a0 00007ffc`c927cb27     KERNELBASE!WaitForSingleObjectEx+0x93
02 000000c4`36ffb840 00007ffc`c927cadf     clr!CLREventWaitHelper2+0x3c
03 000000c4`36ffb880 00007ffc`c927ca5c     clr!CLREventWaitHelper+0x1f
04 000000c4`36ffb8e0 00007ffc`c926bd32     clr!CLREventBase::WaitEx+0x7c
05 000000c4`36ffb970 00007ffc`c9269bc4     clr!ThreadSuspend::SuspendRuntime+0x32c
06 000000c4`36ffba60 00007ffc`c91814e3     clr!ThreadSuspend::SuspendEE+0x128
07 000000c4`36ffbb60 00007ffc`c9185f51     clr!WKS::GCHeap::GarbageCollectGeneration+0xb7
08 000000c4`36ffbbc0 00007ffc`c9260f56     clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
09 000000c4`36ffbc00 00007ffc`c6b0f7e7     clr!JIT_NewArr1+0xa97
0a 000000c4`36ffc030 00007ffc`6a388270     mscorlib_ni!System.String.ToCharArray+0x27 [f:\dd\ndp\clr\src\BCL\system\string.cs @ 758] 
0b 000000c4`36ffc080 00007ffc`6a3880ed     0x00007ffc`6a388270
0c 000000c4`36ffc100 00007ffc`6a56056d     0x00007ffc`6a3880ed
0d 000000c4`36ffc150 00007ffc`6a3cd749     0x00007ffc`6a56056d
0e 000000c4`36ffc1b0 00007ffc`c911989d     0x00007ffc`6a3cd749
0f 000000c4`36ffc220 00007ffc`c9119764     clr!ExceptionTracker::CallHandler+0xfd

從卦中看此時的GC還處於早期的 SuspendEE 階段,無法獲取內部的 settings 結構,這就比較麻煩了,那怎麼辦呢?只能看看 GarbageCollectGeneration 的第一個參數有沒有保存在棧中,要是沒有就慘了。。。方法簽名如下:


size_t
GCHeap::GarbageCollectGeneration (unsigned int gen, gc_reason reason)
{

}

根據 x64調用協定,gen是保存在 rdx 寄存器里,接下來觀察彙編代碼。


0:000> uf 00007ffc`c91814e3
clr!WKS::GCHeap::GarbageCollectGeneration:
00007ffc`c918142c 48895c2418      mov     qword ptr [rsp+18h],rbx
00007ffc`c9181431 89542410        mov     dword ptr [rsp+10h],edx
00007ffc`c9181435 48894c2408      mov     qword ptr [rsp+8],rcx
00007ffc`c918143a 55              push    rbp
00007ffc`c918143b 56              push    rsi
00007ffc`c918143c 57              push    rdi
00007ffc`c918143d 4154            push    r12
00007ffc`c918143f 4155            push    r13
00007ffc`c9181441 4156            push    r14
00007ffc`c9181443 4157            push    r15
...

0:169> dd 000000c4`36ffbbc0-0x8+0x10 L1
000000c4`36ffbbc8  00000000

從卦中看,謝天謝地,edx保存在 rsp+10h 的位置,通過dp觀察記憶體地址的值發現是0,也就表示當前是 0 代GC,這種smallgc 經常觸發是很正常的,並不是我們CPU爆高的誘因,接下來就陷入迷茫了。。。

3. 路在何方

撞了南牆之後得要看看其他路子,其實剛纔用 !t 觀察線程列表的時候我就註意到一個特征,那就是很多線程上掛了異常,截圖如下:

從卦中看此時有19個線程在拋 xxxResultException 異常,做過開發的朋友都知道,如果頻繁的拋異常是很耗CPU資源的,因為它要設計到用戶態內核態的切換,如果有 19 個線程一起拋異常,那絕對是一個災難。。。

有些朋友說我cpu猛一點是不是就可以了,哈哈,理論上是可以的,可以用 !cpuid 觀察下這台機器的cpu核心數。


0:169> !cpuid
CP  F/M/S  Manufacturer     MHz
 0  6,167,1  <unavailable>   3408
 1  6,167,1  <unavailable>   3408
 2  6,167,1  <unavailable>   3408
 3  6,167,1  <unavailable>   3408
 4  6,167,1  <unavailable>   3408
 5  6,167,1  <unavailable>   3408
 6  6,167,1  <unavailable>   3408
 7  6,167,1  <unavailable>   3408

從證據鏈的完整性上來說,其實這裡還需要再做一個驗證,就是19個線程拋異常不代表他們的併發性,言外之意就是能不能再找一些其他證據,怎麼找其他證據呢?

做C#開發的朋友應該知道,Exception 屬於引用類型,如果密集拋了很多異常,那托管堆上自然就有很多,直到GC回收,所以我們觀察下這個時間差即可,使用 !wdae 命令,這裡為了隱私性我就模糊了哈。


0:169> !wdae
     384 of Type: xxxResultException 000002789fdb6478 000002789fdb69b0 000002789fdb9848
Message: xxxFailed
Inner Exception: (none)
Stack:
IP               Function
00007ffc6a269861 xxx.ChannelAsyncOperation`1[[System.Int32, mscorlib]].End(Int32, Boolean)
...
     411 of Type: xxxResultException 000002789fdb6e90 000002789fdb7090 000002789fdb72a8
Message: xxxClosed
Inner Exception: (none)
Stack:
IP               Function
00007ffc6a269861 xxx.ChannelAsyncOperation`1[[System.Int32, mscorlib]].End(Int32, Boolean)
...
808 Exceptions in 12 unique type/stack combinations (duplicate types in similar stacks may be rethrows)

從卦中看當前拋了808個異常,大多是和channel通信有關,結合16個線程併發拋,這就穩了,看樣子cpu爆高期間就是由於高頻的拋異常所致,分析出這些信息之後,就是告訴朋友把這些異常給解決掉即可。

三:總結

CPU爆高的誘因非常多,高頻的拋異常就屬於其中一例,其實這種通信時發生了突發異常正是 Polly 這種 彈性和瞬態故障處理庫 大顯身手的地方。

圖片名稱
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在Java編程中,Integer類作為基本類型int的包裝器,提供了對象化的操作和自動裝箱與拆箱的功能。從JDK5開始引入了一項特別的優化措施——Integer緩存機制,它對於提升程式性能和減少記憶體消耗具有重要意義。接下來我們由一段代碼去打開Integer緩存機制的秘密。 public static ...
  • 本文介紹在Visual Studio 2022中配置、編譯C++電腦視覺庫OpenCV的方法。 1 OpenCV庫配置 首先,我們進行OpenCV庫的下載與安裝。作為一個開源的庫,我們直接在其官方下載網站中進行下載即可;如下圖所示,我們首先選擇需要下載的操作系統。 隨後,即可在彈出的新界面中自動開 ...
  • 作者:是奉壹呀 鏈接:https://juejin.cn/post/7264791359839223823 奧卡姆剃刀原理,“如無必要,勿增實體"。 在一些小型項目當中,沒有引入消息中間件,也不想引入,但有一些業務邏輯想要解耦非同步,那怎麼辦呢? 我們的web項目,單獨內網部署,由於大數據背景,公司消 ...
  • 經過大概三個月的學習和沉澱,我將.NET8.0的學習和使用,整理成了一個簡單的微服務項目,目前還在初級階段,後續會進行持續的更新和優化。 ...
  • 概述:Protobuf-net是C#中高效的二進位序列化工具,以緊湊、跨語言支持和卓越性能著稱。通過定義消息類型、序列化和反序列化實現數據傳輸,並可適用於Web介面。前端可使用protobuf.js庫解析Protobuf格式數據。 Protobuf-net 在 C# 中的編碼結構及使用方法 優點 P ...
  • 概述:RJCP.DLL.SerialPortStream庫為C#串口通信提供強大支持,跨平臺、高度可定製,集成基礎功能如打開、配置串口和數據讀寫,以及高級功能包括事件處理、超時設置等,極大簡化串口開發流程,適用於不同平臺和複雜通信需求。 C#串口開發之RJCP.DLL.SerialPortStrea ...
  • .NET Core WebAPI項目部署iis後Swagger 404問題解決 前言 之前做了一個WebAPI的項目,我在文章中寫到的是Docker方式部署,然後考慮到很多初學者用的是iis,下麵講解下iis如何部署WebAPI項目。 環境準備 iis ASPNETCoreModuleV2 重點 . ...
  • CYQ.Data 是一個用於操作資料庫的框架,可以方便地連接和管理各種類型的資料庫。在操作達夢資料庫時,使用 CYQ.Data 框架可以提供以下功能和優勢......總的來說,使用 CYQ.Data 框架操作達夢資料庫可以簡化開發流程,提高開發效率,同時也增強了系統的穩定性和安全性。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...