記一次某製造業ERP系統 CPU打爆事故分析

来源:https://www.cnblogs.com/huangxincheng/archive/2022/10/11/16778029.html
-Advertisement-
Play Games

一:背景 1.講故事 前些天有位朋友微信找到我,說他的程式出現了CPU階段性爆高,過了一會就下去了,咨詢下這個爆高階段程式內部到底發生了什麼? 畫個圖大概是下麵這樣,你懂的。 按經驗來說,這種情況一般是程式在做 CPU 密集型運算,所以讓朋友在 CPU 高的時候間隔 5~10s 抓兩個 dump 下 ...


一:背景

1.講故事

前些天有位朋友微信找到我,說他的程式出現了CPU階段性爆高,過了一會就下去了,咨詢下這個爆高階段程式內部到底發生了什麼? 畫個圖大概是下麵這樣,你懂的。

按經驗來說,這種情況一般是程式在做 CPU 密集型運算,所以讓朋友在 CPU 高的時候間隔 5~10s 抓兩個 dump 下來,然後就是用 WinDbg 分析。

二:WinDbg 分析

1. CPU 真的爆高嗎

耳聽為虛,眼見為實,我們用 !tp 觀察下當前的CPU情況。


0:000> !tp
CPU utilization: 100%
Worker Thread: Total: 16 Running: 2 Idle: 14 MaxLimit: 32767 MinLimit: 2
Work Request in Queue: 0
--------------------------------------
Number of Timers: 2
--------------------------------------
Completion Port Thread:Total: 2 Free: 2 MaxFree: 4 CurrentLimit: 2 MaxLimit: 1000 MinLimit: 2

果不其然,CPU直接打滿,接下來就是看看當前有幾個CPU邏輯核,這麼不夠扛。。。


0:000> !cpuid
CP  F/M/S  Manufacturer     MHz
 0  6,106,6  <unavailable>   2700
 1  6,106,6  <unavailable>   2700

我去,一個生產環境居然只有兩個核。。。果然這大環境下公司活著都不夠滋潤。

2. 到底是誰引發的

既然是階段性爆高,最簡單粗暴的就是看下各個線程棧,使用 ~*e !clrstack 命令即可,因為只有兩核,所以理論上兩個線程就可以把 CPU 乾趴下,掃了一下線程棧,果然有對號入座的,輸出信息如下:


0:000> ~*e !clrstack 
OS Thread Id: 0x146c (42)
        Child SP               IP Call Site
00000089abcfca18 00007ffc4baffdb4 [InlinedCallFrame: 00000089abcfca18] System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089abcfca18 00007ffbdd4a7a48 [InlinedCallFrame: 00000089abcfca18] System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089abcfc9f0 00007ffbdd4a7a48 DomainNeutralILStubClass.IL_STUB_PInvoke(System.Runtime.InteropServices.HandleRef)
00000089abcfcaa0 00007ffbdd52ad0a System.Drawing.SafeNativeMethods+Gdip.GdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089abcfcae0 00007ffbdd52ac3f System.Drawing.Image.Dispose(Boolean)
00000089abcfcb30 00007ffbdd556b5a System.Drawing.Image.Dispose()
00000089abcfcb60 00007ffbe39397c7 NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell, Int32, NPOI.SS.UserModel.DataFormatter, Boolean)
00000089abcfcc00 00007ffbe3939654 NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell, Int32, NPOI.SS.UserModel.DataFormatter, Boolean)
00000089abcfcd30 00007ffbe39382e1 NPOI.SS.Util.SheetUtil.GetColumnWidth(NPOI.SS.UserModel.ISheet, Int32, Boolean)
00000089abcfcdc0 00007ffbe39380bc NPOI.XSSF.UserModel.XSSFSheet.AutoSizeColumn(Int32, Boolean)
...

OS Thread Id: 0x1c8c (46)
        Child SP               IP Call Site
00000089ad43dba8 00007ffc4baffdb4 [InlinedCallFrame: 00000089ad43dba8] System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089ad43dba8 00007ffbdd4a7a48 [InlinedCallFrame: 00000089ad43dba8] System.Drawing.SafeNativeMethods+Gdip.IntGdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089ad43db80 00007ffbdd4a7a48 DomainNeutralILStubClass.IL_STUB_PInvoke(System.Runtime.InteropServices.HandleRef)
00000089ad43dc30 00007ffbdd52ad0a System.Drawing.SafeNativeMethods+Gdip.GdipDisposeImage(System.Runtime.InteropServices.HandleRef)
00000089ad43dc70 00007ffbdd52ac3f System.Drawing.Image.Dispose(Boolean)
00000089ad43dcc0 00007ffbdd556b5a System.Drawing.Image.Dispose()
00000089ad43dcf0 00007ffbe39397c7 NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell, Int32, NPOI.SS.UserModel.DataFormatter, Boolean)
00000089ad43dd90 00007ffbe3939654 NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell, Int32, NPOI.SS.UserModel.DataFormatter, Boolean)
00000089ad43dec0 00007ffbe39382e1 NPOI.SS.Util.SheetUtil.GetColumnWidth(NPOI.SS.UserModel.ISheet, Int32, Boolean)
00000089ad43df50 00007ffbe39380bc NPOI.XSSF.UserModel.XSSFSheet.AutoSizeColumn(Int32, Boolean)
...
00000089ad43e460 00007ffbe115b193 System.Web.Mvc.ControllerActionInvoker.InvokeActionMethod(System.Web.Mvc.ControllerContext, System.Web.Mvc.ActionDescriptor, System.Collections.Generic.IDictionary`2<System.String,System.Object>)
...
00000089abcfd310 00007ffbe115b147 System.Web.Mvc.Async.AsyncControllerActionInvoker+c.b__9_0(System.IAsyncResult, ActionInvocation)
...

有些朋友要問了,你是怎麼確定就是這兩個線程呢? 其實有兩個方法可以驗證。

  1. 使用 !whttp 看http請求

既然是 web 請求,自然就可以拿到裡面的 HttpContext,這裡面記錄著當前請求的運行時間,這個信息非常重要,截圖如下:

從圖中可以看到,有兩個 xxxx/Export 請求運行時間非常高,一個是 4min30s ,一個是 50s ,剛好落在了 4246 號線程上。

  1. 藉助第二個 dump 文件

這就是為什麼要抓二個dump的原因了,因為另一個dump會給我們相當有價值的對比信息,同樣使用 !whttp 驗證。

接下來我們就要調研為什麼這兩個線程會運行這麼久?

3. 為什麼會運行這麼久

既然是 Export 導出文件,第一時間就應該想到是不是和數據量有關?通過線程棧上的方法,發現是一個List 集合,接下來用 !dso 命令找出來看看。


0:042> !dso
OS Thread Id: 0x146c (42)
RSP/REG          Object           Name
00000089ABCFCAC8 0000020683b7c128 System.Drawing.Bitmap
00000089ABCFCAF8 0000020683b7c158 System.Drawing.Graphics
00000089ABCFCB10 0000020683b7c128 System.Drawing.Bitmap
00000089ABCFCB30 0000020683b7c128 System.Drawing.Bitmap
00000089ABCFCB40 0000020683b7c4d0 NPOI.XSSF.UserModel.XSSFCellStyle
00000089ABCFCB50 0000020683b7c198 NPOI.XSSF.UserModel.XSSFRichTextString
00000089ABCFCB68 0000020683b7c198 NPOI.XSSF.UserModel.XSSFRichTextString
00000089ABCFCBC0 0000020683b7c198 NPOI.XSSF.UserModel.XSSFRichTextString
00000089ABCFCBC8 0000020683b7c2e8 System.String[]
00000089ABCFCBD0 0000020683b7c360 System.Drawing.Font
00000089ABCFCDE8 0000020666501240 System.Collections.Generic.List`1[[System.Collections.Generic.List`1[[System.Object, mscorlib]], mscorlib]]
...

0:042> !do 0000020666501240
Name:        System.Collections.Generic.List`1[[System.Collections.Generic.List`1[[System.Object, mscorlib]], mscorlib]]
MethodTable: 00007ffbde342440
EEClass:     00007ffc36fc2af8
Size:        40(0x28) bytes
File:        C:\Windows\Microsoft.Net\assembly\GAC_64\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:
              MT    Field   Offset                 Type VT     Attr            Value Name
00007ffc36e4e250  40018a0        8     System.__Canon[]  0 instance 00000207658592d8 _items
00007ffc36e385a0  40018a1       18         System.Int32  1 instance            44906 _size
00007ffc36e385a0  40018a2       1c         System.Int32  1 instance            44906 _version
00007ffc36e35dd8  40018a3       10        System.Object  0 instance 0000000000000000 _syncRoot
00007ffc36e4e250  40018a4        0     System.__Canon[]  0   shared           static _emptyArray
                                 >> Domain:Value dynamic statics NYI 0000020563eec3c0:NotInit dynamic statics NYI 0000020795f5b9a0:NotInit  <<

可以清楚的看到,這個list高達 4.5w,這個量級說多也不多,說少也不少,言外之意就是代碼寫的也不好不到哪裡去。

4. 用戶代碼要承擔責任嗎

要判斷用戶代碼是不是很爛,除了白盒看代碼,也可以黑盒觀察這幾個線程棧,可以發現兩個dump 顯示的棧信息都和 AutoSizeColumn 方法有關。


00000089abcfcae0 00007ffbdd52ac3f System.Drawing.Image.Dispose(Boolean)
00000089abcfcb30 00007ffbdd556b5a System.Drawing.Image.Dispose()
00000089abcfcb60 00007ffbe39397c7 NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell, Int32, NPOI.SS.UserModel.DataFormatter, Boolean)
00000089abcfcc00 00007ffbe3939654 NPOI.SS.Util.SheetUtil.GetCellWidth(NPOI.SS.UserModel.ICell, Int32, NPOI.SS.UserModel.DataFormatter, Boolean)
00000089abcfcd30 00007ffbe39382e1 NPOI.SS.Util.SheetUtil.GetColumnWidth(NPOI.SS.UserModel.ISheet, Int32, Boolean)
00000089abcfcdc0 00007ffbe39380bc NPOI.XSSF.UserModel.XSSFSheet.AutoSizeColumn(Int32, Boolean)

從名字看是 NOPI 提供的自動調整列寬 的方法,那是不是這個方法的單次性能很慢呢?要尋找答案,只能求助百度啦。。。

  • 圖一

  • 圖二

到這裡我們基本就搞清楚了,導致 reqeust 高達 5min + 的誘因大概有三個。

  1. 數據量大

  2. AutoSizeColumn 速度慢

  3. 代碼上的其他因素

跟朋友溝通後,朋友說這塊請求中的 AutoSizeColumn 方法忘了改掉。

三:總結

這個 Dump 分析起來其實非常簡單,思路也比較明朗,重點還是提醒一下大家慎用 NPOI 的 AutoSizeColumn 方法,弄不好就得出個生產事故!

圖片名稱
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.基於 Logistic 回歸和 Sigmoid 函數的分類 邏輯回歸適合於01情況的分類就是描述一個問題是或者不是,所以就引入sigmoid函數,因為這個函數可以將所有值變成0-1之間的一個值,這樣就方便算概率 首先我們可以先看看Sigmoid函數(又叫Logistic函數)將任意的輸入映射到了 ...
  • map()函數可以對一個數據進行同等迭代操作。 例如: def f(x): return x * x r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9]) print(list(r)) map函數傳入的第一個參數就是函數本身,即f。第二個參數是要操作的數據 map() 作為 ...
  • 分詞高亮搜索代碼 List<A> list = new ArrayList<>(); //設置高亮顯示 HighlightBuilder highlightBuilder = new HighlightBuilder().field("*").requireFieldMatch(false); hi ...
  • 背景:測試環境連接生產環境的資料庫,無法本地調試 環境: JDK8 Maven:3.6.3 Springboot:2.1.4 jsch:0.1.55 Jsch百度百科介紹:JSch 是SSH2的一個純Java實現。它允許你連接到一個sshd 伺服器,使用埠轉發,X11轉發,文件傳輸等等。 Jsch ...
  • 最近幾天部署代理池的時候,用Python寫了requests請求測試IP地址檢測連通性的腳本。但是發現了一個問題,requests.get帶代理請求有時候請求不通。 我初步認為代理的問題,但是之後我用了curl請求發現代理是正常的,用Go寫了測試發現還是正常的。難道是requests的問題?目前不知 ...
  • 在這個自動化時代,我們有很多重覆無聊的工作要做。想想這些你不再需要一次又一次地做的無聊的事情,讓它自動化,讓你的生活更輕鬆。那麼在本文中,我將向您介紹 10 個 Python 自動化腳本,以使你的工作更加自動化,生活更加輕鬆。因此,沒有更多的重覆任務將這篇文章放在您的列表中,讓我們開始吧。 01、解 ...
  • 框架內容 零度框架是一套基於微服務和領域模型驅動設計的企業級快速開發框架,基於微軟 .NET 6 + React 最新技術棧構建,容器化微服務最佳實踐,零度框架的搭建以開發簡單,多屏體驗,前後端分離,靈活部署,最少依賴,最新框架為原則,以物聯網平臺管理系統為業務模型,參考諸多優秀開源框架,採用主流穩 ...
  • 開發人員在開發代碼的時候,經常會使用到Debug、Release、Development、Production等幾個概念,雖然有些地方在功能上最終殊途同歸,但是還是有非常大的區別。 首先需要搞清楚,Debug、Release都屬於編譯配置,而Development、Production則屬於環境配置 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...