記一次 .NET某工廠報警監控設置 崩潰分析

来源:https://www.cnblogs.com/huangxincheng/p/18246160
-Advertisement-
Play Games

一:背景 1. 講故事 前些天有位朋友在微信上丟了一個崩潰的dump給我,讓我幫忙看下為什麼出現了崩潰,在 Windows 的事件查看器上顯示的是經典的 訪問違例 ,即 c0000005 錯誤碼,不管怎麼說有dump就可以上windbg開幹了。 二:WinDbg 分析 1. 程式為誰崩潰了 在 Wi ...


一:背景

1. 講故事

前些天有位朋友在微信上丟了一個崩潰的dump給我,讓我幫忙看下為什麼出現了崩潰,在 Windows 的事件查看器上顯示的是經典的 訪問違例 ,即 c0000005 錯誤碼,不管怎麼說有dump就可以上windbg開幹了。

二:WinDbg 分析

1. 程式為誰崩潰了

在 Windows 平臺上比較簡單,可以用 !analyze -v 命令查看,輸出結果如下:


0:120> !analyze -v
...
CONTEXT:  (.ecxr)
rax=0000000000000000 rbx=000000d5140fcf00 rcx=0000000000000000
rdx=000001d7f61cf1d8 rsi=000001d7d3635a10 rdi=000000d5140fc890
rip=00007ff80e17d233 rsp=000000d5140fc760 rbp=000000d5140fc8a0
 r8=000001d7d3308144  r9=0000000000000000 r10=0000000000000000
r11=000001d96736b620 r12=000000d5140fca08 r13=00007ff80d326528
r14=000000d5140fcf00 r15=0000000000000000
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010206
00007ff8`0e17d233 3909            cmp     dword ptr [rcx],ecx ds:00000000`00000000=????????
Resetting default scope

EXCEPTION_RECORD:  (.exr -1)
ExceptionAddress: 00007ff80e17d233
   ExceptionCode: c0000005 (Access violation)
  ExceptionFlags: 00000000
NumberParameters: 2
   Parameter[0]: 0000000000000000
   Parameter[1]: 0000000000000000
Attempt to read from address 0000000000000000

ERROR_CODE: (NTSTATUS) 0xc0000005 - 0x%p            0x%p                    %s

EXCEPTION_CODE_STR:  c0000005

STACK_TEXT:  
000000d5`140fc760 00007ff8`6bcc6d93     : 000001d7`d3635a10 000000d5`140fcb80 00007ff8`6bcfda57 00007ff8`695acc92 : 0x00007ff8`0e17d233
000000d5`140fc8b0 00007ff8`6bcc6c48     : 00000000`00000004 00007ff8`6be5ba73 00000000`00000000 00000000`00000000 : clr!CallDescrWorkerInternal+0x83
000000d5`140fc8f0 00007ff8`6be5bf66     : 000001d7`d3635a10 00000000`00000000 000000d5`140fcad8 00000000`00000000 : clr!CallDescrWorkerWithHandler+0x4e
000000d5`140fc930 00007ff8`6be5c41f     : 00000000`00000000 000000d5`140fca30 00000000`00000000 000000d5`140fcb60 : clr!CallDescrWorkerReflectionWrapper+0x1a
000000d5`140fc980 00007ff8`69993ee4     : 00000000`00000000 00000000`00000000 000001d7`d3635a10 00007ff8`699f9700 : clr!RuntimeMethodHandle::InvokeMethod+0x45f
000000d5`140fcf90 00007ff8`6997eeae     : 000001d7`d3376af0 00000000`00000000 00000000`0000011e 00007ff8`699f82f3 : mscorlib_ni!System.Reflection.RuntimeMethodInfo.UnsafeInvokeInternal+0x104
000000d5`140fd000 00007ff8`699c3a06     : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : mscorlib_ni!System.Reflection.RuntimeMethodInfo.Invoke+0x8e
000000d5`140fd080 00007ff8`0dfb7bb3     : 000001d7`d3635998 000001d7`d45e28e0 00000000`0000011c 000001d7`d3376af0 : mscorlib_ni!System.RuntimeType.InvokeMember+0x306
...
STACK_COMMAND:  ~120s; .ecxr ; kb
...

從卦中信息看崩潰的彙編語句是 dword ptr [rcx],ecx ,經常看C#彙編代碼的朋友我相信對這條語句非常敏感,對,它就是JIT自動插入的一條 this!=null 的防禦性判斷,看樣子程式有 this=null 的情況,接下來入手點就是RIP處 ExceptionAddress: 00007ff80e17d233,用 !U 觀察下上下文。


0:120> !U 00007ff80e17d233
Normal JIT generated code
MyScript.Process()
Begin 00007ff80e17d1c0, size 3d5
00007ff8`0e17d1c0 55              push    rbp
00007ff8`0e17d1c1 57              push    rdi
00007ff8`0e17d1c2 56              push    rsi
00007ff8`0e17d1c3 4881ec30010000  sub     rsp,130h
00007ff8`0e17d1ca c5f877          vzeroupper
...
00007ff8`0e17d220 e813c1edfe      call    00007ff8`0d059338 (xxx.GetRegion(System.String, Boolean), mdToken: 000000000600034f)
00007ff8`0e17d225 48898570ffffff  mov     qword ptr [rbp-90h],rax
00007ff8`0e17d22c 488b8d70ffffff  mov     rcx,qword ptr [rbp-90h]
>>> 00007ff8`0e17d233 3909            cmp     dword ptr [rcx],ecx
00007ff8`0e17d235 e8de87edfe      call    00007ff8`0d055a18 (xxx.get_Region(), mdToken: 0000000006000073)

從卦中的彙編代碼看邏輯非常清晰,即 xxx.GetRegion() 方法返回為null,然後在取其中的 Region 屬性時直接崩掉,說白了這是一個簡單的 空引用異常,完整的代碼截圖如下:

奇怪就奇怪在這裡,代碼中明明用 try catch 給包起來了,為什麼程式直接崩掉了。

2. 為什麼try catch 無效

尼瑪,這是我這幾年做dump分析第一次遇到這種情況,真的是無語了,接下來我們驗證下這個異常是否到了托管層?

  1. 是否有 NullReferenceException

熟悉dump分析的朋友應該知道,如果線程拋了異常在回溯的過程中會記錄到 Thread.m_LastThrownObjectHandle 欄位中,同時 !t 命令可以在 Exception 列中看到此信息。


0:120> !t
ThreadCount:      48
UnstartedThread:  0
BackgroundThread: 47
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 29dc 000001d7d162d5d0    26020 Preemptive  000001D7D8228A00:000001D7D8228D28 000001d7d1602380 0     STA 
 ...
 159   18 22dc 000001d967906ff0  1029220 Preemptive  000001D7D834E558:000001D7D834E558 000001d7d1602380 1     MTA (GC) (Threadpool Worker) 
 ...

但從卦中數據看所有的 Exception 列都沒有異常信息,這就表示程式沒有走到 CLR 的異常處理鏈條上,至少是不完整的。

  1. 是否有 AccessViolationException

參加過 C#內功修煉訓練營 的朋友應該都知道,這種 c0000005 的異常在 C#層面最終會被map成兩種異常中的其一,即 NullReferenceException 和 AccessViolationException,選擇其一的邏輯就是判斷 RIP 是在托管層還是非托管層,模型圖如下:

但遺憾的是在 !t 的列表中也沒有任何的 AccessViolationException 字樣,這也更加確認了它沒有調用異常處理鏈中的 CreateThrowable 函數。。。

事出反常必有妖,在 !t 的輸出結果中可以看到此時 159號線程觸發了 GC,接下來切過去看一看。


0:120> ~159s
ntdll!NtQueryInformationThread+0x14:
00007ff8`8317ea34 c3              ret
0:159> k
 # Child-SP          RetAddr               Call Site
00 000000d5`00c3e7d8 00007ff8`7f216e2e     ntdll!NtQueryInformationThread+0x14
01 000000d5`00c3e7e0 00007ff8`6bcea731     KERNELBASE!GetThreadPriority+0x1e
02 000000d5`00c3e850 00007ff8`6be69cc5     clr!Thread::GetThreadPriority+0x56
03 000000d5`00c3e8a0 00007ff8`6be69bc4     clr!ThreadSuspend::SuspendRuntime+0xa5
04 000000d5`00c3e990 00007ff8`6bd814e3     clr!ThreadSuspend::SuspendEE+0x128
05 000000d5`00c3ea90 00007ff8`6bd85f51     clr!WKS::GCHeap::GarbageCollectGeneration+0xb7
06 000000d5`00c3eaf0 00007ff8`6be7ee6b     clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
07 000000d5`00c3eb30 00007ff8`470e53ec     clr!JIT_New+0x4d6
08 000000d5`00c3eee0 00007ff8`470e537c     Microsoft_VisualBasic_ni!Microsoft.VisualBasic.Strings.ReplaceInternal+0x3c [f:\dd\vb\runtime\msvbalib\Strings.vb @ 761] 
09 000000d5`00c3ef80 00007ff8`0d04f81f     Microsoft_VisualBasic_ni!Microsoft.VisualBasic.Strings.Replace+0x15c [f:\dd\vb\runtime\msvbalib\Strings.vb @ 737] 
...

從卦中的線程棧來看,此時正在 SuspendEE 階段,而且還是處於早期階段,正在準備給 SuspendThread 安排一個好的優先順序,主要是怕優先順序太低了,導致 線程饑餓 得不到調度,畢竟 GC Process 的過程一定要是快中再快,接下來我們看下程式的 framework 版本。


0:159> !eeversion
4.7.3190.0 free
Workstation mode
SOS Version: 4.7.3190.0 retail build

可以看到還是比較老的 .netframework 4.7.3,結合這麼多信息,我個人覺得這可能是 CLR 的一個 bug,在 SuspendEE 階段的早期(還沒有 foreach threads)剛好遇到了一個硬體異常,這個 硬體異常 CLR 在業務邏輯上沒處理好,導致 SEH 異常沒有引入到 托管層,或者中途的某一環斷掉了,我放一張C#內功修煉訓練營 中的硬體異常完整流程圖。

最後給到朋友的建議比較簡單:

  • 判 null 的時候一定要加 null 判斷,避免異常邏輯。
  • 升級 framework 到最新的 4.8.1 觀察。

三:總結

這次程式崩潰的原因很簡單,就是 空引用異常 ,但詭異就詭異在明明有 trycatch 在外部,硬是沒接住,這個大概率是 CLR 的 bug,讓我這個分析多年dump的老手都嘆為觀止,開了眼界,無語了無語了。。。
圖片名稱


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 除了"在操作系統中修改時區信息,然後重啟.NET應用程式,使其生效"之外。如何在不修改操作系統時區的前提下,修改.NET中的預設時區呢? 這是一位 同學兼同事 於5月21日在技術群里問的問題,我當時簡單地研究了一下,就寫出來了。 現在寫文章分享給大家,雖然我覺得這種需求非常小眾,幾乎不會有人用到。 ...
  • 一、需求 為預防gitlab出現故障,每天定時備份,備份完成後把之前的備份文件刪除,備份成功或失敗的時候自動發送郵件提醒,這裡的gitlab為docker部署。 二、備份命令準備 1)備份命令 創建一個 gitlab_auto_backup.sh文件,文件內容 #!/bin/bash # 進入Git ...
  • 參考delphi的代碼更改為C# Delphi 檢測密碼強度 規則(仿 google) 仿 google 評分規則 一、密碼長度: 5 分: 小於等於 4 個字元 10 分: 5 到 7 字元 25 分: 大於等於 8 個字元 二、字母: 0 分: 沒有字母 10 分: 全都是小(大)寫字母 20 ...
  • 本章將和大家分享在ASP.NET Core中如何使用高級客戶端NEST來操作我們的Elasticsearch。 NEST是一個高級別的Elasticsearch .NET客戶端,它仍然非常接近原始Elasticsearch API的映射。所有的請求和響應都是通過類型來暴露的,這使得它非常適合快速上手 ...
  • 一、基本的.NET框架概念 .NET框架是一個由微軟開發的軟體開發平臺,它提供了一個運行時環境(CLR - Common Language Runtime)和一套豐富的類庫(FCL - Framework Class Library)。CLR負責管理代碼的執行,而FCL則提供了大量預先編寫好的代碼, ...
  • CodeWF.EventBus,一款靈活的事件匯流排庫,實現模塊間解耦通信。支持多種.NET項目類型,如WPF、WinForms、ASP.NET Core等。採用簡潔設計,輕鬆實現事件的發佈與訂閱。通過有序的消息處理,確保事件得到妥善處理。簡化您的代碼,提升系統可維護性。 ...
  • C#.NET與JAVA互通之MD5哈希V2024 配套視頻: 要點: 1.計算MD5時,SDK自帶的計算哈希(ComputeHash)方法,輸入輸出參數都是byte數組。就涉及到字元串轉byte數組轉換時,編碼選擇的問題。 2.輸入參數,字元串轉byte數組時,編碼雙方要統一,一般為:UTF-8。 ...
  • CSharpe中的IO+NPOI+序列化 文件文件夾操作 學習一下常見的文件、文件夾的操作。 什麼是IO流? I:就是input O:就是output,故稱:輸入輸出流 將數據讀入記憶體或者記憶體輸出的過程。 常見的IO流操作,一般說的是[記憶體]與[磁碟]之間的輸入輸出。 作用 持久化數據,保證數據不再 ...
一周排行
    -Advertisement-
    Play Games
  • 一:背景 1. 講故事 前些天有位朋友找到我,說他們的程式會偶發性的卡死一段時間,然後又好了,讓我幫忙看下怎麼回事?窗體類的程式解決起來相對來說比較簡單,讓朋友用procdump自動抓一個卡死時的dump,拿到dump之後,上 windbg 說話。 二:WinDbg 分析 1. 主線程在做什麼 要想 ...
  • 功能說明 使用ListView時,希望可以在單元格顯示圖片或其他控制項,發現原生的ListView不支持,於是通過拓展,實現ListView可以顯示任意控制項的功能,效果如下: 實現方法 本來想著在單元格裡面實現控制項的自繪的,但是沒找到辦法,最後是通過在單元格的錶面顯示對應控制項的,浮於錶面達到目的。 實 ...
  • 由於.NET Framework 4.0 是比較古老的版本,只有New Relic 7.0以下的版本才會支持.NET Framework 4.0的引用程式。 Technical support for .NET Framework 4.0 or lower 你可以參考這個官方Install New ...
  • 前言 隨著 DEV24.1.3 的發佈,XAF Blazor 中的屬性編輯器(PropertyEditor)也進行了很大的改動,在使用體驗上也更接近 WinForm 了,由於進行了大量的封裝,理解上沒有 WinForm 直觀,所以本文通過對屬性編輯器的原理進行解析,並對比新舊版本中的變化,使大家能夠 ...
  • OPC基金會提供了OPC UA .NET標準庫以及示常式序,但官方文檔過於簡單,光看官方文檔和示常式序很難弄懂OPC UA .NET標準庫怎麼用,花了不少時間摸索才略微弄懂如何使用,以下記錄如何從一個控制台程式開發一個OPC UA伺服器。 安裝Nuget包 安裝OPCFoundation.NetSt ...
  • 今天在技術群里,石頭哥向大家提了個問題:"如何在一個以System身份運行的.NET程式(Windows Services)中,以其它活動的用戶身份啟動可互動式進程(桌面應用程式、控制台程式、等帶有UI和互動式體驗的程式)"? 我以前有過類似的需求,是在GitLab流水線中運行帶有UI的自動化測試程 ...
  • .Net 中提供了一系列的管理對象集合的類型,數組、可變列表、字典等。從類型安全上集合分為兩類,泛型集合 和 非泛型集合,傳統的非泛型集合存儲為Object,需要類型轉。而泛型集合提供了更好的性能、編譯時類型安全,推薦使用。 ...
  • 在以前我做程式的時候,一般在登錄視窗裡面顯示程式名稱,登錄視窗一般設置一張背景圖片,由於程式的名稱一般都是確定的,所以也不存在太大的問題,不過如果客戶定製不同的系統的時候,需要使用Photoshop修改下圖層的文字,再生成圖片,然後替換一下也可以了。不過本著減少客戶使用繁瑣性,也可以使用空白名稱的通... ...
  • 一:背景 1. 講故事 在dump分析的過程中經常會看到很多線程卡在Monitor.Wait方法上,曾經也有不少人問我為什麼用 !syncblk 看不到 Monitor.Wait 上的鎖信息,剛好昨天有時間我就來研究一下。 二:Monitor.Wait 底層怎麼玩的 1. 案例演示 為了方便講述,先 ...
  • 目錄前言學習參考過程總結: 前言 做個自由仔。 學習參考 ChatGpt; https://www.cnblogs.com/zhili/p/DesignPatternSummery.html(大佬的,看了好多次) 過程 原由: 一開始只是想查查鏈式調用原理,以為是要繼承什麼介面,實現什麼方法才可以實 ...