記一次 .NET某工廠報警監控設置 崩潰分析

来源:https://www.cnblogs.com/huangxincheng/p/18246160
-Advertisement-
Play Games

一:背景 1. 講故事 前些天有位朋友在微信上丟了一個崩潰的dump給我,讓我幫忙看下為什麼出現了崩潰,在 Windows 的事件查看器上顯示的是經典的 訪問違例 ,即 c0000005 錯誤碼,不管怎麼說有dump就可以上windbg開幹了。 二:WinDbg 分析 1. 程式為誰崩潰了 在 Wi ...


一:背景

1. 講故事

前些天有位朋友在微信上丟了一個崩潰的dump給我,讓我幫忙看下為什麼出現了崩潰,在 Windows 的事件查看器上顯示的是經典的 訪問違例 ,即 c0000005 錯誤碼,不管怎麼說有dump就可以上windbg開幹了。

二:WinDbg 分析

1. 程式為誰崩潰了

在 Windows 平臺上比較簡單,可以用 !analyze -v 命令查看,輸出結果如下:


0:120> !analyze -v
...
CONTEXT:  (.ecxr)
rax=0000000000000000 rbx=000000d5140fcf00 rcx=0000000000000000
rdx=000001d7f61cf1d8 rsi=000001d7d3635a10 rdi=000000d5140fc890
rip=00007ff80e17d233 rsp=000000d5140fc760 rbp=000000d5140fc8a0
 r8=000001d7d3308144  r9=0000000000000000 r10=0000000000000000
r11=000001d96736b620 r12=000000d5140fca08 r13=00007ff80d326528
r14=000000d5140fcf00 r15=0000000000000000
iopl=0         nv up ei pl nz na po nc
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010206
00007ff8`0e17d233 3909            cmp     dword ptr [rcx],ecx ds:00000000`00000000=????????
Resetting default scope

EXCEPTION_RECORD:  (.exr -1)
ExceptionAddress: 00007ff80e17d233
   ExceptionCode: c0000005 (Access violation)
  ExceptionFlags: 00000000
NumberParameters: 2
   Parameter[0]: 0000000000000000
   Parameter[1]: 0000000000000000
Attempt to read from address 0000000000000000

ERROR_CODE: (NTSTATUS) 0xc0000005 - 0x%p            0x%p                    %s

EXCEPTION_CODE_STR:  c0000005

STACK_TEXT:  
000000d5`140fc760 00007ff8`6bcc6d93     : 000001d7`d3635a10 000000d5`140fcb80 00007ff8`6bcfda57 00007ff8`695acc92 : 0x00007ff8`0e17d233
000000d5`140fc8b0 00007ff8`6bcc6c48     : 00000000`00000004 00007ff8`6be5ba73 00000000`00000000 00000000`00000000 : clr!CallDescrWorkerInternal+0x83
000000d5`140fc8f0 00007ff8`6be5bf66     : 000001d7`d3635a10 00000000`00000000 000000d5`140fcad8 00000000`00000000 : clr!CallDescrWorkerWithHandler+0x4e
000000d5`140fc930 00007ff8`6be5c41f     : 00000000`00000000 000000d5`140fca30 00000000`00000000 000000d5`140fcb60 : clr!CallDescrWorkerReflectionWrapper+0x1a
000000d5`140fc980 00007ff8`69993ee4     : 00000000`00000000 00000000`00000000 000001d7`d3635a10 00007ff8`699f9700 : clr!RuntimeMethodHandle::InvokeMethod+0x45f
000000d5`140fcf90 00007ff8`6997eeae     : 000001d7`d3376af0 00000000`00000000 00000000`0000011e 00007ff8`699f82f3 : mscorlib_ni!System.Reflection.RuntimeMethodInfo.UnsafeInvokeInternal+0x104
000000d5`140fd000 00007ff8`699c3a06     : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : mscorlib_ni!System.Reflection.RuntimeMethodInfo.Invoke+0x8e
000000d5`140fd080 00007ff8`0dfb7bb3     : 000001d7`d3635998 000001d7`d45e28e0 00000000`0000011c 000001d7`d3376af0 : mscorlib_ni!System.RuntimeType.InvokeMember+0x306
...
STACK_COMMAND:  ~120s; .ecxr ; kb
...

從卦中信息看崩潰的彙編語句是 dword ptr [rcx],ecx ,經常看C#彙編代碼的朋友我相信對這條語句非常敏感,對,它就是JIT自動插入的一條 this!=null 的防禦性判斷,看樣子程式有 this=null 的情況,接下來入手點就是RIP處 ExceptionAddress: 00007ff80e17d233,用 !U 觀察下上下文。


0:120> !U 00007ff80e17d233
Normal JIT generated code
MyScript.Process()
Begin 00007ff80e17d1c0, size 3d5
00007ff8`0e17d1c0 55              push    rbp
00007ff8`0e17d1c1 57              push    rdi
00007ff8`0e17d1c2 56              push    rsi
00007ff8`0e17d1c3 4881ec30010000  sub     rsp,130h
00007ff8`0e17d1ca c5f877          vzeroupper
...
00007ff8`0e17d220 e813c1edfe      call    00007ff8`0d059338 (xxx.GetRegion(System.String, Boolean), mdToken: 000000000600034f)
00007ff8`0e17d225 48898570ffffff  mov     qword ptr [rbp-90h],rax
00007ff8`0e17d22c 488b8d70ffffff  mov     rcx,qword ptr [rbp-90h]
>>> 00007ff8`0e17d233 3909            cmp     dword ptr [rcx],ecx
00007ff8`0e17d235 e8de87edfe      call    00007ff8`0d055a18 (xxx.get_Region(), mdToken: 0000000006000073)

從卦中的彙編代碼看邏輯非常清晰,即 xxx.GetRegion() 方法返回為null,然後在取其中的 Region 屬性時直接崩掉,說白了這是一個簡單的 空引用異常,完整的代碼截圖如下:

奇怪就奇怪在這裡,代碼中明明用 try catch 給包起來了,為什麼程式直接崩掉了。

2. 為什麼try catch 無效

尼瑪,這是我這幾年做dump分析第一次遇到這種情況,真的是無語了,接下來我們驗證下這個異常是否到了托管層?

  1. 是否有 NullReferenceException

熟悉dump分析的朋友應該知道,如果線程拋了異常在回溯的過程中會記錄到 Thread.m_LastThrownObjectHandle 欄位中,同時 !t 命令可以在 Exception 列中看到此信息。


0:120> !t
ThreadCount:      48
UnstartedThread:  0
BackgroundThread: 47
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 29dc 000001d7d162d5d0    26020 Preemptive  000001D7D8228A00:000001D7D8228D28 000001d7d1602380 0     STA 
 ...
 159   18 22dc 000001d967906ff0  1029220 Preemptive  000001D7D834E558:000001D7D834E558 000001d7d1602380 1     MTA (GC) (Threadpool Worker) 
 ...

但從卦中數據看所有的 Exception 列都沒有異常信息,這就表示程式沒有走到 CLR 的異常處理鏈條上,至少是不完整的。

  1. 是否有 AccessViolationException

參加過 C#內功修煉訓練營 的朋友應該都知道,這種 c0000005 的異常在 C#層面最終會被map成兩種異常中的其一,即 NullReferenceException 和 AccessViolationException,選擇其一的邏輯就是判斷 RIP 是在托管層還是非托管層,模型圖如下:

但遺憾的是在 !t 的列表中也沒有任何的 AccessViolationException 字樣,這也更加確認了它沒有調用異常處理鏈中的 CreateThrowable 函數。。。

事出反常必有妖,在 !t 的輸出結果中可以看到此時 159號線程觸發了 GC,接下來切過去看一看。


0:120> ~159s
ntdll!NtQueryInformationThread+0x14:
00007ff8`8317ea34 c3              ret
0:159> k
 # Child-SP          RetAddr               Call Site
00 000000d5`00c3e7d8 00007ff8`7f216e2e     ntdll!NtQueryInformationThread+0x14
01 000000d5`00c3e7e0 00007ff8`6bcea731     KERNELBASE!GetThreadPriority+0x1e
02 000000d5`00c3e850 00007ff8`6be69cc5     clr!Thread::GetThreadPriority+0x56
03 000000d5`00c3e8a0 00007ff8`6be69bc4     clr!ThreadSuspend::SuspendRuntime+0xa5
04 000000d5`00c3e990 00007ff8`6bd814e3     clr!ThreadSuspend::SuspendEE+0x128
05 000000d5`00c3ea90 00007ff8`6bd85f51     clr!WKS::GCHeap::GarbageCollectGeneration+0xb7
06 000000d5`00c3eaf0 00007ff8`6be7ee6b     clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
07 000000d5`00c3eb30 00007ff8`470e53ec     clr!JIT_New+0x4d6
08 000000d5`00c3eee0 00007ff8`470e537c     Microsoft_VisualBasic_ni!Microsoft.VisualBasic.Strings.ReplaceInternal+0x3c [f:\dd\vb\runtime\msvbalib\Strings.vb @ 761] 
09 000000d5`00c3ef80 00007ff8`0d04f81f     Microsoft_VisualBasic_ni!Microsoft.VisualBasic.Strings.Replace+0x15c [f:\dd\vb\runtime\msvbalib\Strings.vb @ 737] 
...

從卦中的線程棧來看,此時正在 SuspendEE 階段,而且還是處於早期階段,正在準備給 SuspendThread 安排一個好的優先順序,主要是怕優先順序太低了,導致 線程饑餓 得不到調度,畢竟 GC Process 的過程一定要是快中再快,接下來我們看下程式的 framework 版本。


0:159> !eeversion
4.7.3190.0 free
Workstation mode
SOS Version: 4.7.3190.0 retail build

可以看到還是比較老的 .netframework 4.7.3,結合這麼多信息,我個人覺得這可能是 CLR 的一個 bug,在 SuspendEE 階段的早期(還沒有 foreach threads)剛好遇到了一個硬體異常,這個 硬體異常 CLR 在業務邏輯上沒處理好,導致 SEH 異常沒有引入到 托管層,或者中途的某一環斷掉了,我放一張C#內功修煉訓練營 中的硬體異常完整流程圖。

最後給到朋友的建議比較簡單:

  • 判 null 的時候一定要加 null 判斷,避免異常邏輯。
  • 升級 framework 到最新的 4.8.1 觀察。

三:總結

這次程式崩潰的原因很簡單,就是 空引用異常 ,但詭異就詭異在明明有 trycatch 在外部,硬是沒接住,這個大概率是 CLR 的 bug,讓我這個分析多年dump的老手都嘆為觀止,開了眼界,無語了無語了。。。
圖片名稱


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 除了"在操作系統中修改時區信息,然後重啟.NET應用程式,使其生效"之外。如何在不修改操作系統時區的前提下,修改.NET中的預設時區呢? 這是一位 同學兼同事 於5月21日在技術群里問的問題,我當時簡單地研究了一下,就寫出來了。 現在寫文章分享給大家,雖然我覺得這種需求非常小眾,幾乎不會有人用到。 ...
  • 一、需求 為預防gitlab出現故障,每天定時備份,備份完成後把之前的備份文件刪除,備份成功或失敗的時候自動發送郵件提醒,這裡的gitlab為docker部署。 二、備份命令準備 1)備份命令 創建一個 gitlab_auto_backup.sh文件,文件內容 #!/bin/bash # 進入Git ...
  • 參考delphi的代碼更改為C# Delphi 檢測密碼強度 規則(仿 google) 仿 google 評分規則 一、密碼長度: 5 分: 小於等於 4 個字元 10 分: 5 到 7 字元 25 分: 大於等於 8 個字元 二、字母: 0 分: 沒有字母 10 分: 全都是小(大)寫字母 20 ...
  • 本章將和大家分享在ASP.NET Core中如何使用高級客戶端NEST來操作我們的Elasticsearch。 NEST是一個高級別的Elasticsearch .NET客戶端,它仍然非常接近原始Elasticsearch API的映射。所有的請求和響應都是通過類型來暴露的,這使得它非常適合快速上手 ...
  • 一、基本的.NET框架概念 .NET框架是一個由微軟開發的軟體開發平臺,它提供了一個運行時環境(CLR - Common Language Runtime)和一套豐富的類庫(FCL - Framework Class Library)。CLR負責管理代碼的執行,而FCL則提供了大量預先編寫好的代碼, ...
  • CodeWF.EventBus,一款靈活的事件匯流排庫,實現模塊間解耦通信。支持多種.NET項目類型,如WPF、WinForms、ASP.NET Core等。採用簡潔設計,輕鬆實現事件的發佈與訂閱。通過有序的消息處理,確保事件得到妥善處理。簡化您的代碼,提升系統可維護性。 ...
  • C#.NET與JAVA互通之MD5哈希V2024 配套視頻: 要點: 1.計算MD5時,SDK自帶的計算哈希(ComputeHash)方法,輸入輸出參數都是byte數組。就涉及到字元串轉byte數組轉換時,編碼選擇的問題。 2.輸入參數,字元串轉byte數組時,編碼雙方要統一,一般為:UTF-8。 ...
  • CSharpe中的IO+NPOI+序列化 文件文件夾操作 學習一下常見的文件、文件夾的操作。 什麼是IO流? I:就是input O:就是output,故稱:輸入輸出流 將數據讀入記憶體或者記憶體輸出的過程。 常見的IO流操作,一般說的是[記憶體]與[磁碟]之間的輸入輸出。 作用 持久化數據,保證數據不再 ...
一周排行
    -Advertisement-
    Play Games
  • 通過WPF的按鈕、文本輸入框實現了一個簡單的SpinBox數字輸入用戶組件並可以通過數據綁定數值和步長。本文中介紹了通過Xaml代碼實現自定義組件的佈局,依賴屬性的定義和使用等知識點。 ...
  • 以前,我看到一個朋友在對一個系統做初始化的時候,通過一組魔幻般的按鍵,調出來一個隱藏的系統設置界面,這個界面在常規的菜單或者工具欄是看不到的,因為它是一個後臺設置的關鍵界面,不公開,同時避免常規用戶的誤操作,它是作為一個超級管理員的入口功能,這個是很不錯的思路。其實Winform做這樣的處理也是很容... ...
  • 一:背景 1. 講故事 前些天有位朋友找到我,說他的程式每次關閉時就會自動崩潰,一直找不到原因讓我幫忙看一下怎麼回事,這位朋友應該是第二次找我了,分析了下 dump 還是挺經典的,拿出來給大家分享一下吧。 二:WinDbg 分析 1. 為什麼會崩潰 找崩潰原因比較簡單,用 !analyze -v 命 ...
  • 在一些報表模塊中,需要我們根據用戶操作的名稱,來動態根據人員姓名,更新報表的簽名圖片,也就是電子手寫簽名效果,本篇隨筆介紹一下使用FastReport報表動態更新人員簽名圖片。 ...
  • 最新內容優先發佈於個人博客:小虎技術分享站,隨後逐步搬運到博客園。 創作不易,如果覺得有用請在Github上為博主點亮一顆小星星吧! 博主開始學習編程於11年前,年少時還只會使用cin 和cout ,給單片機點點燈。那時候,類似async/await 和future/promise 模型的認知還不是 ...
  • 之前在阿裡雲ECS 99元/年的活動實例上搭建了一個測試用的MINIO服務,以前都是直接當基礎設施來使用的,這次準備自己學一下S3相容API相關的對象存儲開發,因此有了這個小工具。目前僅包含上傳功能,後續計劃開發一個類似圖床的對象存儲應用。 ...
  • 目錄簡介快速入門安裝 NuGet 包實體類User資料庫類DbFactory增刪改查InsertSelectUpdateDelete總結 簡介 NPoco 是 PetaPoco 的一個分支,具有一些額外的功能,截至現在 github 星數 839。NPoco 中文資料沒多少,我是被博客園群友推薦的, ...
  • 前言 前面使用 Admin.Core 的代碼生成器生成了通用代碼生成器的基礎模塊 分組,模板,項目,項目模型,項目欄位的基礎功能,本篇繼續完善,實現最核心的模板生成功能,並提供生成預覽及代碼文件壓縮下載 準備 首先清楚幾個模塊的關係,如何使用,簡單畫一個流程圖 前面完成了基礎的模板組,模板管理,項目 ...
  • 假設需要實現一個圖標和文本結合的按鈕 ,普通做法是 直接重寫該按鈕的模板; 如果想作為通用的呢? 兩種做法: 附加屬性 自定義控制項 推薦使用附加屬性的形式 第一種:附加屬性 創建Button的附加屬性 ButtonExtensions 1 public static class ButtonExte ...
  • 在C#中,委托是一種引用類型的數據類型,允許我們封裝方法的引用。通過使用委托,我們可以將方法作為參數傳遞給其他方法,或者將多個方法組合在一起,從而實現更靈活的編程模式。委托類似於函數指針,但提供了類型安全和垃圾回收等現代語言特性。 基本概念 定義委托 定義委托需要指定它所代表的方法的原型,包括返回類 ...