## 一:背景 ### 1. 講故事 很多朋友可能會有疑問,C# 是一門托管語言,怎麼可能會有非托管句柄泄露呢? 其實一旦 C# 程式與 C++ 語言交互之後,往往就會被後者拖入非托管泥潭,讓我們這些調試者被迫探究 `非托管領域問題`。 ## 二:非托管句柄泄露 ### 1. 測試案例 為了方便講述 ...
一:背景
1. 講故事
很多朋友可能會有疑問,C# 是一門托管語言,怎麼可能會有非托管句柄泄露呢? 其實一旦 C# 程式與 C++ 語言交互之後,往往就會被後者拖入非托管泥潭,讓我們這些調試者被迫探究 非托管領域問題
。
二:非托管句柄泄露
1. 測試案例
為了方便講述,我們上一個 Event 泄露的案例,使用 C# 調用 C++ ,然後讓 C++ 產生 bug 導致句柄泄露。
先看一下 C++ 代碼
extern "C"
{
_declspec(dllexport) void CSharpCreateEvent();
}
#include "iostream"
#include <Windows.h>
using namespace std;
void CSharpCreateEvent()
{
HANDLE hEvent = CreateEvent(NULL, TRUE, FALSE, NULL);
printf("\nEvent句柄值: %#08x ", hEvent);
}
然後導出一個 CSharpCreateEvent
方法給 C# 使用。
internal class Program
{
[DllImport("Example_20_1_5", CallingConvention = CallingConvention.Cdecl)]
extern static void CSharpCreateEvent();
static void Main(string[] args)
{
try
{
while (true)
{
Task.Run(() =>
{
CSharpCreateEvent();
});
Thread.Sleep(10);
}
}
catch (Exception ex)
{
Console.WriteLine(ex.Message);
}
Console.ReadLine();
}
}
程式跑起來後,在任務管理器中會發現這個句柄在不斷的上漲,截圖如下:
2. 到底是誰在泄露
如果你的生產環境可以用 WinDbg 附加進程,那用它就可以輕鬆解決,可以藉助 !handle
命令看一下泄露的句柄類型。
0:004> !handle
...
Handle 16fc
Type Event
1411 Handles
Type Count
None 6
Event 1337
File 16
Directory 4
Mutant 3
WindowStation 2
Semaphore 5
Key 10
Thread 8
Desktop 1
IoCompletion 5
TpWorkerFactory 3
ALPC Port 1
WaitCompletionPacket 10
從統計信息看,當前 Event 高達 1337 個,看樣子程式存在 Event 泄露,接下來我們就要洞察到底是誰分配的 Event,如果能找到分配 Event 的線程棧,那這個問題就會迎刃而解,對吧,有 WinDbg 在,方圓3公裡的bug都要移民,追蹤調用棧可以使用 WinDbg 提供的 !htrace
命令。
它的原理很簡單,一句話表示就是:挖出現在時間點和快照之間那些沒有被 free 處理的 handle 調用棧,結果一清二楚,參考代碼如下:
0:011> !htrace -enable
Handle tracing enabled.
Handle tracing information snapshot successfully taken.
0:011> g
(e14.90c0): Break instruction exception - code 80000003 (first chance)
eax=006f2000 ebx=00000000 ecx=7777dfe0 edx=10088020 esi=7777dfe0 edi=7777dfe0
eip=77744e50 esp=0811f97c ebp=0811f9a8 iopl=0 nv up ei pl zr na pe nc
cs=0023 ss=002b ds=002b es=002b fs=0053 gs=002b efl=00000246
ntdll!DbgBreakPoint:
77744e50 cc int 3
0:007> !htrace -diff
Handle tracing information snapshot successfully taken.
0xad new stack traces since the previous snapshot.
Ignoring handles that were already closed...
Outstanding handles opened since the previous snapshot:
--------------------------------------
Handle = 0x0000199c - OPEN
Thread ID = 0x000017c8, Process ID = 0x00000e14
0x4ac3d761: +0x4ac3d761
0x4aa0d9f5: +0x4aa0d9f5
0x6674d9c4: +0x6674d9c4
0x66547f33: +0x66547f33
0x6654901a: +0x6654901a
0x776c17c3: +0x776c17c3
0x776c11b9: +0x776c11b9
0x665438c9: +0x665438c9
0x665432bd: +0x665432bd
0x66725089: +0x66725089
0x66724c73: +0x66724c73
0x66724c1e: +0x66724c1e
0x77742f7c: ntdll!NtCreateEvent+0x0000000c
0x770f5746: KERNELBASE!CreateEventExW+0x00000056
0x770e2b04: KERNELBASE!CreateEventW+0x00000024
*** WARNING: Unable to verify checksum for D:\skyfly\20.20230628\src\Example\Example_20_1_4\bin\x86\Debug\net6.0\Example_20_1_5.DLL
0x6ac91755: Example_20_1_5!CSharpCreateEvent+0x00000035
--------------------------------------
...
Displayed 0xaa stack traces for outstanding handles opened since the previous snapshot.
從卦中短暫的時間內快照之間有 170
個句柄沒有被釋放,而且從調用棧看是 Example_20_1_5!CSharpCreateEvent
方法所致,但這裡有一個問題,雖然有非托管棧,但沒有看到任何托管部分,那怎麼辦呢?
3. 如何洞察到托管棧
其實這個問題很簡單,既然都 WinDbg 附加了,乾脆用 bp 下斷點,後續泄露之時必然會被命中,然後通過 !clrstack
或者 k
觀察線程棧即可,有了思路就開乾。
:007> bp Example_20_1_5!CSharpCreateEvent "k; gc"
breakpoint 0 redefined
0:007> g
# ChildEBP RetAddr
00 0848f9e4 080674f3 Example_20_1_5!CSharpCreateEvent [D:\skyfly\20.20230628\src\Example\Example_20_1_5\Example_20_1_5.cpp @ 15]
WARNING: Frame IP not in any known module. Following frames may be wrong.
01 0848f9e4 0806748b 0x80674f3
02 0848f9f0 0806e3dd Example_20_1_4!Example_20_1_4.Program.<>c.<Main>b__1_0+0x1b
03 0848f9fc 0806e38d System_Private_CoreLib!System.Threading.Tasks.Task.InnerInvoke+0x3d
04 0848fa04 0806e307 System_Private_CoreLib!System.Threading.Tasks.Task.<>c.<.cctor>b__272_0+0xd
05 0848fa2c 0806e072 System_Private_CoreLib!System.Threading.ExecutionContext.RunFromThreadPoolDispatchLoop+0x37
06 0848fa94 0806c49f System_Private_CoreLib!System.Threading.Tasks.Task.ExecuteWithThreadLocal+0x82
07 0848faec 6b22f2bc System_Private_CoreLib!System.Threading.ThreadPoolWorkQueue.Dispatch+0x1bf
08 0848fb88 6b216595 System_Private_CoreLib!System.Threading.PortableThreadPool.WorkerThread.WorkerThreadStart+0xdc [/_/src/libraries/System.Private.CoreLib/src/System/Threading/PortableThreadPool.WorkerThread.cs @ 63]
09 0848fb98 6c00c30f System_Private_CoreLib!System.Threading.Thread.StartCallback+0x35 [/_/src/coreclr/System.Private.CoreLib/src/System/Threading/Thread.CoreCLR.cs @ 106]
0a 0848fba4 6bf5c07b coreclr!CallDescrWorkerInternal+0x34
0b 0848fbd8 6bf6799a coreclr!CallDescrWorkerWithHandler+0x66 [D:\a\_work\1\s\src\coreclr\vm\callhelpers.cpp @ 69]
0c 0848fc20 6bff619b coreclr!DispatchCallSimple+0x7f [D:\a\_work\1\s\src\coreclr\vm\callhelpers.cpp @ 220]
0d 0848fc44 6bf7c7df coreclr!ThreadNative::KickOffThread_Worker+0x4b [D:\a\_work\1\s\src\coreclr\vm\comsynchronizable.cpp @ 158]
0e (Inline) -------- coreclr!ManagedThreadBase_DispatchInner+0x3d [D:\a\_work\1\s\src\coreclr\vm\threads.cpp @ 7321]
0f 0848fcc8 6bf7c70f coreclr!ManagedThreadBase_DispatchMiddle+0x8c [D:\a\_work\1\s\src\coreclr\vm\threads.cpp @ 7365]
10 0848fd20 6bf1116f coreclr!ManagedThreadBase_DispatchOuter+0x62 [D:\a\_work\1\s\src\coreclr\vm\threads.cpp @ 7543]
11 (Inline) -------- coreclr!ManagedThreadBase_FullTransition+0x21 [D:\a\_work\1\s\src\coreclr\vm\threads.cpp @ 7569]
12 (Inline) -------- coreclr!ManagedThreadBase::KickOff+0x21 [D:\a\_work\1\s\src\coreclr\vm\threads.cpp @ 7604]
13 0848fd54 755b00f9 coreclr!ThreadNative::KickOffThread+0x7f [D:\a\_work\1\s\src\coreclr\vm\comsynchronizable.cpp @ 230]
14 0848fd64 77737bbe KERNEL32!BaseThreadInitThunk+0x19
15 0848fdc0 77737b8e ntdll!__RtlUserThreadStart+0x2f
16 0848fdd0 00000000 ntdll!_RtlUserThreadStart+0x1b
...
從卦中看,一切都非常明白,這裡再補充一點,如果想中途再產生 快照,可以用 -snapshot
命令創建一個初始點,參考如下:
0:007> !htrace -snapshot
Handle tracing information snapshot successfully taken.
三:總結
handle 泄露也是一個比較難搞的問題,難點在於生產環境可能不讓你用 WinDbg 這種侵入方式,但問題還得要解決,必須創造條件上,當前除了 WinDbg 還沒有找到其他方式,有機會再研究下吧。