本文在前一篇文章的基礎上,對進程執行監控工具(execsnoop)進行了升級,實時列印進程執行時傳入的參數列表;並通過 `kprobe` 和 `tracepoint` 兩種方式,綁定 eBPF 程式,給出了代碼實現。同時,對這兩種 eBPF 事件類型進行了簡單比較。顯然,在你手動開發一個 eBPF ... ...
本文是 eBPF 系列的第二篇文章,我們來學習 eBPF BCC 框架的進階用法,對上一篇文章中的代碼進行升級,動態輸出進程運行時的參數情況。
主要內容包括:
- 通過
kprobe
掛載內核事件的 eBPF 程式要如何編寫?- 通過
tracepoint
掛載內核事件的 eBPF 程式要如何編寫?- eBPF 的程式事件類型有哪些?
在開始之前,我們來回顧一下前一篇文章的內容。
前一篇文章介紹瞭如何通過 BCC 框架來編寫一個簡單的 eBPF 程式。在內核空間,使用 c
程式實現 eBPF 的核心邏輯;在用戶空間,使用 python
腳本作為 eBPF 程式的控制、載入和展示。其中,內核態通過若幹 eBPF helper 函數,獲取內核觀測數據,並通過 PERF
區域,將這些數據傳遞到用戶空間;用戶態使用attach_kprobe()
將內核 eBPF 函數綁定到某個內核事件上。
整個流程如下圖所示:
在上面的實現過程中,用戶態通過 kprobe
的方式,為某個內核事件掛載自定義處理邏輯(圖中是指定了內核中 do_execve
函數)。通過這種方式,我們能夠監測絕大部分的內核函數,這正是 eBPF 技術牛逼的原因。
對於這種 kprobe
類型的 eBPF 程式,我們再來看一個例子(改編自 Brendan Gregg 大神的 execsnoop
工具:https://github.com/iovisor/bcc/blob/master/tools/execsnoop.py )
1 進程執行參數的監控
接下來,我們要對上圖中的工具再次進行功能升級,我希望這個工具在運行時,能夠輸出當前執行進程的參數信息。
如果將 eBPF 程式等同於 C 程式來看,這個問題似乎沒那麼困難。何以見得?
1.1 分析
sys_execve
系統調用的函數簽名為:int execve(const char *filename, char *const argv[], char *const envp[])
, 其中,argv[]
便記錄了進程執行的參數。我們大可以像提取 filename
的方式那樣,提取 argv[]
,並將其傳入到用戶空間中。
但實際上,eBPF 程式與 C 程式並不等同。eBPF 編程中有 “兩座大山” 般的限制,分別是:
限制一:eBPF 程式運行棧僅有 512 位元組。
限制二:eBPF 程式可以調用的介面極其有限。
因此,如果我們想嘗試在 512 位元組的 eBPF 運行棧中完整拼接整理不定長的 argv[]
參數列表,是根本不可能的。
基於以上分析,本文給出一個比較合理的解決方案:
Q:如何防止運行棧爆棧?
1)既然運行棧有大小限制,不如直接將拼接操作轉移到用戶態完成。eBPF 程式只需要將 argv[]
數組中每個 argv
傳輸到用戶態程式中。
2)對於長度過長的 argv
,沒辦法了,只能手動截斷了。
Q:用戶態何時進行參數拼接?何時進行參數展示?
1)既然需要用戶態完成拼接,那麼,可以分為兩個階段。STEP-1,僅專註字元串的拼接;STEP-2,僅專註字元串展示。
2)對於 execve
系統調用,我們可以在 enter 時執行 STEP-1 操作,在 exit 是執行 STEP-2 操作。
接下來更新代碼。
1.2 定義
首先,對於用於交互的結構體,增加兩個個欄位,其一用於記錄 execve
調用的每個參數,其二用於記錄 eBPF 執行的階段;同時,去掉冗餘欄位 fname
#define ARGSIZE 128
#define MAXARG 60
enum event_step {
STEP_1, // STEP 1: 執行 argv 拼接
STEP_2, // STEP 2: 執行 argv 展示
};
struct data_t {
u32 pid;
enum event_step step; // 記錄 eBPF 執行階段
char comm[TASK_COMM_LEN];
char argv[ARGSIZE]; // 記錄每一個參數
};
定義 BPF_PERF_OUTPUT
:
BPF_PERF_OUTPUT(events);
1.3 處理
實現 execve
系統調用 enter
和 exit
回調函數:
// exter execve
int syscall__execve(struct pt_regs *ctx, const char __user *filename,
const char __user *const __user *__argv,
const char __user *const __user *__envp) {
struct data_t data = {};
// 設置 step = STEP 1
data.step = STEP_1;
// 設置 pid
data.pid = bpf_get_current_pid_tgid() >> 32;
// 設置 comm
bpf_get_current_comm(&data.comm, sizeof(data.comm));
// 設置每一個 argv,並導出
...
return 0;
}
// exit execve
int do_ret_sys_execve(struct pt_regs *ctx) {
struct data_t data = {};
// 設置 step = STEP 1
data.step = STEP_2;
// 設置 pid
data.pid = bpf_get_current_pid_tgid() >> 32;
// 設置 comm
bpf_get_current_comm(&data.comm, sizeof(data.comm));
// 提交 perf
events.perf_submit(ctx, &data, sizeof(data));
return 0;
}
註意,這裡 bpf_get_current_pid_tgid()
輔助函數返回值高 32 為內核視角下的 process ID
(用戶視角下為 TID),低 32 位為內核視角下的 thread group ID
(用戶視角下的 PID)。這裡右移 32 位,是獲取用戶視角的 PID。
1.4 綁定
用戶態綁定 kprobe
事件:
b = BPF(src_file="execsnoop.c")
execve_fnname = b.get_syscall_fnname("execve")
# enter 事件
b.attach_kprobe(event=execve_fnname, fn_name="syscall__execve")
# exit 事件
b.attach_kretprobe(event=execve_fnname, fn_name="do_ret_sys_execve")
1.5 難點
內核態如何設置並導出每一個 argv[]
?
// 字元串提交
static int __submit_arg(struct pt_regs *ctx, void *ptr, struct data_t *data) {
// 提交 perf 之前,需要拷貝到用戶態變數中
bpf_probe_read_user(data->argv, sizeof(data->argv), ptr);
// 將這個 argv 提交
events.perf_submit(ctx, data, sizeof(struct data_t));
return 1;
}
// 字元串控制
static int submit_arg(struct pt_regs *ctx, void *ptr, struct data_t *data) {
const char *argp = NULL;
bpf_probe_read_user(&argp, sizeof(argp), ptr);
// 是否到達末尾字元串
if (argp) {
return __submit_arg(ctx, (void *)(argp), data);
}
return 0;
}
int syscall__execve(struct pt_regs *ctx, const char __user *filename,
const char __user *const __user *__argv,
const char __user *const __user *__envp) {
// 設置過程
...
// (A) 設置每一個 argv,並導出
#pragma unroll
for (int i = 1; i < MAXARG; i++) {
if (submit_arg(ctx, (void *)&__argv[i], &data) == 0)
goto out;
}
// (B) 如果當前的 argv[] 太長了,進行截斷操作
char ellipsis[] = "...";
__submit_arg(ctx, (void *)ellipsis, &data);
out:
return 0;
}
關註核心的兩個步驟:
(A) MAXARG
代表一個 argv[]
的最大監測數量。首先要遍歷這個 argv[]
的每一個字元串,如果這個字元不為 NULL
(說明沒有到當前 argv[]
結尾)或不超過最大值 MAXARG
,那麼將每個字元串提交到 PERF
區域。
註意:
低版本(5.3 以前)的 eBPF 程式不支持迴圈。5.3 版本後也僅支持有界迴圈。在低版本的 eBPF 中使用迴圈有一個小技巧,那就是通過#pragma unroll
進行編譯器迴圈展開預處理。
(B) 如果超過了這個最大數量 MAXARG
,後面及時再有參數,也進行截斷處理。
1.6 拼接
用戶態獲取和拼接參數列表是基於 eBPF 階段的。
from collections import defaultdict
argv = defaultdict(list)
class EventStep(object):
STEP_1 = 0
STEP_2 = 1
# PERF 事件回調處理
def print_event(cpu, data, size):
event = b["events"].event(data)
# STEP 1:拼接
if event.step == EventStep.STEP_1:
argv[event.pid].append(event.argv)
# STEP 2:顯示
elif event.step == EventStep.STEP_2:
argv_text = b' '.join(argv[event.pid]).replace(b'\n', b'\\n')
printb(b"%-16s %-7d %s" % (event.comm, event.pid, argv_text))
try:
del(argv[event.pid])
except Exception:
pass
# 綁定 PERF 事件回調處理
b["events"].open_perf_buffer(print_event)
while 1:
try:
b.perf_buffer_poll()
except KeyboardInterrupt:
exit()
用戶態程式需要註意:event
事件通過 PERF
獲取的結構數據為 Byte
類型,需要通過 decode('utf-8')
/encode()
與 str
類型進行轉換。
1.7 完整代碼和運行效果
// execsnoop.c
#include <linux/sched.h>
#include <linux/fs.h>
#define ARGSIZE 128
#define MAXARG 60
enum event_step {
STEP_1,
STEP_2,
};
struct data_t {
u32 pid;
enum event_step step;
char comm[TASK_COMM_LEN];
char argv[ARGSIZE];
};
BPF_PERF_OUTPUT(events);
static int __submit_arg(struct pt_regs *ctx, void *ptr, struct data_t *data) {
bpf_probe_read_user(data->argv, sizeof(data->argv), ptr);
events.perf_submit(ctx, data, sizeof(struct data_t));
return 1;
}
static int submit_arg(struct pt_regs *ctx, void *ptr, struct data_t *data) {
const char *argp = NULL;
bpf_probe_read_user(&argp, sizeof(argp), ptr);
if (argp) {
return __submit_arg(ctx, (void *)(argp), data);
}
return 0;
}
// exter execve
int syscall__execve(struct pt_regs *ctx, const char __user *filename,
const char __user *const __user *__argv,
const char __user *const __user *__envp) {
struct data_t data = {};
data.step = STEP_1;
data.pid = bpf_get_current_pid_tgid() >> 32;
bpf_get_current_comm(&data.comm, sizeof(data.comm));
#pragma unroll
for (int i = 1; i < MAXARG; i++) {
if (submit_arg(ctx, (void *)&__argv[i], &data) == 0)
goto out;
}
char ellipsis[] = "...";
__submit_arg(ctx, (void *)ellipsis, &data);
out:
return 0;
}
// exit execve
int do_ret_sys_execve(struct pt_regs *ctx) {
struct data_t data = {};
data.step = STEP_2;
data.pid = bpf_get_current_pid_tgid() >> 32;
bpf_get_current_comm(&data.comm, sizeof(data.comm));
events.perf_submit(ctx, &data, sizeof(data));
return 0;
}
# execsnoop.py
#!/usr/bin/python3
from bcc import BPF
from bcc.utils import printb
from collections import defaultdict
argv = defaultdict(list)
class EventStep(object):
STEP_1 = 0
STEP_2 = 1
b = BPF(src_file="execsnoop.c")
execve_fnname = b.get_syscall_fnname("execve")
b.attach_kprobe(event=execve_fnname, fn_name="syscall__execve")
b.attach_kretprobe(event=execve_fnname, fn_name="do_ret_sys_execve")
print("%-7s %-16s %s" % ("PID", "PCOMM", "ARGS"))
# process event
def print_event(cpu, data, size):
event = b["events"].event(data)
fname = ""
if event.step == EventStep.STEP_1:
argv[event.pid].append(event.argv)
elif event.step == EventStep.STEP_2:
argv_text = b' '.join(argv[event.pid]).replace(b'\n', b'\\n')
printb(b"%-7d %-16s %s" % (event.pid, event.comm, argv_text))
try:
del(argv[event.pid])
except Exception:
pass
# loop with callback to print_event
b["events"].open_perf_buffer(print_event)
while 1:
try:
b.perf_buffer_poll()
except KeyboardInterrupt:
exit()
運行效果:
2 Tracepoint 追蹤點
前文提到過,kprobe
方式,幾乎可以使 eBPF 掛載到內核中任意一個函數事件上,隨著內核函數的執行而觸發。但是,由於不同的內核版本,其某個具體函數的定義、參數和實現可能會有所不同(kprobe
實現的事件處理函數要求和掛載點函數擁有相同的參數)。因此,使用 kprobe
方式實現的 eBPF 程式可能無法在其他內核的主機上運行。此外,kprobe
無法掛載到靜態函數或內聯函數上。而出於性能考慮,大部分網路相關的內層函數都是內聯或者靜態的,因此,kprobe
方式在這些領域也只能望洋興嘆了。
上述兩點,均為 kprobe
方式的局限性,它並不具備很好的可移植性。於是,從 Linux 內核 4.7 開始,能讓 eBPF 使用的 tracepoint
出現了(官方文檔)。tracepoint
是由內核開發人員在代碼中設置的靜態 hook 點,具有穩定的 API 介面,不會隨著內核版本的變化而變化。但由於 tracepoint 是需要內核研發人員參數編寫,其數量有限,並不是所有的內核函數中都具有類似的跟蹤點,所以從靈活性上不如 kprobes 這種方式。
2.1 kprobe 和 tracepoint 對比
在 3.10 內核中,kprobe
與 tracepoint
方式對比如下:
內容 | kprobe | tracepoint |
---|---|---|
追蹤類型 | 動態 | 靜態 |
Hook 點數量 | 100000+ | 1200+ |
穩定的 API | 否 | 是 |
可以使用以下命令查看系統支持的 tracepoint
,支持 grep
檢索。
perf list
perf list | grep execve
上面的執行結果可以看到,execve
系統調用具有兩個 syscalls
類型的靜態跟蹤點,並且,tracepoint
已經對 enter 和 exit 做了區分,其功能基本等同於 kprobe
/kretprobe
。
在使用 tracepoint
之前,我們需要瞭解 tracepoint
相關參數的格式。syscalls:sys_enter_execve
格式定義在 /sys/kernel/debug/tracing/events/syscalls/sys_enter_execve/format
文件中。
# 查看 syscalls:sys_enter_execve 參數
cat /sys/kernel/debug/tracing/events/syscalls/sys_enter_execve/format
2.2 重構代碼
接下來,使用 tracepoint
方式重構第 1 節的代碼,如下:
// execsnoop.c
#include <linux/sched.h>
#include <linux/fs.h>
#define ARGSIZE 128
#define MAXARG 60
enum event_step {
STEP_1,
STEP_2,
};
struct data_t {
u32 pid;
char comm[TASK_COMM_LEN];
enum event_step step;
char argv[ARGSIZE];
};
BPF_PERF_OUTPUT(events);
static int __submit_arg(struct pt_regs *ctx, void *ptr, struct data_t *data) {
bpf_probe_read_user(data->argv, sizeof(data->argv), ptr);
events.perf_submit(ctx, data, sizeof(struct data_t));
return 1;
}
static int submit_arg(struct pt_regs *ctx, void *ptr, struct data_t *data) {
const char *argp = NULL;
bpf_probe_read_user(&argp, sizeof(argp), ptr);
if (argp) {
return __submit_arg(ctx, (void *)(argp), data);
}
return 0;
}
// (A) sys_enter_execve tracepoint
TRACEPOINT_PROBE(syscalls, sys_enter_execve) {
struct data_t data = {};
const char **argv = (const char **) (args->argv);
data.step = STEP_1;
data.pid = bpf_get_current_pid_tgid() >> 32;
bpf_get_current_comm(&data.comm, sizeof(data.comm));
#pragma unroll
for (int i = 1; i < MAXARG; i++) {
// (B) args 強制轉換為 ctx
if (submit_arg((struct pt_regs *)args, (void *)&argv[i], &data) == 0)
goto out;
}
char ellipsis[] = "...";
__submit_arg((struct pt_regs *)args, (void *)ellipsis, &data);
out:
return 0;
}
// sys_exit_execve tracepoint
TRACEPOINT_PROBE(syscalls, sys_exit_execve) {
struct data_t data = {};
data.step = STEP_2;
data.pid = bpf_get_current_pid_tgid() >> 32;
bpf_get_current_comm(&data.comm, sizeof(data.comm));
events.perf_submit(args, &data, sizeof(data));
return 0;
}
# execsnoop.py
#!/usr/bin/python3
from bcc import BPF
from bcc.utils import printb
from collections import defaultdict
argv = defaultdict(list)
class EventStep(object):
STEP_1 = 0
STEP_2 = 1
# (C) 不再通過 kprobe 綁定
b = BPF(src_file="execsnoop.c")
print("%-7s %-16s %s" % ("PID", "PCOMM", "ARGS"))
# process event
def print_event(cpu, data, size):
event = b["events"].event(data)
if event.step == EventStep.STEP_1:
argv[event.pid].append(event.argv)
elif event.step == EventStep.STEP_2:
argv_text = b' '.join(argv[event.pid]).replace(b'\n', b'\\n')
printb(b"%-7d %-16s %s" % (event.pid, event.comm, argv_text))
try:
del(argv[event.pid])
except Exception:
pass
# loop with callback to print_event
b["events"].open_perf_buffer(print_event)
while 1:
try:
b.perf_buffer_poll()
except KeyboardInterrupt:
exit()
註意:
A)一個 tracepoint
定義接收兩個參數,TRACEPOINT_PROBE(syscalls, sys_enter_execve)
第一個為子系統名稱,第二個為事件名稱。
B)tracepoint
中的所有參數都會包含在一個固定名稱的 args
的結構體中。args
類型為 struct tracepoint__syscalls__sys_enter_open
,其第一個欄位為 u64 __do_not_use__;
,該欄位為 ctx
的保留位置。因此,args
可以被強制轉換為 ctx
。
ctx
是啥?在《Linux 內核觀測技術 BPF》一書中,
ctx
被稱為“上下文”,提供了訪問內核正在處理的信息。我們可以通過PT_REGS_RC(ctx)
來獲取當前函數的返回值。
C)用戶態代碼不再需要 attach_kprobe
手動綁定。
3 eBPF 程式事件類型
像是 kprobe
、tracepoint
將 eBPF 程式掛載到內核事件的方式,可以暫且被稱為 eBPF 事件類型。事實上,除了以上列出的兩種,eBPF 事件類型還有很多,選取其中一些列舉如下:
kprobes/kretprobes
:內核函數事件。不再贅述。tracepoint
:內核跟蹤點事件。不再贅述。uprobes/uretprobes
:用戶空間函數事件,可以綁定監聽一個用戶空間的函數。USDT probes
:用戶自定義的靜態追蹤點。用戶可以在用戶空間的程式中插入靜態追蹤點,用於掛載 eBPF。LSM Probes
:LSM Hook 掛載點。需要內核版本 5.7 以上。
由於篇幅限制,不再列舉其他 eBPF 事件類型了,後面如果有精力,再補一篇文章。
4 總結
本文在前一篇文章的基礎上,對進程執行監控工具(execsnoop)進行了升級,實時列印進程執行時傳入的參數列表;並通過 kprobe
和 tracepoint
兩種方式,綁定 eBPF 程式,給出了代碼實現。同時,對這兩種 eBPF 事件類型進行了簡單比較。顯然,在你手動開發一個 eBPF 程式時,建議使用 tracepoint
,以追求更好的穩定性和可移植性。文章的最後,簡單列出了一些支持的 eBPF 事件類型。
以上拋磚引玉,如有不正確指出,請大家及時斧正。如果你喜歡這篇文章,請點個推薦吧!