我司使用Apache DolphinScheduler作為調度框架很久了,感興趣的小伙伴可以看看這些乾貨文章: 因為之前監控到會出現重覆的調度的問題,所以此文記錄排查重覆調度問題的全過程,希望對社區其他的小伙伴能夠起到拋磚引玉的作用! 註:本文使用的DolphinScheduler 3.1.1的版本 ...
[20240313]使用tpt ashtop.sql腳本的困惑.txt
--//使用tpt ashtop.sql腳本遇到的問題,做一些分析以及說明:
1.環境:
[email protected]:9014/ywdb> @ver1
PORT_STRING VERSION BANNER
------------------------------ -------------- --------------------------------------------------------------------------------
x86_64/Linux 2.4.xx 11.2.0.4.0 Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production
2.問題:
[email protected]:9014/ywdb> @ ashtop sql_id sql_id='2cqbg080kv9uh' &day
Total Distinct Distinct
Seconds AAS %This SQL_ID FIRST_SEEN LAST_SEEN Execs Seen Tstamps
--------- ------- ------- ------------- ------------------- ------------------- ---------- --------
5 .0 100% | 2cqbg080kv9uh 2024-03-12 14:24:04 2024-03-13 10:54:39 1 5
--//Distinct Execs Seen =1,Distinct Tstamps=5,按照我以前的理解,Distinct Execs Seen相當於執行次數,Distinct Tstamps相當於
--//總的執行時間(註:兩條相同sql語句同時執行,sample_time總會有一點點不同,相同的概率應該很低),除非很密集的執行也許可能出現
--//sample_time相同的情況.
--//我看過這條sql語句應該很快完成,根本不可能1次執行需要5秒.
--//感覺那裡不對。
3.分析:
--//查看ashtop.sql腳本:
...
, COUNT(DISTINCT sql_exec_start||':'||sql_exec_id) dist_sqlexec_seen
, COUNT(DISTINCT sample_time) dist_timestamps
...
SELECT sql_id, sql_exec_start || ':' || sql_exec_id, sample_time
FROM gV$ACTIVE_SESSION_HISTORY
WHERE sql_id = '2cqbg080kv9uh'
AND sample_time BETWEEN SYSDATE - 1 AND SYSDATE;
SQL_ID SQL_EXEC_START||':'||SQL_EXEC_ID SAMPLE_TIME
------------- -------------------------------- -----------------------
2cqbg080kv9uh : 2024-03-12 21:38:48.048
2cqbg080kv9uh : 2024-03-13 10:54:39.810
2cqbg080kv9uh : 2024-03-13 08:15:53.122
2cqbg080kv9uh : 2024-03-12 18:41:53.370
2cqbg080kv9uh : 2024-03-12 14:24:04.705
--//噢!! 原來gV$ACTIVE_SESSION_HISTORY視圖有一些情況並沒有抓取到SQL_EXEC_START,SQL_EXEC_ID的值,這樣看到dist_sqlexec_seen=1.
--//不清楚怎麼時候會出現這樣的情況。
4.總結:
--//Distinct Execs Seen,Distinct Tstamps 只能作為參考.
--//感覺tpt ashtop.sql腳本應該修改為:
COL dist_sqlexec_seen1 HEAD "Distinct|Execs Seen1" FOR 999999
...
, COUNT(DISTINCT decode(sql_exec_start||':'||sql_exec_id,':',to_char(sample_time,'yyyymmdd hh24:mi:ss.ff3'),sql_exec_start||':'||sql_exec_id)) dist_sqlexec_seen1
--//或者再增加一個欄位也許更加合理一些.
[email protected]:9014/ywdb> @ ashtop sql_id sql_id='g7ytdh9mxt1s0' &day
Total Distinct Distinct Distinct
Seconds AAS %This SQL_ID FIRST_SEEN LAST_SEEN Execs Seen Tstamps Execs Seen1
--------- ------- ------- ------------- ------------------- ------------------- ---------- -------- -----------
991 .0 100% | g7ytdh9mxt1s0 2024-03-17 11:52:15 2024-03-18 11:51:11 636 987 991
[email protected]:9014/ywdb> @ sql_id g7ytdh9mxt1s0
--SQL_ID = g7ytdh9mxt1s0
select count ( :"SYS_B_0" ) from BSOFT_TEST_CONNECT ;
--//這條語句執行頻率非常高, 執行很快,dist_timestamps=987,如果前面dist_sqlexec_seen表示執行次數,明顯不妥.
--//dist_sqlexec_seen1=991,說明有4次(991-987)的sample_time存在重覆的.