Java服務剛啟動時,一小波介面超時排查全過程

来源:https://www.cnblogs.com/codelogs/archive/2023/07/23/17575948.html
-Advertisement-
Play Games

> 原創:扣釘日記(微信公眾號ID:codelogs),歡迎分享,非公眾號轉載保留此聲明。 ### 簡介 我們組有一個流量較大的Java服務,每次發代碼時,服務都會有一小波介面超時,之前簡單分析過,發現這些超時的case僅發生在服務剛啟動時,少量請求會耗時好幾秒,但之後又馬上恢復正常。 ### 問題 ...


原創:扣釘日記(微信公眾號ID:codelogs),歡迎分享,非公眾號轉載保留此聲明。

簡介

我們組有一個流量較大的Java服務,每次發代碼時,服務都會有一小波介面超時,之前簡單分析過,發現這些超時的case僅發生在服務剛啟動時,少量請求會耗時好幾秒,但之後又馬上恢復正常。

問題發生

如下,是我們服務的一次上線,可以看到,上線期間(21:10左右)會有一小波499超時。
deploy_slow

而從我們全鏈路日誌平臺查看這些超時的調用,會發現外部網路操作(如:rpc調用、查詢資料庫等)耗時不高,所以耗時來源於執行java代碼而非外部調用。

但為啥就剛啟動完成那會比較耗時,之後又正常了呢,有點經驗的話,肯定會想到這裡面估計發生了什麼隱式操作,那Java代碼執行時會有哪些隱式操作可能導致耗時高呢?
我想到瞭如下幾種情況:

  1. 懶載入操作,如連接池初始化、緩存載入?

經過檢查,發現這些都已在啟動時載入,不會延遲到請求時。

  1. 發生了GC?

經過檢查,啟動時GC正常,耗時不高。

  1. JIT即時編譯功能導致?

java代碼預設是解釋執行的,當某些代碼被多次執行後,會被JIT編譯成原生指令執行,執行性能相應提升,但我通過JVM參數-Xint關閉了JIT後,發現問題依然存在,故排除了此原因。

  1. 執行過程中有鎖?

經過檢查代碼,未發現鎖的存在。

  1. 操作系統相關隱式操作,上下文切換、缺頁中斷、文件io慢?

經初步檢查,CPU、記憶體、磁碟使用率都正常,這部分深入排查比較費力,且有許可權限制,暫先跳過。

那會是什麼原因導致的?

問題排查

暫時沒啥頭緒,我打算先用arthas的profile命令,收集一些CPU火焰圖看看。

由於超時僅發生在剛啟動完成後的部分請求,之後又恢復正常,故我計劃在啟動完成後開始收集火焰圖,每次收集10s的火焰圖,收集3次,然後對比前後的火焰圖,看看它們有什麼不同,收集腳本如下:

function flamegraph_sample(){
    # 不斷檢測服務直到它啟動完成
    while sleep 1; do curl -sS --connect-timeout 3 -m3 http://127.0.0.1:8080/health | grep ok && break; done
    pid=`pgrep -n java`
    for i in {1..3}; do
        java -jar arthas-boot.jar -c "profiler start --alluser" "$pid";
        sleep 10s;
        java -jar arthas-boot.jar -c "profiler stop --file /tmp/flamegraph_cpu_%t.html " "$pid";
    done
    java -jar arthas-boot.jar -c "stop" "$pid";
}

生成的前2個火焰圖如下:
cpu_flamegraph
cpu_flamegraph2
乍一看,火焰圖中沒有明顯的瓶頸點,但經過仔細查看,在第一張火焰圖中搜索ClassLoader,可以搜到不少類載入操作(紅色部分),而第二張則基本沒有!

難道是類載入導致的?目前我有80%信心懷疑就是它導致的,但類載入有那麼慢?

為此,我計劃使用profile命令的-e wall模式收集剛啟動完成時的調用棧,並使用jfr格式保存數據,其中wall模式適合診斷高耗時問題,而jfr格式數據會保存時間戳與線程名稱,適合case by case分析,命令如下:

profiler start -e wall --file /tmp/result.jfr

收集到jfr文件後,使用jmc工具打開,然後我在日誌平臺上找到一個慢調用日誌,它顯示http-nio-8080-exec-28線程在21:14:1021:14:18時間段是一次耗時近8s的慢調用,所以我用此條件在jmc里過濾出此case的調用棧數據,如下:
wall_jfr_jmc
可以發現,確實絕大多數耗時發生在類載入上,類載入之所以慢是因為載入類有鎖競爭,而我們介面由於查表較多,確實會觸發非常多類的載入,所以問題比較明顯。

問題解決

知道原因後,解決起來就簡單了,把類提前載入到JVM即可,為了簡單,我直接使用了spring中的工具方法,如下:

private static final String[] CLASS_PREFIX_ARR = new String[] {
                "org.apache", "com.thoughtworks", "io.netty", "com.google", "io.grpc",
                "com.alibaba", "org.springframework", "cn.hutool", "com.fasterxml", "org.hibernate", 
                "io.opencensus", "org.redisson", "io.micrometer", "io.prometheus",
        };

PathMatchingResourcePatternResolver resolver = new PathMatchingResourcePatternResolver();
for (String classPrefix : CLASS_PREFIX_ARR) {
    Resource[] resources;
    try {
        resources = resolver.getResources(
                "classpath*:" + StringUtils.replaceChars(classPrefix, '.', '/') + "/**/*.class");
    } catch (IOException e) {
        ExceptionUtils.rethrow(e);
        return;
    }
    for (Resource resource : resources) {
        String className = null;
        try (InputStream is = resource.getInputStream()) {
            ClassReader cr = new ClassReader(is);
            className = StringUtils.replaceChars(cr.getClassName(), '/', '.');
            Class<?> clz = Class.forName(className);
            log.info("preLoadClass success: " + className + ", classLoader: " + clz.getClassLoader());
        } catch (Throwable e) { 
            log.warn("preLoadClass failed: " + className);
        }
    }
}

類預載入上線後,後面又進行過多次代碼發佈,發佈過程中幾乎不會再產生超時情況,問題確認已解決。

總結

此次問題的排查過程,還是用到了不少排查技巧的,總結一下:

  1. 當看起來不應該慢的代碼執行慢時,可以想想有哪些可能的隱式操作存在,此次case的隱式操作就是類載入。
  2. 當診斷問題沒有頭緒時,可考慮使用arthas的profile命令來繪製火焰圖,看從火焰圖中能不能找到線索,儘管不會總是有效。
  3. 當從CPU火焰圖中看不出明顯問題時,可通過對比問題前後的火焰圖來找不同點。
  4. 理解profile的-e cpu(預設)與-e wall選項的差異,一般-e cpu診斷高cpu問題,而-e wall診斷高耗時問題,但如果是偶爾慢一下,需要case by case分析,可考慮使用jfr格式保存診斷數據。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 一、mysql安裝 在配置Hive之前一般都需要安裝和配置MySQL,因為Hive為了能操作HDFS上的數據集,那麼他需要知道數據的切分格式,如行列分隔符,存儲類型,是否壓縮,數據的存儲地址等信息。 為了方便以後操作所以他需要將這些信息通過一張表存儲起來,然後將這張表(元數據)存儲到mysql ...
  • 【JavaScript寫法】數組去重 在進行項目開發的時候,有時候需要把一些前端的數組進行去重處理,得到一個去重後的數據,然後再進行相關的操作,這也是在前端面試中經常出現的問題 ...
  • - Vue 初始化 - 模板渲染 - 組件渲染 為了便於理解,本文將從以下兩個方面進行探索: - 從 Vue 初始化,到首次渲染生成 DOM 的流程。 - 從 Vue 數據修改,到頁面更新 DOM 的流程。 # Vue 初始化 先從最簡單的一段 Vue 代碼開始: """ {{ message }} ...
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • 一、前言 常見的DDD實現架構有很多種,如經典四層架構、六邊形(適配器埠)架構、整潔架構(Clean Architecture)、CQRS架構等。架構無優劣高下之分,只要熟練掌握就都是合適的架構。本文不會逐個去講解這些架構,感興趣的讀者可以自行去瞭解。 本文將帶領大家從日常的三層架構出發,精煉推導 ...
  • ## 介紹 ### 快速概覽 `settings.xml`文件中的 `settings` 元素包含用於定義以各種方式配置Maven執行的值的元素,如`pom.xml`,但不應綁定到任何特定項目或分發給受眾。這些值包括本地倉庫位置、備用遠程倉庫伺服器和身份驗證信息。 `settings.xml`文件可 ...
  • 搭建多Master多Slave模式(同步)集群時的java.lang.NullPointerException異常 一、運行環境等基本描述(問題產生原因是許可權問題,即許可權不夠導致無法啟動broker,甚至broker線程無法通過jps命令查出。下麵闡述分析思路) 1.1)操作系統:Linux 虛擬機 ...
  • 當涉及C++記憶體分區模型時,我們必須理解棧、堆和全局/靜態存儲區的概念。棧用於存儲函數調用和局部變數,堆用於動態記憶體分配,而全局/靜態存儲區用於全局變數和靜態變數。同時,我們還探討了棧幀重用現象,它可能在函數調用時導致局部變數地址重疊。瞭解這些記憶體分區的特點和優化行為,可以幫助我們編寫高效、可靠的C... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...