線上服務的FGC問題排查,看這篇就夠了!

来源:https://www.cnblogs.com/luojunwu/archive/2020/06/14/13128045.html
-Advertisement-
Play Games

線上服務的GC問題,是Java程式非常典型的一類問題,非常考驗工程師排查問題的能力。同時,幾乎是面試必考題,但是能真正答好此題的人並不多,要麼原理沒吃透,要麼缺乏實戰經驗。 過去半年時間里,我們的廣告系統出現了多次和GC相關的線上問題,有Full GC過於頻繁的,有Young GC耗時過長的,這些問 ...


線上服務的GC問題,是Java程式非常典型的一類問題,非常考驗工程師排查問題的能力。同時,幾乎是面試必考題,但是能真正答好此題的人並不多,要麼原理沒吃透,要麼缺乏實戰經驗。

過去半年時間里,我們的廣告系統出現了多次和GC相關的線上問題,有Full GC過於頻繁的,有Young GC耗時過長的,這些問題帶來的影響是:GC過程中的程式卡頓,進一步導致服務超時從而影響到廣告收入。

這篇文章,我將以一個FGC頻繁的線上案例作為引子,詳細介紹下GC的排查過程,另外會結合GC的運行原理給出一份實踐指南,希望對你有所幫助。內容分成以下3個部分:

1、從一次FGC頻繁的線上案例說起

2、GC的運行原理介紹

3、排查FGC問題的實踐指南


01 從一次FGC頻繁的線上案例說起

去年10月份,我們的廣告召回系統在程式上線後收到了FGC頻繁的系統告警,通過下麵的監控圖可以看到:平均每35分鐘就進行了一次FGC。而程式上線前,我們的FGC頻次大概是2天一次。下麵,詳細介紹下該問題的排查過程。


1. 檢查JVM配置

通過以下命令查看JVM的啟動參數:
ps aux | grep "applicationName=adsearch"

-Xms4g -Xmx4g -Xmn2g -Xss1024K
-XX:ParallelGCThreads=5
-XX:+UseConcMarkSweepGC
-XX:+UseParNewGC
-XX:+UseCMSCompactAtFullCollection
-XX:CMSInitiatingOccupancyFraction=80

可以看到堆記憶體為4G,新生代為2G,老年代也為2G,新生代採用ParNew收集器,老年代採用併發標記清除的CMS收集器,當老年代的記憶體占用率達到80%時會進行FGC。

進一步通過 jmap -heap 7276 | head -n20 可以得知新生代的Eden區為1.6G,S0和S1區均為0.2G。


2. 觀察老年代的記憶體變化

通過觀察老年代的使用情況,可以看到:每次FGC後,記憶體都能回到500M左右,因此我們排除了記憶體泄漏的情況。


3. 通過jmap命令查看堆記憶體中的對象

通過命令 jmap -histo 7276 | head -n20

上圖中,按照對象所占記憶體大小排序,顯示了存活對象的實例數、所占記憶體、類名。可以看到排名第一的是:int[],而且所占記憶體大小遠遠超過其他存活對象。至此,我們將懷疑目標鎖定在了 int[] .


4. 進一步dump堆記憶體文件進行分析

鎖定 int[] 後,我們打算dump堆記憶體文件,通過可視化工具進一步跟蹤對象的來源。考慮堆轉儲過程中會暫停程式,因此我們先從服務管理平臺摘掉了此節點,然後通過以下命令dump堆記憶體:

jmap -dump:format=b,file=heap 7276

通過JVisualVM工具導入dump出來的堆記憶體文件,同樣可以看到各個對象所占空間,其中int[]占到了50%以上的記憶體,進一步往下便可以找到 int[] 所屬的業務對象,發現它來自於架構團隊提供的codis基礎組件。


5. 通過代碼分析可疑對象

通過代碼分析,codis基礎組件每分鐘會生成約40M大小的int數組,用於統計TP99 和 TP90,數組的生命周期是一分鐘。而根據第2步觀察老年代的記憶體變化時,發現老年代的記憶體基本上也是每分鐘增加40多M,因此推斷:這40M的int數組應該是從新生代晉升到老年代。

我們進一步查看了YGC的頻次監控,通過下圖可以看到大概1分鐘有8次左右的YGC,這樣基本驗證了我們的推斷:因為CMS收集器預設的分代年齡是6次,即YGC 6次後還存活的對象就會晉升到老年代,而codis組件中的大數組生命周期是1分鐘,剛好滿足這個要求。

至此,整個排查過程基本結束了,那為什麼程式上線前沒出現此問題呢?通過上圖可以看到:程式上線前YGC的頻次在5次左右,此次上線後YGC頻次變成了8次左右,從而引發了此問題。


6. 解決方案

為了快速解決問題,我們將CMS收集器的分代年齡改成了15次,改完後FGC頻次恢復到了2天一次,後續如果YGC的頻次超過每分鐘15次還會再次觸發此問題。當然,我們最根本的解決方案是:優化程式以降低YGC的頻率,同時縮短codis組件中int數組的生命周期,這裡就不做展開了。


02 GC的運行原理介紹

上面整個案例的分析過程中,其實涉及到很多GC的原理知識,如果不懂得這些原理就著手處理,其實整個排查過程是很抓瞎的。

這裡,我選擇幾個最核心的知識點,展開介紹下GC的運行原理,最後再給出一份實踐指南。


1. 堆記憶體結構

大家都知道: GC分為YGC和FGC,它們均發生在JVM的堆記憶體上。先來看下JDK8的堆記憶體結構:

可以看到,堆記憶體採用了分代結構,包括新生代和老年代。新生代又分為:Eden區,From Survivor區(簡稱S0),To Survivor區(簡稱S1區),三者的預設比例為8:1:1。另外,新生代和老年代的預設比例為1:2。

堆記憶體之所以採用分代結構,是考慮到絕大部分對象都是短生命周期的,這樣不同生命周期的對象可放在不同的區域中,然後針對新生代和老年代採用不同的垃圾回收演算法,從而使得GC效率最高。


2. YGC是什麼時候觸發的?

大多數情況下,對象直接在年輕代中的Eden區進行分配,如果Eden區域沒有足夠的空間,那麼就會觸發YGC(Minor GC),YGC處理的區域只有新生代。因為大部分對象在短時間內都是可收回掉的,因此YGC後只有極少數的對象能存活下來,而被移動到S0區(採用的是複製演算法)。

當觸發下一次YGC時,會將Eden區和S0區的存活對象移動到S1區,同時清空Eden區和S0區。當再次觸發YGC時,這時候處理的區域就變成了Eden區和S1區(即S0和S1進行角色交換)。每經過一次YGC,存活對象的年齡就會加1。


3. FGC又是什麼時候觸發的?

下麵4種情況,對象會進入到老年代中:

1、YGC時,To Survivor區不足以存放存活的對象,對象會直接進入到老年代。

2、經過多次YGC後,如果存活對象的年齡達到了設定閾值,則會晉升到老年代中。

3、動態年齡判定規則,To Survivor區中相同年齡的對象,如果其大小之和占到了 To Survivor區一半以上的空間,那麼大於此年齡的對象會直接進入老年代,而不需要達到預設的分代年齡。

4、大對象:由-XX:PretenureSizeThreshold啟動參數控制,若對象大小大於此值,就會繞過新生代, 直接在老年代中分配。


當晉升到老年代的對象大於了老年代的剩餘空間時,就會觸發FGC(Major GC),FGC處理的區域同時包括新生代和老年代。除此之外,還有以下4種情況也會觸發FGC:

1、老年代的記憶體使用率達到了一定閾值(可通過參數調整),直接觸發FGC。

2、空間分配擔保:在YGC之前,會先檢查老年代最大可用的連續空間是否大於新生代所有對象的總空間。如果小於,說明YGC是不安全的,則會查看參數 HandlePromotionFailure 是否被設置成了允許擔保失敗,如果不允許則直接觸發Full GC;如果允許,那麼會進一步檢查老年代最大可用的連續空間是否大於歷次晉升到老年代對象的平均大小,如果小於也會觸發 Full GC。

3、Metaspace(元空間)在空間不足時會進行擴容,當擴容到了-XX:MetaspaceSize 參數的指定值時,也會觸發FGC。

4、System.gc() 或者Runtime.gc() 被顯式調用時,觸發FGC。


4. 在什麼情況下,GC會對程式產生影響?

不管YGC還是FGC,都會造成一定程度的程式卡頓(即Stop The World問題:GC線程開始工作,其他工作線程被掛起),即使採用ParNew、CMS或者G1這些更先進的垃圾回收演算法,也只是在減少卡頓時間,而並不能完全消除卡頓。

那到底什麼情況下,GC會對程式產生影響呢?根據嚴重程度從高到底,我認為包括以下4種情況:

1、FGC過於頻繁:FGC通常是比較慢的,少則幾百毫秒,多則幾秒,正常情況FGC每隔幾個小時甚至幾天才執行一次,對系統的影響還能接受。但是,一旦出現FGC頻繁(比如幾十分鐘就會執行一次),這種肯定是存在問題的,它會導致工作線程頻繁被停止,讓系統看起來一直有卡頓現象,也會使得程式的整體性能變差。

2、YGC耗時過長:一般來說,YGC的總耗時在幾十或者上百毫秒是比較正常的,雖然會引起系統卡頓幾毫秒或者幾十毫秒,這種情況幾乎對用戶無感知,對程式的影響可以忽略不計。但是如果YGC耗時達到了1秒甚至幾秒(都快趕上FGC的耗時了),那卡頓時間就會增大,加上YGC本身比較頻繁,就會導致比較多的服務超時問題。

3、FGC耗時過長:FGC耗時增加,卡頓時間也會隨之增加,尤其對於高併發服務,可能導致FGC期間比較多的超時問題,可用性降低,這種也需要關註。

4、YGC過於頻繁:即使YGC不會引起服務超時,但是YGC過於頻繁也會降低服務的整體性能,對於高併發服務也是需要關註的。

其中,「FGC過於頻繁」和「YGC耗時過長」,這兩種情況屬於比較典型的GC問題,大概率會對程式的服務質量產生影響。剩餘兩種情況的嚴重程度低一些,但是對於高併發或者高可用的程式也需要關註。


03 排查FGC問題的實踐指南

通過上面的案例分析以及理論介紹,再總結下FGC問題的排查思路,作為一份實踐指南供大家參考。


1. 清楚從程式角度,有哪些原因導致FGC?

1、大對象:系統一次性載入了過多數據到記憶體中(比如SQL查詢未做分頁),導致大對象進入了老年代。

2、記憶體泄漏:頻繁創建了大量對象,但是無法被回收(比如IO對象使用完後未調用close方法釋放資源),先引發FGC,最後導致OOM.

3、程式頻繁生成一些長生命周期的對象,當這些對象的存活年齡超過分代年齡時便會進入老年代,最後引發FGC. (即本文中的案例)

4、程式BUG導致動態生成了很多新類,使得 Metaspace 不斷被占用,先引發FGC,最後導致OOM.

5、代碼中顯式調用了gc方法,包括自己的代碼甚至框架中的代碼。

6、JVM參數設置問題:包括總記憶體大小、新生代和老年代的大小、Eden區和S區的大小、元空間大小、垃圾回收演算法等等。


2. 清楚排查問題時能使用哪些工具

1、公司的監控系統:大部分公司都會有,可全方位監控JVM的各項指標。

2、JDK的自帶工具,包括jmap、jstat等常用命令:

查看堆記憶體各區域的使用率以及GC情況
jstat -gcutil -h20 pid 1000

查看堆記憶體中的存活對象,並按空間排序
jmap -histo pid | head -n20

dump堆記憶體文件
jmap -dump:format=b,file=heap pid

3、可視化的堆記憶體分析工具:JVisualVM、MAT等


3. 排查指南

1、查看監控,以瞭解出現問題的時間點以及當前FGC的頻率(可對比正常情況看頻率是否正常)

2、瞭解該時間點之前有沒有程式上線、基礎組件升級等情況。

3、瞭解JVM的參數設置,包括:堆空間各個區域的大小設置,新生代和老年代分別採用了哪些垃圾收集器,然後分析JVM參數設置是否合理。

4、再對步驟1中列出的可能原因做排除法,其中元空間被打滿、記憶體泄漏、代碼顯式調用gc方法比較容易排查。

5、針對大對象或者長生命周期對象導致的FGC,可通過 jmap -histo 命令並結合dump堆記憶體文件作進一步分析,需要先定位到可疑對象。

6、通過可疑對象定位到具體代碼再次分析,這時候要結合GC原理和JVM參數設置,弄清楚可疑對象是否滿足了進入到老年代的條件才能下結論。


04 最後的話

這篇文章通過線上案例並結合GC原理詳細介紹了FGC的排查過程,同時給出了一份實踐指南。

後續會以類似的方式,再分享一個YGC耗時過長的案例,希望能幫助大家吃透GC問題排查,如果覺得本文對你有幫助,請大家關註我的個人公眾號!


- End -

作者簡介:程式員,985碩士,前亞馬遜Java工程師,現58轉轉技術總監。持續分享技術和管理方向的文章。如果感興趣,可微信掃描下麵的二維碼關註我的公眾號:『IT人的職場進階』


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 題庫管理 22. 圖片庫:創建文件目錄,維護圖片,供題庫選擇調用 23. 單選題:維護單選試題,試題題目,選項,答案,類型,級別,狀態,解析 24. 多選題:維護多選試題,試題題目,選項,答案,類型,級別,狀態,解析 25. 判斷題:維護判斷試題,試題題目,答案,類型,級別,狀態,解析 26. 填空 ...
  • 2020年春節的這場疫情讓線下零售降至冰點,但是卻帶火了直播應用。直播電商、直播教育等各類直播應用可謂贏得了歷史性的機會,很多大眾開始接受並認可這種新型應用的便利和價值,個人感覺隨著5G的普及,『直播+垂直領域+精細化的私域流量』將會是互聯網的一個大熱點,迎來真正的紅利期。 直播行業大概在10年多前 ...
  • 重做永遠比改造簡單 最近在做一個項目,將一個其他公司的實現系統(下文稱作舊系統),完整的整合到自己公司的系統(下文稱作新系統)中,這其中需要將對方實現的功能完整在自己系統也實現一遍。 舊系統還有一批存量商戶,為了不影響存量商戶的體驗,新系統提供的對外介面,還必須得跟以前一致。最後系統完整切換之後,功 ...
  • 從url到ip地址 dns解析 瀏覽器檢查功能變數名稱是否在緩存當中 如果緩存中沒有,就去調用 gethostbyname 庫函數進行查詢。 gethostbyname 函數在試圖進行DNS解析之前首先檢查功能變數名稱是否在本地 Hosts 里 沒有緩存,也沒有在 hosts 里找到,則將會向 DNS 伺服器發送一 ...
  • 一、編寫窗體 1.左右邊距、按鈕 package com.bjpowernode.java_learning; ​ import java.awt.Button; import java.awt.FlowLayout; import java.awt.Frame; ​ public class D1 ...
  • 1.XML映射器 2.select Select元素來定義查詢操作 Id:唯一標識符 - 用來引用這條語句,需要和介面的方法名一致 parameterType:參數類型 - 可以不傳,MyBatis會根據TypeHandler自動推斷 resultType:返回值類型 - 別名或者全類名,如果返回的 ...
  • 上面這張監控圖,對於服務端的研發同學來說再熟悉不過了。在日常的系統維護中,『服務超時』應該屬於監控報警最多的一類問題。 尤其在微服務架構下,一次請求可能要經過一條很長的鏈路,跨多個服務調用後才能返回結果。當服務超時發生時,研發同學往往要抽絲剝繭般去分析自身系統的性能以及依賴服務的性能,這也是為什麼服 ...
  • 根據https://www.runoob.com/cplusplus/cpp-date-time.html編寫。 首先介紹2個數據類型。 一個是time_t,與時間函數相關的變數,定義的變數記錄著自 1970 年 1 月 1 日以來經過的秒數,也稱作時間戳。 另一個是結構體tm, struct tm ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...