同事寫了個驚天 bug,還不容易被髮現。。

来源:https://www.cnblogs.com/javastack/archive/2023/08/08/17613370.html
-Advertisement-
Play Games

作者:樹洞君 \ 鏈接:https://juejin.cn/post/7064376361334358046 # 事故描述 從6點32分開始少量用戶訪問app時會出現首頁訪問異常,到7點20分首頁服務大規模不可用,7點36分問題解決。 # 整體經過 6:58 發現報警,同時發現群里反饋首頁出現網路繁 ...


作者:樹洞君
鏈接:https://juejin.cn/post/7064376361334358046

事故描述

從6點32分開始少量用戶訪問app時會出現首頁訪問異常,到7點20分首頁服務大規模不可用,7點36分問題解決。

整體經過

6:58 發現報警,同時發現群里反饋首頁出現網路繁忙,考慮到前幾日晚上門店列表服務上線發佈過,所以考慮回滾代碼緊急處理問題。

7:07 開始先後聯繫XXX查看解決問題。

7:36 代碼回滾完,服務恢復正常。

事故根本原因-事故代碼模擬

public static void test() throws InterruptedException, ExecutionException {
    Executor executor = Executors.newFixedThreadPool(3);
    CompletionService<String> service = new ExecutorCompletionService<>(executor);
        service.submit(new Callable<String>() {
            @Override
            public String call() throws Exception {
                return "HelloWorld--" + Thread.currentThread().getName();
            }
        });
}

根源就在於ExecutorCompletionService結果沒 調用take,poll方法。

正確的寫法如下所示:

public static void test() throws InterruptedException, ExecutionException {
    Executor executor = Executors.newFixedThreadPool(3);
    CompletionService<String> service = new ExecutorCompletionService<>(executor);
    service.submit(new Callable<String>() {
        @Override
        public String call() throws Exception {
            return "HelloWorld--" + Thread.currentThread().getName();
        }
    });
    service.take().get();
}

一行代碼引發的血案,而且不容易被髮現,因為oom是一個記憶體緩慢增長的過程,稍微粗心大意就會忽略,如果是這個代碼塊的調用量少的話,很可能幾天甚至幾個月後暴雷。

操作人回滾or重啟伺服器確實是最快的方式,但是如果不是事後快速分析出oom的代碼,而且不巧回滾的版本也是帶oom代碼的,就比較悲催了,如剛纔所說,流量小了,回滾或者重啟都可以釋放記憶體;但是流量大的情況下,除非回滾到正常的版本,否則GG。

推薦一個開源免費的 Spring Boot 實戰項目:https://github.com/javastacks/spring-boot-best-practice

探詢問題的根源

為了更好的理解ExecutorCompletionService的 “套路” 我們用 ExecutorService來作為對比,可以讓我們更好的清楚,什麼場景下用ExecutorCompletionService。

先看ExecutorService代碼(建議down下來跑一跑)

public static void test1() throws Exception{
    ExecutorService executorService = Executors.newCachedThreadPool();
    ArrayList<Future<String>> futureArrayList = new ArrayList<>();
    System.out.println("公司讓你通知大家聚餐 你開車去接人");
    Future<String> future10 = executorService.submit(() -> {
        System.out.println("總裁:我在家上大號 我最近拉肚子比較慢 要蹲1個小時才能出來 你等會來接我吧");
        TimeUnit.SECONDS.sleep(10);
        System.out.println("總裁:1小時了 我上完大號了。你來接吧");
        return "總裁上完大號了";

    });
    futureArrayList.add(future10);
    Future<String> future3 = executorService.submit(() -> {
        System.out.println("研發:我在家上大號 我比較快 要蹲3分鐘就可以出來 你等會來接我吧");
        TimeUnit.SECONDS.sleep(3);
        System.out.println("研發:3分鐘 我上完大號了。你來接吧");
        return "研發上完大號了";
    });
    futureArrayList.add(future3);
    Future<String> future6 = executorService.submit(() -> {
        System.out.println("中層管理:我在家上大號  要蹲10分鐘就可以出來 你等會來接我吧");
        TimeUnit.SECONDS.sleep(6);
        System.out.println("中層管理:10分鐘 我上完大號了。你來接吧");
        return "中層管理上完大號了";
    });
    futureArrayList.add(future6);
    TimeUnit.SECONDS.sleep(1);
    System.out.println("都通知完了,等著接吧。");
    try {
        for (Future<String> future : futureArrayList) {
            String returnStr = future.get();
            System.out.println(returnStr + ",你去接他");
        }
        Thread.currentThread().join();
    } catch (Exception e) {
        e.printStackTrace();
    }
}

三個任務,每個任務執行時間分別是 10s、3s、6s 。通過JDK線程池的 submit 提交這三個 Callable類型的任務。

  • step1 主線程把三個任務提交到線程池裡面去,把對應返回的 Future 放到 List 裡面存起來,然後執行“都通知完了,等著接吧。”這行輸出語句。
  • step2在迴圈裡面執行 future.get() 操作,阻塞等待。 最後結果如下:

先通知到總裁,也是先接總裁 足足等了1個小時,接到總裁後再去接研發和中層管理,儘管他們早就完事兒了,也得等總裁上完廁所~~

耗時最久的-10s非同步任務最先進入list執行,所以在迴圈過程中獲取這個10s的任務結果的時候,get操作會一直阻塞,直到10s非同步任務執行完畢。即使 3s、5s的任務早就執行完了,也得阻塞等待10s任務執行完。

看到這裡 尤其是做網關業務的同學可能會產生共鳴,一般來說網關RPC會調用下游N多個介面,如下圖

如果都按照ExecutorService這種方式,並且恰巧前幾個任務調用的介面耗時比較久,同時阻塞等待,那就比較悲催了。所以ExecutorCompletionService應景而出。它作為任務線程的合理管控者,“任務規劃師”的稱號名副其實。

相同場景 ExecutorCompletionService代碼

public static void test2() throws Exception {
    ExecutorService executorService = Executors.newCachedThreadPool();
    ExecutorCompletionService<String> completionService = new ExecutorCompletionService<>(executorService);
    System.out.println("公司讓你通知大家聚餐 你開車去接人");
    completionService.submit(() -> {
        System.out.println("總裁:我在家上大號 我最近拉肚子比較慢 要蹲1個小時才能出來 你等會來接我吧");
        TimeUnit.SECONDS.sleep(10);
        System.out.println("總裁:1小時了 我上完大號了。你來接吧");
        return "總裁上完大號了";
    });
    completionService.submit(() -> {
        System.out.println("研發:我在家上大號 我比較快 要蹲3分鐘就可以出來 你等會來接我吧");
        TimeUnit.SECONDS.sleep(3);
        System.out.println("研發:3分鐘 我上完大號了。你來接吧");
        return "研發上完大號了";
    });
    completionService.submit(() -> {
        System.out.println("中層管理:我在家上大號  要蹲10分鐘就可以出來 你等會來接我吧");
        TimeUnit.SECONDS.sleep(6);
        System.out.println("中層管理:10分鐘 我上完大號了。你來接吧");
        return "中層管理上完大號了";
    });
    TimeUnit.SECONDS.sleep(1);
    System.out.println("都通知完了,等著接吧。");
    //提交了3個非同步任務)
    for (int i = 0; i < 3; i++) {
        String returnStr = completionService.take().get();
        System.out.println(returnStr + ",你去接他");
    }
    Thread.currentThread().join();
}

跑完結果如下:

這次就相對高效了一些,雖然先通知的總裁,但是根據大家上大號的速度,誰先拉完先去接誰,不用等待上大號最久的總裁了(現實生活里 建議採用第一種 不等總裁的後果 emmm 哈哈哈)。

放在一起對比下輸出結果:

兩段代碼的差異非常小 獲取結果的時候ExecutorCompletionService 使用了

completionService.take().get();

為什麼要用take() 然後再get()呢????我們看看源碼

CompletionService介面 以及介面的實現類

1、ExecutorCompletionService是CompletionService介面的實現類

2、接著跟一下ExecutorCompletionService的構造方法,可以看到入參需要傳一個線程池對象,預設使用的隊列是 LinkedBlockingQueue,不過還有另外一個構造方法可以指定隊列類型,如下兩張圖,兩個構造方法。

預設LinkedBlockingQueue的構造方法

可選隊列類型的構造方法

3、submit任務提交的兩種方式,都是有返回值的,我們例子中用到的就是第一種Callable類型的方法。

4、對比ExecutorService 和 ExecutorCompletionService submit方法 可以看出區別 (1)ExecutorService

wecom-temp-7a3620b4ca55c25badcbc5f96bfeb75f.png

(2)ExecutorCompletionService

wecom-temp-8c8a582217d0ae65f7e3aff43ce71de2.png

5、差異就在 QueueingFuture,這個到底作用是啥,我們繼續跟進去看

  • QueueingFuture 繼承自 FutureTask,而且紅線部分標註的位置,重寫了done()方法。
  • 把 task 放到 completionQueue 隊列裡面,當任務執行完成後,task就會被放到隊列裡面去了。
  • 此時此刻completionQueue隊列裡面的 task 都是已經 done()完成了的 task,而這個 task 就是我們拿到的一個個的future結果。
  • 如果調用 completionQueue 的 task 方法,會阻塞等待任務。等到的一定是完成了的 future,我們調用 .get()方法 就能立馬獲得結果。

wecom-temp-aaf01e40f5f3fb8023e9d23243cef40f.png

看到這裡 相信大家伙都應該多少明白點了

  • 我們在使用ExecutorService submit提交任務後需要關註每個任務返回的future,然而CompletionService 對這些 future 進行了追蹤,並且重寫了done方法,讓你等的completionQueue 隊列裡面 一定是完成了的task。
  • 作為網關RPC層,我們不用因為某一個介面的響應慢拖累所有的請求,可以在處理最快響應的業務場景里使用CompletionService。

but 註意、註意、註意 也是本次事故的核心

當只有調用了ExecutorCompletionService下麵的3個方法的任意一個時,阻塞隊列中的task執行結果才會從隊列中移除掉,釋放堆記憶體,由於該業務不需要使用任務的返回值,則沒進行調用take,poll方法。從而導致沒有釋放堆記憶體,堆記憶體會隨著調用量的增加一直增長。

所以,業務場景中不需要使用任務返回值的 別沒事兒使用CompletionService,假如使用了,記得一定要從阻塞隊列中 移除掉task執行結果,避免OOM!

總結

知道事故的原因,我們來總結下方法論,畢竟孔子他老人家說過:自省吾身,常思己過,善修其身!

上線前:

  • 嚴格的代碼review習慣,一定要交給back人去看,畢竟自己寫的代碼自己是看不出問題的,相信每個程式猿都有這個自信(這個後續事故里可能會反覆提到!很重要)
  • 上線記錄-備註好上一個可回滾的包版本(給自己留一個後路)
  • 上線前確認回滾後,業務是否可降級,如果不可降級,一定要嚴格拉長這次上線的監控周期 上線後:
  • 持續關註記憶體增長情況(這部分極容易被忽略,大家對記憶體的重視度不如cpu使用率)
  • 持續關註cpu使用率增長情況
  • gc情況、線程數是否增長、是否有頻繁的fullgc等
  • 關註服務性能報警,tp99、999 、max是否出現明顯的增高

近期熱文推薦:

1.1,000+ 道 Java面試題及答案整理(2022最新版)

2.勁爆!Java 協程要來了。。。

3.Spring Boot 2.x 教程,太全了!

4.別再寫滿屏的爆爆爆炸類了,試試裝飾器模式,這才是優雅的方式!!

5.《Java開發手冊(嵩山版)》最新發佈,速速下載!

覺得不錯,別忘了隨手點贊+轉發哦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 6、安裝插件sublimeREPL 需要安裝插件:sublimeREPL,才能在sublime編譯器中接受鍵盤輸入的信息,才能執行交互結果 插件安裝快捷鍵:ctrl+shift+P,打開插件安裝面板 輸入install後,選擇package control:install package 安裝插件管 ...
  • 在使用python開發一些小工具時,如果其他人電腦中沒有python環境或者沒有安裝相應的第三方庫,是沒辦法運行的,而要求對方安裝又不現實,尤其是對方不是技術人員,因此如何將一個獨立的python程式,使它成為成為一個不用考慮環境,雙擊即可運行的桌面應用呢?使用pyinstaller打包是一個不錯的... ...
  • # 基於python tornado實現的簡易圖床 項目地址 > 因為買了阿裡/騰訊的雲伺服器,但是使用雲存儲還需要收費,又加上家裡正好有一臺`nas`,又加上閑的沒事,所以搞了一個小腳本 > > 這個項目主要功能是為`typora`增加一個自定義圖床 > > 歡迎提出issues和pr,如果閑的沒 ...
  • # 一、前言 [從零玩轉系列之微信支付實戰PC端支付微信取消介面搭建 | 技術創作特訓營第一期 ](​https://cloud.tencent.com/developer/article/2308342) halo各位大佬很久沒更新了最近在搞微信支付,因商戶號審核了我半個月和小程式認證也找了資料並 ...
  • ## Spring ​ 涉及的設計模式:單例模式,簡單工廠模式,代理模式,觀察者模式,反射,註解。。。。。 ### Spring配置文件文件頭 ```xml ``` ### IOC 控制反轉 將創建對象的權力由開發者交 給 Spring(緩解對象和對象之間的耦合度) ​ 在傳統模式下,對象的創建和賦 ...
  • QT性能優化之QT6框架高性能模型視圖代理框架千萬級數據表分頁查詢優化 簡介 本文介紹了QT模型視圖代理框架中的QT表格控制項和QT資料庫模塊中的QT資料庫查詢模型結合使用的一個應用實踐案例:QT高性能表格控制項分頁展示千萬行數據。本文介紹了這個應用實踐案例的運行效果和源代碼。這個應用實踐案例實測運行表 ...
  • ## 教程簡介 PDFBox是一個開源Java庫,支持PDF文檔的開發和轉換.使用此庫,您可以開發用於創建,轉換和操作PDF文檔的Java程式.除此之外,PDFBox還包括一個命令行實用程式,用於使用可用的PDF對PDF執行各種操作Jar文件. [PDFBox入門教程](https://www.it ...
  • 本文從源碼層面介紹了Spring如何創建bean、如何解決迴圈依賴,同時也介紹了不能解決哪些迴圈依賴,同時在文章的最後解決迴圈依賴報錯的幾個方法 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...