【解決方案】Java 互聯網項目如何防止集合堆記憶體溢出(一)

来源:https://www.cnblogs.com/CodeBlogMan/p/18022444
-Advertisement-
Play Games

OOM 幾乎是筆者工作中遇到的線上 bug 中最常見的,一旦平時正常的頁面線上上出現頁面崩潰或者服務無法調用,查看伺服器日誌後你很可能會看到“Caused by: java.lang.OutOfMlemoryError: Java heap space” 這樣的提示,那麼毫無疑問表示的是 Java ... ...


目錄

前言

OOM 幾乎是筆者工作中遇到的線上 bug 中最常見的,一旦平時正常的頁面線上上出現頁面崩潰或者服務無法調用,查看伺服器日誌後你很可能會看到“Caused by: java.lang.OutOfMlemoryError: Java heap space” 這樣的提示,那麼毫無疑問表示的是 Java 堆記憶體溢出了。

其中又當屬集合記憶體溢出最為常見。你是否有過把整個資料庫表查出來的全欄位結果直接賦值給一個 List 對象?是否把未經過過濾處理的數據賦值給 Set 對象進行去重操作?又或者是在高併發的場景下創建大量的集合對象未釋放導致 JVM 無法自動回收?

Java 堆記憶體溢出

我的解決方案的核心思路有兩個:一是從代碼入手進行優化;二是從硬體層面對機器做合理配置。


一、代碼優化

下麵先說從代碼入手怎麼解決。

1.1Stream 流自分頁

/**
 * 以下示例方法都在這個實現類里,包括類的繼承和實現
 */
@Service
public class StudyServiceImpl extends ServiceImpl<StudyMapper, Study> implements StudyService{}

在迴圈里使用 Stream 流的 skip()+limit() 來實現自分頁,直至取出所有數據,不滿足條件時終止迴圈

    /**
     * 避免集合記憶體溢出方法(一)
     * @return
     */
    private List<StudyVO> getList(){
        ArrayList<StudyVO> resultList = new ArrayList<>();
        //1、資料庫取出源數據,註意只拿 id 欄位,不至於溢出
        List<String> idsList = this.list(new LambdaQueryWrapper<Study>()
                                        .select(Study::getId)).stream()
                                        .map(Study::getId)
                                        .collect(Collectors.toList());
        //2、初始化迴圈
        boolean loop = true;
        long number = 0;
        long perSize = 5000;
        while (loop){
            //3、skip()+limit()組合,限制每次只取固定數量的 id
            List<String> ids = idsList.stream()
                                      .skip(number * perSize)
                                      .limit(perSize)
                                      .collect(Collectors.toList());
            if (CollectionUtils.isNotEmpty(ids)){
                //根據第3步的 id 去拿資料庫的全欄位數據,這樣也不至於溢出,因為一次只是 5000 條
                List<StudyVO> voList = this.listByIds(ids).stream()
                        .map(e -> e.copyProperties(StudyVO.class))
                        .collect(Collectors.toList());
                //addAll() 方法也比較關鍵,快速地批量添加元素,容量是比較大的
                resultList.addAll(voList);
            }
            //4、判斷是否跳出迴圈
            number++;
            loop = ids.size() == perSize;
        }
        return resultList;
    }

1.2資料庫分頁

這裡是用資料庫語句查詢符合條件的指定條數,迴圈查出所有數據,不滿足條件就跳出迴圈

    /**
     * 避免集合記憶體溢出方法(二)
     * @param param
     * @return
     */
    private List<StudyVO> getList(String param){
        ArrayList<StudyVO> resultList = new ArrayList<>();
        //1、構造查詢條件
        String id = "";
        //2、初始化迴圈
        boolean loop = true;
        int perSize = 5000;
        while (loop){
            //分頁,固定每次迴圈都查 5000 條
            Page<Study> studyPage = this.page(new Page<>
                                    (NumberUtils.INTEGER_ZERO, perSize), 
                                     wrapperBuilder(param, id));
            if (Objects.nonNull(studyPage)){
                List<Study> studyList = studyPage.getRecords();
                if (CollectionUtils.isNotEmpty(studyList)){
                    //3、每次截取固定數量的標識,數組下標減一
                    id = studyList.get(perSize - NumberUtils.INTEGER_ONE).getId();
                    //4、判斷是否跳出迴圈
                    loop = studyList.size() == perSize;
                    //添加進返回的 VO 集合中
                    resultList.addAll(studyList.stream()
                                      .map(e -> e.copyProperties(StudyVO.class))
                                      .collect(Collectors.toList()));
                }
                else {
                    loop = false;
                }
            }
        }
        return resultList;
    }

    /**
     * 條件構造
     * @param param
     * @param id
     * @return
     */
    private LambdaQueryWrapper<Study> wrapperBuilder(String param, String id){
        LambdaQueryWrapper<Study> wrapper = new LambdaQueryWrapper<>();
        //只查部分欄位,按照 id 的降序排列,形成順序
        wrapper.select(Study::getUserAvatar)
                .eq(Study::getOpenId, param)
                .orderByAsc(Study::getId);
        if (StringUtils.isNotBlank(id)){
            //這步很關鍵,只查比該 id 值大的數據
            wrapper.gt(Study::getId, id);
        }
        return wrapper;
    }

1.3其它思考

以上從根本上還是解決不了記憶體里處理大量數據的問題,取出 50w 數據放記憶體的風險就很大了。以下是我的其它解決思路:

  • 從業務上拆解:明確什麼情況下需要後端處理這麼多數據?是否可以考慮在業務流程上進行拆解?或者用其它形式的頁面交互代替?
  • 資料庫設計:數據一般都來源於資料庫,庫/表設計的時候儘量將表與表之間解耦,表欄位的顆粒度放細,即多表少欄位,查詢時只拿需要的欄位;
  • 數據放在磁碟:比如放到 MQ 里存儲,然後取出的時候註意按固定數量批次取,並且註意釋放資源;
  • 非同步批處理:如果業務對實時性要求不高的話,可以非同步批量把數據添加到文件流里,再存入到 OSS 中,按需取用;
  • 定時任務處理:詢問產品經理該功能或者實現是否是結果必須的?是否一定要同步處理?可以考慮在一個時間段內進行多次操作,緩解大數據量的問題;
  • 咨詢大數據團隊:尋求大數據部門團隊的專業支持,對於處理海量數據他們是專業的,看能不能提供一些可參考的建議。

二、硬體配置

核心思路:加大伺服器記憶體,合理分配伺服器的堆記憶體,並設置好彈性伸縮規則,當觸發告警時自動伸縮擴容,保證系統的可用性。

2.1雲伺服器配置

以下是阿裡雲 ECS 管理控制台的編輯頁面,可以對 CPU 和記憶體進行配置。在 ECS 實例伸縮組創建完成後,即可以根據業務規模去創建一個自定義伸縮配置,在業務量大的時候會觸發自動伸縮。

阿裡雲 ECS 管理

如果是部署在私有雲伺服器,需要對具體的 JVM 參數進行調優的話,可能還得請團隊的資深大佬、或者運維團隊的老師來幫忙處理。


三、文章小結

本篇文章主要是記錄一次線上 bug 的處理思路,在之後的文章中我會分享一些關於真實項目中處理高併發、緩存的使用、非同步/解耦等內容,敬請期待。

那麼今天的分享到這裡就結束了,如有不足和錯誤,還請大家指正。或者你有其它想說的,也歡迎大家在評論區交流!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Java 面向對象編程 面向對象編程 (OOP) 是一種編程範式,它將程式組織成對象。對象包含數據和操作數據的方法。 OOP 的優勢: 更快、更易於執行 提供清晰的結構 代碼更易於維護、修改和調試 提高代碼重用性 減少開發時間 類和對象 類 是對象的模板,它定義了對象的屬性和方法。 對象 是類的實例 ...
  • Miniconda是Anaconda的簡化版, 可以管理多個Python版本的環境. 實際使用的話, 占用的空間不會很小, 我跑一些正常的應用後, 安裝目錄占用空間4.3GB, 安裝建議要預留10到20G的空間. 安裝 Miniconda 下載安裝包 https://docs.anaconda.co ...
  • 美團面試:Kafka如何處理百萬級消息隊列? 在今天的大數據時代,處理海量數據已成為各行各業的標配。特別是在消息隊列領域,Apache Kafka 作為一個分散式流處理平臺,因其高吞吐量、可擴展性、容錯性以及低延遲的特性而廣受歡迎。但當面對真正的百萬級甚至更高量級的消息處理時,如何有效地利用 Kaf ...
  • 摘要 我們報告了 GPT-4 的開發,這是一個大規模、多模態的模型,可以接受圖像和文本輸入,並生成文本輸出。雖然在許多現實場景中不如人類,但 GPT-4 在各種專業和學術基準測試中表現出與人類水平相當的性能,包括在模擬的律師資格考試中取得了約前10%的考生得分。 GPT-4 是基於 Transfor ...
  • 虛擬線程(Virtual Threads)是 Java 21 所有新特性中最為吸引人的內容,它可以大大來簡化和增強Java應用的併發性。但是,隨著這些變化而來的是如何最好地管理此吞吐量的問題。本文,就讓我們看一下開發人員在使用虛擬線程時,應該如何管理吞吐量。 在大多數情況下,開發人員不需要自己創建虛 ...
  • 首先,跨域的域是什麼? 跨域的英文是:Cross-Origin。 Origin 中文含義為:起源,源頭,出生地。 在跨域中,"域"指的是一個 Web 資源(比如網頁、腳本、圖片等)的源頭。 包括該資源的協議、主機名、埠號。 在同源策略中,如果兩個資源的域相同,則它們屬於同一域,可以自由進行交互和共 ...
  • 通過使用Python編程語言,編寫腳本來自動化Excel和CSV之間的轉換過程,可以批量處理大量文件,定期更新數據,並集成轉換過程到自動化工作流程中。本文將介紹如何使用第三方庫Spire.XLS for Python 實現: 使用Python將Excel轉為CSV 使用Python 將CSV轉為Ex ...
  • 多年不用PageHelper了,最近新入職的公司,採用了此工具集成的框架,作為一個獨立緊急項目開發的基礎。項目開發起來,還是手到擒來的,但是沒想到,最終測試的時候,深深的給我上了一課。 我的項目發生了哪些奇葩現象? 一切的問題都要從我接受的項目開始說起, 在開發這個項目的過程中,發生了各種奇葩的事情 ...
一周排行
    -Advertisement-
    Play Games
  • 一個自定義WPF窗體的解決方案,借鑒了呂毅老師的WPF製作高性能的透明背景的異形視窗一文,併在此基礎上增加了滑鼠穿透的功能。可以使得透明窗體的滑鼠事件穿透到下層,在下層窗體中響應。 ...
  • 在C#中使用RabbitMQ做個簡單的發送郵件小項目 前言 好久沒有做項目了,這次做一個發送郵件的小項目。發郵件是一個比較耗時的操作,之前在我的個人博客裡面回覆評論和友鏈申請是會通過發送郵件來通知對方的,不過當時只是簡單的進行了非同步操作。 那麼這次來使用RabbitMQ去統一發送郵件,我的想法是通過 ...
  • 當你使用Edge等瀏覽器或系統軟體播放媒體時,Windows控制中心就會出現相應的媒體信息以及控制播放的功能,如圖。 SMTC (SystemMediaTransportControls) 是一個Windows App SDK (舊為UWP) 中提供的一個API,用於與系統媒體交互。接入SMTC的好 ...
  • 最近在微軟商店,官方上架了新款Win11風格的WPF版UI框架【WPF Gallery Preview 1.0.0.0】,這款應用引入了前沿的Fluent Design UI設計,為用戶帶來全新的視覺體驗。 ...
  • 1.簡單使用實例 1.1 添加log4net.dll的引用。 在NuGet程式包中搜索log4net並添加,此次我所用版本為2.0.17。如下圖: 1.2 添加配置文件 右鍵項目,添加新建項,搜索選擇應用程式配置文件,命名為log4net.config,步驟如下圖: 1.2.1 log4net.co ...
  • 之前也分享過 Swashbuckle.AspNetCore 的使用,不過版本比較老了,本次演示用的示例版本為 .net core 8.0,從安裝使用開始,到根據命名空間分組顯示,十分的有用 ...
  • 在 Visual Studio 中,至少可以創建三種不同類型的類庫: 類庫(.NET Framework) 類庫(.NET 標準) 類庫 (.NET Core) 雖然第一種是我們多年來一直在使用的,但一直感到困惑的一個主要問題是何時使用 .NET Standard 和 .NET Core 類庫類型。 ...
  • WPF的按鈕提供了Template模板,可以通過修改Template模板中的內容對按鈕的樣式進行自定義。結合資源字典,可以將自定義資源在xaml視窗、自定義控制項或者整個App當中調用 ...
  • 實現了一個支持長短按得按鈕組件,單擊可以觸發Click事件,長按可以觸發LongPressed事件,長按鬆開時觸發LongClick事件。還可以和自定義外觀相結合,實現自定義的按鈕外形。 ...
  • 一、WTM是什麼 WalkingTec.Mvvm框架(簡稱WTM)最早開發與2013年,基於Asp.net MVC3 和 最早的Entity Framework, 當初主要是為瞭解決公司內部開發效率低,代碼風格不統一的問題。2017年9月,將代碼移植到了.Net Core上,併進行了深度優化和重構, ...