使用記憶體映射文件MMF實現大數據量導出時的記憶體優化

来源:https://www.cnblogs.com/y-yp/archive/2020/01/14/12191258.html
-Advertisement-
Play Games

前言 導出功能幾乎是所有應用系統必不可少功能,今天我們來談一談,如何使用記憶體映射文件MMF進行記憶體優化,本文重點介紹使用方法,相關原理可以參考文末的連接 實現 我們以單次導出一個excel舉例(csv同理),excel包含1~n個sheet,在每個sheet中存儲的按行和列的坐標在單元格存儲具體數據 ...


前言

     導出功能幾乎是所有應用系統必不可少功能,今天我們來談一談,如何使用記憶體映射文件MMF進行記憶體優化,本文重點介紹使用方法,相關原理可以參考文末的連接

實現

     我們以單次導出一個excel舉例(csv同理),excel包含1~n個sheet,在每個sheet中存儲的按行和列的坐標在單元格存儲具體數據,如果我們要使用MMF,第一個要考慮的就是如何將整個excel合理的存儲到MMF中。這裡我們引入MMF兩個對象:

          MemoryMappedFile --表示記憶體映射文件

          MemoryMappedViewAccessor --表示隨機訪問的記憶體映射文件視圖


    使用MemoryMappedFile.CreateNew(string mapName, long capacity)可以得到一個指定名稱和指定大小的記憶體映射文件,以下簡稱mmf
          * 這裡需要註意的是capacity為long類型,以位元組為單位,通過計算可知文件大小上限為1G
    使用mmf.CreateViewAccessor(long offset, long size)可以得到一個從指定位置開始的指定大小空間的訪問器,以下簡稱accessor
          * 這裡同樣需要註意的是size的大小,如果加上offset超過文件大小,會報System.UnauthorizedAccessException: Access to the path is denied.
    考慮到數據體積和管理成本,這裡使用mmf對應sheet使用accessor對應一行數據
          * 這裡有個需要註意的是mmf不能存儲引用類型,包括字元串...,折衷先將string轉為char[]然後使用WriteArray方法存儲,考慮到取數據的時候同樣需要使用char[]數組,而數組必須指定長度,我們將數組長度和具體數據都存起來,這樣取數據時候的索引也可以計算出來了

數據存儲示例:

 

 

 這面是具體的實現代碼:

        //添加外部引用防止被自動GC
        public List<MemoryMappedFile> mmfs = new List<MemoryMappedFile>();

        /// <summary>
        /// 寫入
        /// </summary>
        public void WriteMMF()
        {
            for(var f = 1; f <= 3; f ++)
            {
                //每一個File相當於一個excel的一個sheet(一個患者一行)
                var mmf = MemoryMappedFile.CreateNew($"mmftest{f}", 1024 * 1024 * 1024); //文件大小最大為1G

                for (var row = 0; row < 10; row++)
                {
                    //每一個ViewAccessor相當於excel的一行
                    var accessor = mmf.CreateViewAccessor(row * 1024 * 1024, 1024 * 1024); //通過具體數據量計算空間,offset位移為每個size的長度,size為1M
                    var index = 0;
                    for (var i = 0; i < 16384; i++)
                    {
                        //相當於一行的每一個cell
                        var buffer = ASCIIEncoding.UTF8.GetBytes($"測試第{row}行第{i}個單元格~!");
                        var length = buffer.Length;
                        accessor.Write(index, length);
                        accessor.WriteArray(index + 4, buffer, 0, length);
                        index += (length + 4);
                    }
                }
                mmfs.Add(mmf);
            }
        }

        /// <summary>
        /// 讀取
        /// </summary>
        public void ReadMMF()
        {
            for (var f = 1; f <= 3; f++)
            {
                using var mmf = MemoryMappedFile.OpenExisting($"mmftest{f}");
                for (var row = 0; row < 10; row++)
                {
                    using var accessor = mmf.CreateViewAccessor(row * 1024 * 1024, 1024 * 1024); //通過寫數據同時做的記錄控制大小
                    var index = 0;
                    for (var i = 0; i < 16384; i++)
                    {
                        var size = accessor.ReadInt32(index);
                        var buffer = new byte[size];
                        accessor.ReadArray(index + 4, buffer, 0, size);
                        var result = ASCIIEncoding.UTF8.GetString(buffer);
                        Console.WriteLine(result);
                        index += (size + 4);
                    }
                }
            }

            mmfs = null;
        }

運行效果:

          * 這裡有個需要註意的點是,如果不在外部引用mmf,如果創建多個mmf,只有最新一個能通過OpenExisting方法打開,其他的都報System.IO.FileNotFoundException,猜測是資源被釋放掉了

          * 還有個需要註意的點是,一定要計算好數據體積,不要超過mmf上限,使用accessor的時候也要註意,數據量實在太大可以考慮將一個sheet拆成多個mmf,或者將一行數據拆成多個accessor

    這樣就可以實現從資料庫獲然後處理再存儲到載體的流程,整個過程中記憶體使用控制在一個比較低的水平,當然,這是使用時間換空間,相應的導出時間會延長

    順便說一下,原本考慮後續使用epplus進行excel生成,後來發現npoi也和poi一樣有SXSSFWorkbook對象,可以流式讀取數據,配合記憶體映射文件可以實現整個導出過程

 

相關連接參考:

https://docs.microsoft.com/en-us/dotnet/api/system.io.memorymappedfiles?view=netframework-4.8 

https://www.cnblogs.com/flyant/p/4443187.html

https://www.bygeek.cn/2018/05/24/understand-memory-mapped-file/

https://stackoverflow.com/questions/10806518/write-string-data-to-memorymappedfile


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這裡沒有線程 原文地址: "https://blog.stephencleary.com/2013/11/there is no thread.html" 前言 我是在看 C 8.0 新特性非同步流時在評論里看到這篇文章的,閱讀之後發現這篇文章乾貨滿滿,作者解釋的非常清晰,裡面的本質分析內容在《CLR ...
  • 在這個互聯網時代,數據被稱為石油,由此數據安全是被看得尤為重要,本篇文章意在普及密碼學的基礎知識。 ...
  • 1 static DataTable ConvertJsonToTable(string jsonValue) 2 { 3 DataTable dt = (DataTable)JsonConvert.DeserializeObject(jsonValue, typeof(DataTable)); 4 ...
  • 本筆記摘抄自:https://www.cnblogs.com/PatrickLiu/p/7614630.html,記錄一下學習過程以備後續查用。 一、引言 在現實生活中,我們經常會遇到一些構成比較複雜的物品。比如電腦,是由CPU、主板、記憶體條、硬碟、顯卡、機箱等組裝而成的。手機也是複雜物品, 由主板 ...
  • 做了一個 項目本地測了沒問題發佈到正式環境上,幾天之後有個統計頁面報錯了,看了本地是正常的, 於是就排查,發現 ID 列 在對 字元串轉int 時候 由於用了 Convert.TonInt16 長度不夠, 資料庫的ID 已經到了33000。 自己也知道 Convert.TonInt16 、 Conv ...
  • 微信公眾號: "Dotnet9" ,網站: "Dotnet9" ,問題或建議: "請網站留言" , 如果對您有所幫助: "歡迎贊賞" 。 C WPF之Material Design自定義顏色 閱讀導航 1. 本文背景 2. 代碼實現 3. 本文參考 1. 本文背景 主要介紹使用Material De ...
  • 生活中,如果1+2+3+4.....+100,大家基本上都會用等差數列計算,如果有人從1開始加,不是傻就是白X,那麼程式中呢,是不是也是這樣。今天無意中看到了尾遞歸,以前也寫過,但是不知道這個專業名詞,今天寫一下對比下性能問題。 今天主要是看到了尾遞歸,所以聯想到了這些,寫下這篇文章,其中也把Ben ...
  • 背景 通常,.Net 應用程式中的配置存儲在配置文件中,例如 App.config、Web.config 或 appsettings.json。從 ASP.Net Core 開始,出現了一個新的可擴展配置框架,它允許將配置存儲在配置文件之外,並從命令行、環境變數等等中檢索它們。 在傳統項目中,修改配 ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...