百萬級數據遷移方案測評小記

来源:https://www.cnblogs.com/hellotim/archive/2020/06/29/13207489.html
-Advertisement-
Play Games

前言 最近公司在使用 ABP 重構之前的老項目,資料庫也由 SQL SERVER 切換到了 MySql。吐槽一下,之前的產品使用的是 Windows Server 2008 , SqlServer 2008R2, .Net Framework 4.5,現在開始擁抱 .net core。回到正題。目前 ...


前言

最近公司在使用 ABP 重構之前的老項目,資料庫也由 SQL SERVER 切換到了 MySql。吐槽一下,之前的產品使用的是 Windows Server 2008 , SqlServer 2008R2, .Net Framework 4.5,現在開始擁抱 .net core。回到正題。目前單表有 10w+100w+ 數據不等,等會都測試一下。資料庫切換,以及資料庫表結構變化,不可以避免的需要進行數據遷移。而遷移方案也並不是很多,下麵是我嘗試使用的兩種方案進行測試。

多線程批量寫入

private static async Task BatchInsertTestUsers(List<TestUser> testUsers)
        {
            var prefix =
                "INSERT INTO users (Id,Name,Age) VALUES";
            using (IDbConnection conn = new MySqlConnection(DataMigrationConfig.MySqlConstr))
            {
                var sqlText = new StringBuilder();
                sqlText.Append(prefix);

                foreach (var testUser in testUsers)
                {
                    sqlText.AppendFormat(
                        $"({testUser.Id},'{testUser.Name}', {testUser.Age}),");
                }

                var insertSql = sqlText.ToString().Substring(0, sqlText.ToString().LastIndexOf(','));
                await conn.ExecuteAsync(insertSql);
            }
        }
  • BatchInsertTestUsers 將傳入的集合,拼接成 SQL 並執行。
public static Task RunMultiTasks(List<TestUser> users)
        {
            var tasks = new List<Task>();
            var pageSize = 10000;
            var writeCount = (users.Count() / pageSize) + 2;

            for (var i = 1; i < writeCount; i++)
            {
                var skipCount = (i - 1) * pageSize;
                var batchInsertList = users.Skip(skipCount).Take(pageSize).ToList();

                var task = Task.Run(() => { BatchInsertTestUsers(batchInsertList); });
                tasks.Add(task);
            }

            var sw = new Stopwatch();
            sw.Start();
            Task.WaitAll(tasks.ToArray());
            sw.Stop();
            Console.WriteLine($"多線程批量插入用時:{sw.ElapsedMilliseconds} ms");

            return Task.FromResult(0);
        }
  • RunMultiTasks 將數據分批,一次性插入 1w 條。

MySqlBulkLoader 方案

瞭解到 MySqlBulkLoader 是因為 SqlServerSqlbulkcopyMySqlBulkLoader 並不支持集合的導入,需要先將數據導出為 .csv 格式,然後讀取 .csv 數據導入。

public static async Task Export(string filePath, List<TestUser> items)
        {
            IExporter exporter = new CsvExporter();
            await exporter.Export(filePath, items);
        }
  • 這裡數據導出使用國人開源的 dotnetcore/Magicodes.IE 我這個導出代碼,應該就懂了吧!操作簡潔!!!
public static void Load(string filePath, string tableName)
        {
            using MySqlConnection conn = new MySqlConnection(DataMigrationConfig.MySqlConstr);
            var bulk = new MySqlBulkLoader(conn)
            {
                FieldTerminator = ",",
                FieldQuotationCharacter = '"',
                EscapeCharacter = '"',
                LineTerminator = "\r\n",
                FileName = filePath,
                Local = true,
                NumberOfLinesToSkip = 1,
                TableName = tableName,
                CharacterSet = "utf8mb4",
            };

            bulk.Load();
        }
  • 這裡因為資料庫並不在自己本機上,所以設置了 Local = true 讀取本地文件,進行導入。

測試說明

  • 這個測試是在我本地測試的,資料庫是跑在內網部署的一臺機器上的 Docker 容器內,用的是機械硬碟。如果您的使用的是 SSD 硬碟,效果會更佳。
  • 這裡測試主要是插入簡單的用戶數據,定義如下:
public class TestUser
    {
        public int Id { get; set; }
        public string Name { get; set; }
        public int Age { get; set; }
    }
  • 分別測試1w10w,100w條數據插入的性能,以及開啟索引以及關閉索引的影響
  • 測試執行代碼如下:
class Program
    {
        static async Task Main(string[] args)
        {
            var testData = DataGen.Run(100 * 10000);
            await RunMultiTasks(testData);
            await RunMySqlLoaderTask(testData);
        }

        public static async Task RunMultiTasks(List<TestUser> users)
        {
            await DataMigrateTask.RunMultiTasks(users);
        }

        public static async Task RunMySqlLoaderTask(List<TestUser> users)
        {
            var fileName = "users";
            var filePath = Directory.GetCurrentDirectory() + "\\" + fileName + ".csv";
            await DataMigrateTask.Export(filePath, users);
            var sw = new Stopwatch();
            sw.Start();
            DataMigrateTask.Load(filePath, "users");
            sw.Stop();
            Console.WriteLine($"MySqlBulkLoader 用時:{sw.ElapsedMilliseconds} ms");
        }
    }

測試結果

說了那麼多,這裡才是最重點。

方案 1w 10w 100w
RunMultiTasks 367ms 3548ms 91263ms
RunMySqlLoaderTask 2031ms 1597ms 13105ms
RunMultiTasks(關閉索引) 233ms 3230ms 67040ms
RunMySqlLoaderTask (關閉索引) 1785ms 1367ms 12456ms

最後

以上的測試僅供參考,上面的簡單測試一下,數據量大的時候 MySqlLoaderTask 優勢是明顯的,對於小於 1w 數據量的可以採用多線程批量插入效果更好。有興趣的小伙伴的可以自己下載代碼玩玩。如有更好的
方案,不吝賜教。

  • MySqlLoader 導入 null 數據使用 NULL,而不是mysql文檔上說的 \N

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 帶你捅破窗戶紙 Bash Shell 30min 過家家.zip 備註 : @博客園 : 1. 為什麼不支持 pdf 上傳了呀 2. 網站分類不好用 3. 排版OA工具升級下, 例如 markdown 寫出來好醜. 嘗試升級下呢 ? ...
  • 在項目開發中經常會遇到花錢抽獎類型的需求。但是老闆總是擔心用戶用小錢抽到大獎。這樣會導致項目虧損。下邊這段代碼可以有效制止抽獎項目虧錢。 個人獎池: 語言:thinkphp redis mysql 表:desire抽獎商品表 desire_log用戶抽獎獎品表 user_desire_log用戶抽獎 ...
  • 知識點 關鍵字,常用類(super,static,final): super 子類對父類的引用,只能在非靜態方法中使用 引用父類的成員變數的格式為 super.成員變數名稱 引用父類的非靜態方法的格式為 super.方法名(參數列表) 引用父類的構造方法的格式為 super(參數列表) final ...
  • The piped stream are bidirectional communcation.Meanwhile they can read and write. Write the NamedPipeServerStream and NamedPipeClientStream in two di ...
  • 場景 ASP.NET中MVC編程模式簡介與搭建HelloWorld項目: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/106795640 在上面使用MVC搭建起來Hello World項目後,怎樣連接SqlServer資料庫並實 ...
  • 今天遇到關於dynamics 365 許可權方面問題,在更改商機用戶欄位的時候,拋出了異常信息,更改失敗,提示沒有給用戶分配的角色 看到該問題我排查更改選擇的用戶是不是沒有安全形色,經我排查,測試賬號確實沒有,可把我激動的,就認為該問題已經解決了,但是其實正式系統是有安全形色的,我就又陷入迷茫,剛入門 ...
  • 微服務確實是行業的一個趨勢,我自己也在把一些項目往微服務架構遷移。玩微服務架構配置中心是一個繞不過去的東西,有很多大牌的可以選,比如spring-cloud-config,apoll,disconf等等。而我為什麼還要造一個輪子呢?一來這些都不是.net實現的,我就想試試用.net core實現一個 ...
  • 最近在看蔣金楠老師的《ASP.NET Core 3 框架揭秘》,畫圖總結一下第三章和第四章的內容。 內容請參見蔣老師博文:https://www.cnblogs.com/artech/p/inside-asp-net-core-03-01.html 圖1 IServiceCollection, IS ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...