一個超級大的文件如何更快讀

来源:https://www.cnblogs.com/hejiale010426/archive/2023/06/08/17465628.html
-Advertisement-
Play Games

# 一個超級大的文件如何更快讀 問題起因 ![](https://img2023.cnblogs.com/blog/2415052/202306/2415052-20230608110517159-989018809.png) 一個有千萬的數據的txt文件如何發揮IO的全部性能更快的讀和寫。 ## ...


一個超級大的文件如何更快讀

問題起因

一個有千萬的數據的txt文件如何發揮IO的全部性能更快的讀和寫。

方案一

使用ChatGPT4的方案

在C#中,我們可以使用多線程來處理大量的數據並將其寫入資料庫。在處理大數據時,我們需要將任務分解為多個子任務,這樣我們可以在不同的線程中並行執行它們以提高性能。

這裡是一種可能的解決方案,使用了Task Parallel Library (TPL)來實現多線程。假設我們使用的是SQL Server資料庫,並且我們正在處理的文件是TSV(Tab-Separated Values)文件。

using System;
using System.IO;
using System.Threading.Tasks;
using System.Data.SqlClient;
using System.Collections.Concurrent;

class Program
{
    static void Main()
    {
        string path = "yourFile.tsv";
        ConcurrentQueue<string[]> queue = new ConcurrentQueue<string[]>();

        var producer = Task.Run(() =>
        {
            using (var reader = new StreamReader(path))
            {
                string line;
                while ((line = reader.ReadLine()) != null)
                {
                    var fields = line.Split('\t');
                    queue.Enqueue(fields);
                }
            }
        });

        var consumers = new Task[4];
        for (int i = 0; i < consumers.Length; i++)
        {
            consumers[i] = Task.Run(() =>
            {
                string connString = "Your connection string";
                using (var conn = new SqlConnection(connString))
                {
                    conn.Open();
                    while (true)
                    {
                        if (queue.TryDequeue(out string[] fields))
                        {
                            using (var cmd = new SqlCommand("Your insert command", conn))
                            {
                                // Update parameters in cmd using fields
                                cmd.ExecuteNonQuery();
                            }
                        }
                        else if (producer.IsCompleted)
                        {
                            break;
                        }
                    }
                }
            });
        }

        Task.WaitAll(consumers);
    }
}

在上面的代碼中,我們首先創建了一個生產者任務,該任務從TSV文件中讀取每一行,然後將每一行分割為欄位,並將結果存入隊列。然後我們創建了4個消費者任務,每個消費者任務都從隊列中

題外話題

如果這個文件是按照行去分割數據如何利用多線程去發揮更高性能?

討論 採用偏移值去分多個任務讀,並且需要解決偏移值不一定還在每一行中的位置,使用需要設計好如何解決偏移值的位置問題。

首先規定任務的偏移值提供案例:

[
	{
	"start":0,
	"end":10000
	},
	{
	"start":10001,
	"end":20000
	},
	{
	"start":20001,
	"end":30000
	},
	{
	"start":30000,
	"end":40000
	}
]

在這裡提供了四個任務,每一個任務的偏移值都是固定的,請註意,我們的文件的數據是按照每個換行符去分割數據,如果使用了偏移值,我們無法保證偏移值的位置一定是每一行的開頭,這個時候需要註意如何處理偏移值的問題,下麵我提供一個簡單的解決方法,採用偽代碼

var data = new object []{
   
	{
	"start":0,
	"end":10000
	},
	{
	"start":10001,
	"end":20000
	},
	{
	"start":20001,
	"end":30000
	},
	{
	"start":30000,
	"end":40000
	}
}

// 處理偏移值的方法

// 提供多個線程任務去併發執行讀

通過偽代碼我們可以看到,解決偏移值的問題是由先提供一個方法,將每一個偏移值去先處理一邊在去執行任務。這樣就可以解決問題。

這個屬於題外話題。如果大佬們有其他想法也可以討論,話題不在意IO的瓶頸,如何更快的讀


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # 1.continue關鍵字 continue關鍵字的作用是:用來告訴 Python 跳過當前迴圈代碼塊中的剩餘語句,然後繼續進行下一輪迴圈。 其在while迴圈和for迴圈中的作用示意圖如下 ![image](https://img2023.cnblogs.com/blog/3179433/20 ...
  • 在 Java 中,變數是一種用於存儲數據值的占位符。變數是 Java 編程中基本的數據類型,程式中幾乎所有的操作都需要用到變數。 ...
  • ## 教程簡介 Angular 6是一個JavaScript框架,用於構建JavaScript,html和TypeScript中的Web應用程式和應用程式,它是JavaScript的超集。它是Angular的一個更新版本,相當於angular的6.x版本。 [Angular 6入門教程](https ...
  • ## 教程簡介 正則表達式不僅僅是Java的技術,在任何一門編程語言中都會存在,是一種通用的IT技術,其理念和用法在任何編程語言中基本一致,除了有一些由於語言不同而導致的一些語法不同正則表達式,主要用於匹配(查找 替換 計數)字元串中的數據的,也叫做文本匹配技術。 在Java標準庫中java.uit ...
  • Python中的`lambda`函數,或者叫匿名函數,是一個極其強大的工具。它以簡潔、優雅的語法提供了創建函數的快速方式。在本篇文章中,我們將全方位地深入研究lambda函數的用法和特點,通過理論和實例相結合的方式,讓你的Python編程技巧更上一層樓。 ...
  • # JGroups概念 在 JGroups 中,集群(cluster)是一個由多個節點組成的邏輯實體,節點可以通過一個共用的集群名稱來進行連接和通信。這個集群名稱可以在配置中指定或在運行時動態創建。 JGroups 提供了多種方式來創建集群,並使節點能夠加入到相同的集群中。下麵是一些常見的方式: 1 ...
  • 【前言】 本文自1年前的1.0版本推出以來,已被業界大量科技公司採用。同時也得到了.Net圈內多位大佬的關註+推薦,文章也被多家頂級.Net/C#公眾號轉載。 現在更新到了7.0版本,更好的服務各位.Neter。 【正文】 支持.Net/.Net Core/.Net Framework,可以部署在D ...
  • #! https://zhuanlan.zhihu.com/p/635569763 # Excel DDE Commands ## 連接參數 `Application`: `Excel` `Topic`: `System`: 整個應用。 [sheetname] 指定 worksheet。 我使用的是 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...