前言 解析Excel有知名的NPOI庫,(Java語言是POI),但是NPOI是不支持解析csv的。 csv本質上也是文本文件,可以進行差異對比,更利於解決衝突。 本文對解析csv的幾個.net的開源庫進行調研 很小巧簡單的庫:https://github.com/stevehansen/csv/ ...
前言
解析Excel有知名的NPOI庫,(Java語言是POI),但是NPOI是不支持解析csv的。
csv本質上也是文本文件,可以進行差異對比,更利於解決衝突。
本文對解析csv的幾個.net的開源庫進行調研
CSVHelper:https://github.com/JoshClose/CsvHelper
CSVHepler中文文檔:https://segmentfault.com/a/1190000015396713
性能測試
本次性能測試結果來自:.NET Core中的CSV解析庫
當測試100000行數據的時候
當測試1000000行數據的時候
從測試結果上看
Tiny Csv Parser的效率比CSVHelper高很多,記憶體占用也少很多。
最終結論
當不需要支持字元串換行的時候,請使用Tiny Csv Parser
當需要支持字元串換行的時候,請使用CSVHelper
測試csv
第二行中有人為換行符,在Tiny Csv 和 csv中會解析不出來,而CSVHelper則可以
Make | Model | Comment |
---|---|---|
內容1 | 內容2 | 這是一個換行, 的內容 |
內容2-1 | 內容2-1 | 單行註釋 |
CSVHelper示例
如果要讀取某行的原始數據,基本內容是在 csvReader.Context
欄位
public static void ParseCsvDemo(string filePath)
{
CsvReader csvReader = null;
using (FileStream fileStream = new FileStream(filePath, FileMode.Open, FileAccess.Read))
{
using (StreamReader reader = new StreamReader(fileStream, Encoding.GetEncoding("GB2312")))
{
csvReader = new CsvReader(reader);
//設置之後,不讀取第一列,且列數也會減少
// csvReader.Configuration.HasHeaderRecord = false;
int rowCount = 0;
while (csvReader.Read())
{
//列數
var columnCount = csvReader.Context.Record.Length;
//每行的原始數據
var raw = csvReader.Context.RawRecord;
rowCount = rowCount + 1;
if (rowCount == 2)
{
var fileName = csvReader.GetField<string>(2);
Console.WriteLine("輸出名:{0}", fileName);
}
Console.WriteLine("行:{0} ,列:{1},內容:{2}", rowCount, columnCount, raw);
}
}
}
}
註:對於csvhelper提供的映射關係(把表的一行數據結構轉成 class類型),我未使用到,因為我們主要是提取表的數據。
使用情景
使用C#開發的導表工具,可以導出excel和csv,支持把excel數據插入到SQL資料庫,且Excel的格式可以自定義。
這個項目已開源,可參考我之前的文章:
TableML-GUI篇(C# 編譯/解析 Excel/CSV工具)
遇到問題
問題:未能載入文件或程式集,或它的某一個依賴項。找到的程式集清單定義與程式集引用不匹配
解決方案: 使用nuget更新使用到的庫或者檢查庫所依賴的.net framework版本和項目的基於的.net framework版本是否一致。