項目中經常遇到CSV文件的讀寫需求,其中的難點主要是CSV文件的解析。本文會介紹CsvHelper、TextFieldParser、正則表達式三種解析CSV文件的方法,順帶也會介紹一下CSV文件的寫方法。 CSV文件標準 在介紹CSV文件的讀寫方法前,我們需要瞭解一下CSV文件的格式。 文件示例 一 ...
目錄
項目中經常遇到CSV文件的讀寫需求,其中的難點主要是CSV文件的解析。本文會介紹CsvHelper、TextFieldParser、正則表達式三種解析CSV文件的方法,順帶也會介紹一下CSV文件的寫方法。
CSV文件標準
在介紹CSV文件的讀寫方法前,我們需要瞭解一下CSV文件的格式。
文件示例
一個簡單的CSV文件:
Test1,Test2,Test3,Test4,Test5,Test6
str1,str2,str3,str4,str5,str6
str1,str2,str3,str4,str5,str6
一個不簡單的CSV文件:
"Test1
"",""","Test2
"",""","Test3
"",""","Test4
"",""","Test5
"",""","Test6
"","""
" 中文,D23 ","3DFD4234""""""1232""1S2","ASD1"",""23,,,,213
23F32","
",,asd
" 中文,D23 ","3DFD4234""""""1232""1S2","ASD1"",""23,,,,213
23F32","
",,asd
你沒看錯,上面兩個都是CSV文件,都只有3行CSV數據。第二個文件多看一眼都是精神污染,但項目中無法避免會出現這種文件。
RFC 4180
CSV文件沒有官方的標準,但一般項目都會遵守 RFC 4180 標準。這是一個非官方的標準,內容如下:
- Each record is located on a separate line, delimited by a line break (CRLF).
- The last record in the file may or may not have an ending line break.
- There maybe an optional header line appearing as the first line of the file with the same format as normal record lines. This header will contain names corresponding to the fields in the file and should contain the same number of fields as the records in the rest of the file (the presence or absence of the header line should be indicated via the optional "header" parameter of this MIME type).
- Within the header and each record, there may be one or more fields, separated by commas. Each line should contain the same number of fields throughout the file. Spaces are considered part of a field and should not be ignored. The last field in the record must not be followed by a comma.
- Each field may or may not be enclosed in double quotes (however some programs, such as Microsoft Excel, do not use double quotes at all). If fields are not enclosed with double quotes, then double quotes may not appear inside the fields.
- Fields containing line breaks (CRLF), double quotes, and commas should be enclosed in double-quotes.
- If double-quotes are used to enclose fields, then a double-quote appearing inside a field must be escaped by preceding it with another double quote.
翻譯一下:
- 每條記錄位於單獨的行上,由換行符 (CRLF) 分隔。
- 文件中的最後一條記錄可能有也可能沒有結束換行符。
- 可能有一個可選的標題行出現在文件的第一行,格式與普通記錄行相同。此標題將包含與文件中的欄位對應的名稱,並且應包含與文件其餘部分中的記錄相同數量的欄位(標題行的存在或不存在應通過此 MIME 類型的可選“標頭”參數指示)。
- 在標題和每條記錄中,可能有一個或多個欄位,以逗號分隔。在整個文件中,每行應包含相同數量的欄位。空格被視為欄位的一部分,不應忽略。記錄中的最後一個欄位後面不能有逗號。
- 每個欄位可以用雙引號括起來,也可以不用雙引號(但是某些程式,例如 Microsoft Excel,根本不使用雙引號)。如果欄位沒有用雙引號括起來,那麼雙引號可能不會出現在欄位內。
- 包含換行符 (CRLF)、雙引號和逗號的欄位應該用雙引號括起來。
- 如果使用雙引號將欄位括起來,則出現在欄位中的雙引號必須在其前面加上另一個雙引號。
簡化標準
上面的標準可能比較拗口,我們對它進行一些簡化。要註意一下,簡化不是簡單的刪減規則,而是將類似的類似進行合併便於理解。
後面的代碼也會使用簡化標準,簡化標準如下:
-
每條記錄位於單獨的行上,由換行符 (CRLF) 分隔。
註:此處的行不是普通文本意義上的行,是指符合CSV文件格式的一條記錄(後面簡稱為CSV行),在文本上可能占據多行。 -
文件中的最後一條記錄需有結束換行符,文件的第一行為標題行(標題行包含欄位對應的名稱,標題數與記錄的欄位數相同)。
註:原標準中可有可無的選項統一規定為必須有,方便後期的解析,而且沒有標題行讓別人怎麼看數據。 -
在標題和每條記錄中,可能有一個或多個欄位,以逗號分隔。在整個文件中,每行應包含相同數量的欄位。空格被視為欄位的一部分,不應忽略。記錄中的最後一個欄位後面不能有逗號。
註:此標準未做簡化,雖然也有其它標準使用空格、製表符等做分割的,但不使用逗號分割的文件還叫逗號分隔值文件嗎。 -
每個欄位都用雙引號括起來,出現在欄位中的雙引號必須在其前面加上另一個雙引號
註:原標準有必須使用雙引號和可選雙引號的情況,那全部使用雙引號肯定不會出錯。*
讀寫CSV文件
在正式讀寫CSV文件前,我們需要先定義一個用於測試的Test類。代碼如下:
class Test
{
public string Test1{get;set;}
public string Test2 { get; set; }
public string Test3 { get; set; }
public string Test4 { get; set; }
public string Test5 { get; set; }
public string Test6 { get; set; }
//Parse方法會在自定義讀寫CSV文件時用到
public static Test Parse (string[]fields )
{
try
{
Test ret = new Test();
ret.Test1 = fields[0];
ret.Test2 = fields[1];
ret.Test3 = fields[2];
ret.Test4 = fields[3];
ret.Test5 = fields[4];
ret.Test6 = fields[5];
return ret;
}
catch (Exception)
{
//做一些異常處理,寫日誌之類的
return null;
}
}
}
生成一些測試數據,代碼如下:
static void Main(string[] args)
{
//文件保存路徑
string path = "tset.csv";
//清理之前的測試文件
File.Delete("tset.csv");
Test test = new Test();
test.Test1 = " 中文,D23 ";
test.Test2 = "3DFD4234\"\"\"1232\"1S2";
test.Test3 = "ASD1\",\"23,,,,213\r23F32";
test.Test4 = "\r";
test.Test5 = string.Empty;
test.Test6 = "asd";
//測試數據
var records = new List<Test> { test, test };
//寫CSV文件
/*
*直接把後面的寫CSV文件代碼複製到此處
*/
//讀CSV文件
/*
*直接把後面的讀CSV文件代碼複製到此處
*/
Console.ReadLine();
}
使用CsvHelper
CsvHelper 是用於讀取和寫入 CSV 文件的庫,支持自定義類對象的讀寫。
github上標星最高的CSV文件讀寫C#庫,使用MS-PL、Apache 2.0開源協議。
使用NuGet下載CsvHelper,讀寫CSV文件的代碼如下:
//寫CSV文件
using (var writer = new StreamWriter(path))
using (var csv = new CsvWriter(writer, CultureInfo.InvariantCulture))
{
csv.WriteRecords(records);
}
using (var writer = new StreamWriter(path,true))
using (var csv = new CsvWriter(writer, CultureInfo.InvariantCulture))
{
//追加
foreach (var record in records)
{
csv.WriteRecord(record);
}
}
//讀CSV文件
using (var reader = new StreamReader(path))
using (var csv = new CsvReader(reader, CultureInfo.InvariantCulture))
{
records = csv.GetRecords<Test>().ToList();
//逐行讀取
//records.Add(csv.GetRecord<Test>());
}
如果你只想要拿來就能用的庫,那文章基本上到這裡就結束了。
使用自定義方法
為了與CsvHelper區分,新建一個CsvFile類存放自定義讀寫CSV文件的代碼,最後會提供類的完整源碼。CsvFile類定義如下:
/// <summary>
/// CSV文件讀寫工具類
/// </summary>
public class CsvFile
{
#region 寫CSV文件
//具體代碼...
#endregion
#region 讀CSV文件(使用TextFieldParser)
//具體代碼...
#endregion
#region 讀CSV文件(使用正則表達式)
//具體代碼...
#endregion
}
基於簡化標準的寫CSV文件
根據簡化標準(具體標準內容見前文),寫CSV文件代碼如下:
#region 寫CSV文件
//欄位數組轉為CSV記錄行
private static string FieldsToLine(IEnumerable<string> fields)
{
if (fields == null) return string.Empty;
fields = fields.Select(field =>
{
if (field == null) field = string.Empty;
//簡化標準,所有欄位都加雙引號
field = string.Format("\"{0}\"", field.Replace("\"", "\"\""));
//不簡化標準
//field = field.Replace("\"", "\"\"");
//if (field.IndexOfAny(new char[] { ',', '"', ' ', '\r' }) != -1)
//{
// field = string.Format("\"{0}\"", field);
//}
return field;
});
string line = string.Format("{0}{1}", string.Join(",", fields), Environment.NewLine);
return line;
}
//預設的欄位轉換方法
private static IEnumerable<string> GetObjFields<T>(T obj, bool isTitle) where T : class
{
IEnumerable<string> fields;
if (isTitle)
{
fields = obj.GetType().GetProperties().Select(pro => pro.Name);
}
else
{
fields = obj.GetType().GetProperties().Select(pro => pro.GetValue(obj)?.ToString());
}
return fields;
}
/// <summary>
/// 寫CSV文件,預設第一行為標題
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="list">數據列表</param>
/// <param name="path">文件路徑</param>
/// <param name="append">追加記錄</param>
/// <param name="func">欄位轉換方法</param>
/// <param name="defaultEncoding"></param>
public static void Write<T>(List<T> list, string path,bool append=true, Func<T, bool, IEnumerable<string>> func = null, Encoding defaultEncoding = null) where T : class
{
if (list == null || list.Count == 0) return;
if (defaultEncoding == null)
{
defaultEncoding = Encoding.UTF8;
}
if (func == null)
{
func = GetObjFields;
}
if (!File.Exists(path)|| !append)
{
var fields = func(list[0], true);
string title = FieldsToLine(fields);
File.WriteAllText(path, title, defaultEncoding);
}
using (StreamWriter sw = new StreamWriter(path, true, defaultEncoding))
{
list.ForEach(obj =>
{
var fields = func(obj, false);
string line = FieldsToLine(fields);
sw.Write(line);
});
}
}
#endregion
使用時,代碼如下:
//寫CSV文件
//使用自定義的欄位轉換方法,也是文章開頭複雜CSV文件使用欄位轉換方法
CsvFile.Write(records, path, true, new Func<Test, bool, IEnumerable<string>>((obj, isTitle) =>
{
IEnumerable<string> fields;
if (isTitle)
{
fields = obj.GetType().GetProperties().Select(pro => pro.Name + Environment.NewLine + "\",\"");
}
else
{
fields = obj.GetType().GetProperties().Select(pro => pro.GetValue(obj)?.ToString());
}
return fields;
}));
//使用預設的欄位轉換方法
//CsvFile.Write(records, path);
你也可以使用預設的欄位轉換方法,代碼如下:
CsvFile.Save(records, path);
使用TextFieldParser解析CSV文件
TextFieldParser是VB中解析CSV文件的類,C#雖然沒有類似功能的類,不過可以調用VB的TextFieldParser來實現功能。
TextFieldParser解析CSV文件的代碼如下:
#region 讀CSV文件(使用TextFieldParser)
/// <summary>
/// 讀CSV文件,預設第一行為標題
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="path">文件路徑</param>
/// <param name="func">欄位解析規則</param>
/// <param name="defaultEncoding">文件編碼</param>
/// <returns></returns>
public static List<T> Read<T>(string path, Func<string[], T> func, Encoding defaultEncoding = null) where T : class
{
if (defaultEncoding == null)
{
defaultEncoding = Encoding.UTF8;
}
List<T> list = new List<T>();
using (TextFieldParser parser = new TextFieldParser(path, defaultEncoding))
{
parser.TextFieldType = FieldType.Delimited;
//設定逗號分隔符
parser.SetDelimiters(",");
//設定不忽略欄位前後的空格
parser.TrimWhiteSpace = false;
bool isLine = false;
while (!parser.EndOfData)
{
string[] fields = parser.ReadFields();
if (isLine)
{
var obj = func(fields);
if (obj != null) list.Add(obj);
}
else
{
//忽略標題行業
isLine = true;
}
}
}
return list;
}
#endregion
使用時,代碼如下:
//讀CSV文件
records = CsvFile.Read(path, Test.Parse);
使用正則表達式解析CSV文件
如果你有一個問題,想用正則表達式來解決,那麼你就有兩個問題了。
正則表達式有一定的學習門檻,而且學習後不經常使用就會忘記。正則表達式解決的大多數是一些不易變更需求的問題,這就導致一個穩定可用的正則表達式可以傳好幾代。
本節的正則表達式來自 《精通正則表達式(第3版)》 第6章 打造高效正則表達式——簡單的消除迴圈的例子,有興趣的可以去瞭解一下,表達式說明如下:
註:這本書最終版的解析CSV文件的正則表達式是Jave版的使用占有優先量詞取代固化分組的版本,也是百度上經常見到的版本。不過占有優先量詞在C#中有點問題,本人能力有限解決不了,所以使用了上圖的版本。不過,這兩版正則表達式性能上沒有差異。
正則表達式解析CSV文件代碼如下:
#region 讀CSV文件(使用正則表達式)
/// <summary>
/// 讀CSV文件,預設第一行為標題
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="path">文件路徑</param>
/// <param name="func">欄位解析規則</param>
/// <param name="defaultEncoding">文件編碼</param>
/// <returns></returns>
public static List<T> Read_Regex<T>(string path, Func<string[], T> func, Encoding defaultEncoding = null) where T : class
{
List<T> list = new List<T>();
StringBuilder sbr = new StringBuilder(100);
Regex lineReg = new Regex("\"");
Regex fieldReg = new Regex("\\G(?:^|,)(?:\"((?>[^\"]*)(?>\"\"[^\"]*)*)\"|([^\",]*))");
Regex quotesReg = new Regex("\"\"");
bool isLine = false;
string line = string.Empty;
using (StreamReader sr = new StreamReader(path))
{
while (null != (line = ReadLine(sr)))
{
sbr.Append(line);
string str = sbr.ToString();
//一個完整的CSV記錄行,它的雙引號一定是偶數
if (lineReg.Matches(sbr.ToString()).Count % 2 == 0)
{
if (isLine)
{
var fields = ParseCsvLine(sbr.ToString(), fieldReg, quotesReg).ToArray();
var obj = func(fields.ToArray());
if (obj != null) list.Add(obj);
}
else
{
//忽略標題行業
isLine = true;
}
sbr.Clear();
}
else
{
sbr.Append(Environment.NewLine);
}
}
}
if (sbr.Length > 0)
{
//有解析失敗的字元串,報錯或忽略
}
return list;
}
//重寫ReadLine方法,只有\r\n才是正確的一行
private static string ReadLine(StreamReader sr)
{
StringBuilder sbr = new StringBuilder();
char c;
int cInt;
while (-1 != (cInt =sr.Read()))
{
c = (char)cInt;
if (c == '\n' && sbr.Length > 0 && sbr[sbr.Length - 1] == '\r')
{
sbr.Remove(sbr.Length - 1, 1);
return sbr.ToString();
}
else
{
sbr.Append(c);
}
}
return sbr.Length>0?sbr.ToString():null;
}
private static List<string> ParseCsvLine(string line, Regex fieldReg, Regex quotesReg)
{
var fieldMath = fieldReg.Match(line);
List<string> fields = new List<string>();
while (fieldMath.Success)
{
string field;
if (fieldMath.Groups[1].Success)
{
field = quotesReg.Replace(fieldMath.Groups[1].Value, "\"");
}
else
{
field = fieldMath.Groups[2].Value;
}
fields.Add(field);
fieldMath = fieldMath.NextMatch();
}
return fields;
}
#endregion
使用時代碼如下:
//讀CSV文件
records = CsvFile.Read_Regex(path, Test.Parse);
目前還未發現正則表達式解析有什麼bug,不過還是不建議使用。
完整的CsvFile工具類
完整的CsvFile類代碼如下:
using Microsoft.VisualBasic.FileIO;
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
namespace ConsoleApp4
{
/// <summary>
/// CSV文件讀寫工具類
/// </summary>
public class CsvFile
{
#region 寫CSV文件
//欄位數組轉為CSV記錄行
private static string FieldsToLine(IEnumerable<string> fields)
{
if (fields == null) return string.Empty;
fields = fields.Select(field =>
{
if (field == null) field = string.Empty;
//所有欄位都加雙引號
field = string.Format("\"{0}\"", field.Replace("\"", "\"\""));
//不簡化
//field = field.Replace("\"", "\"\"");
//if (field.IndexOfAny(new char[] { ',', '"', ' ', '\r' }) != -1)
//{
// field = string.Format("\"{0}\"", field);
//}
return field;
});
string line = string.Format("{0}{1}", string.Join(",", fields), Environment.NewLine);
return line;
}
//預設的欄位轉換方法
private static IEnumerable<string> GetObjFields<T>(T obj, bool isTitle) where T : class
{
IEnumerable<string> fields;
if (isTitle)
{
fields = obj.GetType().GetProperties().Select(pro => pro.Name);
}
else
{
fields = obj.GetType().GetProperties().Select(pro => pro.GetValue(obj)?.ToString());
}
return fields;
}
/// <summary>
/// 寫CSV文件,預設第一行為標題
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="list">數據列表</param>
/// <param name="path">文件路徑</param>
/// <param name="append">追加記錄</param>
/// <param name="func">欄位轉換方法</param>
/// <param name="defaultEncoding"></param>
public static void Write<T>(List<T> list, string path,bool append=true, Func<T, bool, IEnumerable<string>> func = null, Encoding defaultEncoding = null) where T : class
{
if (list == null || list.Count == 0) return;
if (defaultEncoding == null)
{
defaultEncoding = Encoding.UTF8;
}
if (func == null)
{
func = GetObjFields;
}
if (!File.Exists(path)|| !append)
{
var fields = func(list[0], true);
string title = FieldsToLine(fields);
File.WriteAllText(path, title, defaultEncoding);
}
using (StreamWriter sw = new StreamWriter(path, true, defaultEncoding))
{
list.ForEach(obj =>
{
var fields = func(obj, false);
string line = FieldsToLine(fields);
sw.Write(line);
});
}
}
#endregion
#region 讀CSV文件(使用TextFieldParser)
/// <summary>
/// 讀CSV文件,預設第一行為標題
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="path">文件路徑</param>
/// <param name="func">欄位解析規則</param>
/// <param name="defaultEncoding">文件編碼</param>
/// <returns></returns>
public static List<T> Read<T>(string path, Func<string[], T> func, Encoding defaultEncoding = null) where T : class
{
if (defaultEncoding == null)
{
defaultEncoding = Encoding.UTF8;
}
List<T> list = new List<T>();
using (TextFieldParser parser = new TextFieldParser(path, defaultEncoding))
{
parser.TextFieldType = FieldType.Delimited;
//設定逗號分隔符
parser.SetDelimiters(",");
//設定不忽略欄位前後的空格
parser.TrimWhiteSpace = false;
bool isLine = false;
while (!parser.EndOfData)
{
string[] fields = parser.ReadFields();
if (isLine)
{
var obj = func(fields);
if (obj != null) list.Add(obj);
}
else
{
//忽略標題行業
isLine = true;
}
}
}
return list;
}
#endregion
#region 讀CSV文件(使用正則表達式)
/// <summary>
/// 讀CSV文件,預設第一行為標題
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="path">文件路徑</param>
/// <param name="func">欄位解析規則</param>
/// <param name="defaultEncoding">文件編碼</param>
/// <returns></returns>
public static List<T> Read_Regex<T>(string path, Func<string[], T> func, Encoding defaultEncoding = null) where T : class
{
List<T> list = new List<T>();
StringBuilder sbr = new StringBuilder(100);
Regex lineReg = new Regex("\"");
Regex fieldReg = new Regex("\\G(?:^|,)(?:\"((?>[^\"]*)(?>\"\"[^\"]*)*)\"|([^\",]*))");
Regex quotesReg = new Regex("\"\"");
bool isLine = false;
string line = string.Empty;
using (StreamReader sr = new StreamReader(path))
{
while (null != (line = ReadLine(sr)))
{
sbr.Append(line);
string str = sbr.ToString();
//一個完整的CSV記錄行,它的雙引號一定是偶數
if (lineReg.Matches(sbr.ToString()).Count % 2 == 0)
{
if (isLine)
{
var fields = ParseCsvLine(sbr.ToString(), fieldReg, quotesReg).ToArray();
var obj = func(fields.ToArray());
if (obj != null) list.Add(obj);
}
else
{
//忽略標題行業
isLine = true;
}
sbr.Clear();
}
else
{
sbr.Append(Environment.NewLine);
}
}
}
if (sbr.Length > 0)
{
//有解析失敗的字元串,報錯或忽略
}
return list;
}
//重寫ReadLine方法,只有\r\n才是正確的一行
private static string ReadLine(StreamReader sr)
{
StringBuilder sbr = new StringBuilder();
char c;
int cInt;
while (-1 != (cInt =sr.Read()))
{
c = (char)cInt;
if (c == '\n' && sbr.Length > 0 && sbr[sbr.Length - 1] == '\r')
{
sbr.Remove(sbr.Length - 1, 1);
return sbr.ToString();
}
else
{
sbr.Append(c);
}
}
return sbr.Length>0?sbr.ToString():null;
}
private static List<string> ParseCsvLine(string line, Regex fieldReg, Regex quotesReg)
{
var fieldMath = fieldReg.Match(line);
List<string> fields = new List<string>();
while (fieldMath.Success)
{
string field;
if (fieldMath.Groups[1].Success)
{
field = quotesReg.Replace(fieldMath.Groups[1].Value, "\"");
}
else
{
field = fieldMath.Groups[2].Value;
}
fields.Add(field);
fieldMath = fieldMath.NextMatch();
}
return fields;
}
#endregion
}
}
使用方法如下:
//寫CSV文件
CsvFile.Write(records, path, true, new Func<Test, bool, IEnumerable<string>>((obj, isTitle) =>
{
IEnumerable<string> fields;
if (isTitle)
{
fields = obj.GetType().GetProperties().Select(pro => pro.Name + Environment.NewLine + "\",\"");
}
else
{
fields = obj.GetType().GetProperties().Select(pro => pro.GetValue(obj)?.ToString());
}
return fields;
}));
//讀CSV文件
records = CsvFile.Read(path, Test.Parse);
//讀CSV文件
records = CsvFile.Read_Regex(path, Test.Parse);
總結
- 介紹了CSV文件的 RFC 4180 標準及其簡化理解版本
- 介紹了CsvHelper、TextFieldParser、正則表達式三種解析CSV文件的方法
- 項目中推薦使用CsvHelper,如果不想引入太多開源組件可以使用TextFieldParser,不建議使用正則表達式