Linq To Objects - 如何操作字元串 開篇語: 上次發佈的 《LINQ:進階 - LINQ 標準查詢操作概述》(90+贊) 社會反響不錯,但自己卻始終覺得缺點什麼!“紙上得來終覺淺,絕知此事要躬行”,沒錯,就是實戰!這次讓我們一起來看看一些操作字元串的技巧,也許能引我們從不同的角度思考 ...
Linq To Objects - 如何操作字元串
開篇語:
上次發佈的 《LINQ:進階 - LINQ 標準查詢操作概述》(90+贊) 社會反響不錯,但自己卻始終覺得缺點什麼!“紙上得來終覺淺,絕知此事要躬行”,沒錯,就是實戰!這次讓我們一起來看看一些操作字元串的技巧,也許能引我們從不同的角度思考問題,從而走出思維的死角!
序
LINQ 可用於查詢和轉換字元串和字元串集合。它對文本文件中的半結構化數據尤其有用。LINQ 查詢可與傳統的字元串函數和正則表達式結合使用。
例如,可以使用 Split 或 Split 方法來創建字元串數組,然後可以使用 LINQ 來查詢或修改此數組;可以在 LINQ 查詢的 where 子句中使用 IsMatch 方法;可以使用 LINQ 來查詢或修改由正則表達式返回的 MatchCollection 結果......查詢文本塊
可以通過使用 Split 方法或 Split 方法將文本塊拆分成可查詢的較小字元串數組,來查詢、分析和修改文本塊。可以將源文本拆分成詞語、句子、段落、頁或任何其他條件,然後根據查詢的需要,執行其他拆分。 (1)如何統計單詞在字元串出現次數? --演示如何使用 LINQ 對文本進行簡單查詢 (2)如何查詢包含一組指定的單詞的句子? --演示如何按任意邊界拆分文本文件,以及如何對每個部分執行查詢 (3)如何在字元串中查詢字元? --演示字元串是可查詢類型 (4)如何用正則表達式結合 LINQ 查詢? --演示如何在 LINQ 查詢中使用正則表達式來對篩選的查詢結果執行複雜模式匹配查詢文本格式的半結構化數據
許多不同類型的文本文件都包含一系列行,通常具有類似的格式,例如製表符分隔或逗號分隔文件或固定長度的行。在將此類文本文件讀取到記憶體中後,可以使用 LINQ 來查詢和/或修改行。LINQ 查詢還簡化了組合多個源的數據的任務。 (5)如何查找兩個集合間的差異? --演示如何查找位於一個列表中但不在另一個列表中的所有字元串 (6)如何排序或過濾任意詞語或欄位的文本數據? --演示如何根據任意詞語或欄位排序文本行 (7)如何對一個分割的文件的欄位重新排序? --演示如何重新排列 .csv 文件中的某一行中的欄位 (8)如何組合和比較字元串集合? --演示如何以各種方式組合字元串列表 (9)如何從多個源填充對象集合? --演示如何將多個文本文件用作數據源來創建對象集合 (10)如何使用 group 將一個文件拆分成多個文件? --演示如何將單個文件用作數據源來創建新文件 (11)如何向不同的文件中加入內容? --演示如何使用匹配鍵將兩個列表中的字元串組合為單個字元串 (12)如何計算一個 CSV 文本文件中的列值? --演示如何對 .csv 文件中的文本數據執行數學運算一、如何統計單詞在字元串出現次數
請註意,若要執行計數,請先調用 Split 方法來創建詞數組。Split 方法存在性能開銷。如果對字元串執行的唯一操作是計數詞,則應考慮改用 Matches 或 IndexOf 方法。1 const string text = @"Historically, the world of data and the world of objects" + 2 @" have not been well integrated. Programmers work in C# or Visual Basic" + 3 @" and also in SQL or XQuery. On the one side are concepts such as classes," + 4 @" objects, fields, inheritance, and .NET Framework APIs. On the other side" + 5 @" are tables, columns, rows, nodes, and separate languages for dealing with" + 6 @" them. Data types often require translation between the two worlds; there are" + 7 @" different standard functions. Because the object world has no notion of query, a" + 8 @" query can only be represented as a string without compile-time type checking or" + 9 @" IntelliSense support in the IDE. Transferring data from SQL tables or XML trees to" + 10 @" objects in memory is often tedious and error-prone."; 11 12 const string searchTerm = "data"; 13 14 //字元串轉換成數組 15 var source = text.Split(new[] { '.', '?', '!', ' ', ';', ':', ',' }, StringSplitOptions.RemoveEmptyEntries); 16 17 //創建查詢,並忽略大小寫比較 18 var matchQuery = from word in source 19 where string.Equals(word, searchTerm, StringComparison.InvariantCultureIgnoreCase) 20 select word; 21 22 //統計匹配數量 23 var wordCount = matchQuery.Count(); 24 Console.WriteLine($"{wordCount} occurrences(s) of the search term \"{searchTerm}\" were found.");
二、如何查詢包含指定的一組單詞的句子
此示例演示如何查找文本文件中包含指定的一組單詞中每個單詞的匹配項的句子。雖然在此示例中搜索條件數組是硬編碼的,但也可以在運行時動態填充此數組。1 const string text = @"Historically, the world of data and the world of objects " + 2 @"have not been well integrated. Programmers work in C# or Visual Basic " + 3 @"and also in SQL or XQuery. On the one side are concepts such as classes, " + 4 @"objects, fields, inheritance, and .NET Framework APIs. On the other side " + 5 @"are tables, columns, rows, nodes, and separate languages for dealing with " + 6 @"them. Data types often require translation between the two worlds; there are " + 7 @"different standard functions. Because the object world has no notion of query, a " + 8 @"query can only be represented as a string without compile-time type checking or " + 9 @"IntelliSense support in the IDE. Transferring data from SQL tables or XML trees to " + 10 @"objects in memory is often tedious and error-prone."; 11 12 //將文本塊切割成數組 13 var sentences = text.Split('.', '?', '!'); 14 15 //定義搜索條件,此列表可以運行時動態添加 16 string[] wordsToMatch = { "Historically", "data", "integrated" }; 17 18 var match = from sentence in sentences 19 let t = 20 sentence.Split(new char[] { '.', '?', '!', ' ', ';', ':', ',' }, StringSplitOptions.RemoveEmptyEntries) 21 where t.Distinct().Intersect(wordsToMatch).Count() == wordsToMatch.Length //去重,取交集後的數量對比 22 select sentence; 23 24 foreach (var s in match) 25 { 26 Console.WriteLine(s); 27 }
查詢運行時首先將文本拆分成句子,然後將句子拆分成包含每個單詞的字元串數組。對於每個這樣的數組,Distinct<TSource> 方法移除所有重覆的單詞,然後查詢對單詞數組和 wordstoMatch 數組執行 Intersect<TSource> 操作。如果交集的計數與 wordsToMatch 數組的計數相同,則在單詞中找到了所有的單詞,且返回原始句子。
在對 Split 的調用中,使用標點符號作為分隔符,以從字元串中移除標點符號。如果您沒有這樣做,則假如您有一個字元串“Historically,”,該字元串不會與 wordsToMatch 數組中的“Historically”相匹配。根據源文本中標點的類型,您可能必須使用其他分隔符。三、如何在字元串中查詢字元
因為 String 類實現泛型 IEnumerable<T> 介面,所以可以將任何字元串作為字元序列進行查詢。但是,這不是 LINQ 的常見用法。若要執行複雜的模式匹配操作,請使用 Regex 類。
下麵的示例查詢一個字元串以確定它包含的數字的數目。
1 const string aString = "ABCDE99F-J74-12-89A"; 2 3 //只選擇數字的字元 4 var digits = from ch in aString 5 where char.IsDigit(ch) 6 select ch; 7 8 Console.Write("digit: "); 9 10 foreach (var n in digits) 11 { 12 Console.Write($"{n} "); 13 } 14 15 Console.WriteLine(); 16 17 //選擇第一個“-”之前的所有字元 18 var query = aString.TakeWhile(x => x != '-'); 19 20 foreach (var ch in query) 21 { 22 Console.Write(ch); 23 }
四、如何用正則表達式結合 LINQ 查詢
此示例演示如何使用 Regex 類創建正則表達式以便在文本字元串中進行更複雜的匹配。使用 LINQ 查詢可以方便地對您要用正則表達式搜索的文件進行準確篩選,以及對結果進行加工。
1 //根據不同版本的 vs 修改路徑 2 const string floder = @"C:\Program Files (x86)\Microsoft Visual Studio 14.0\"; 3 var infoes = GetFiles(floder); 4 //創建正則表達式來尋找所有的"Visual" 5 var searchTerm = new Regex(@"Visual (Basic|C#|C\+\+|J#|SourceSafe|Studio)"); 6 7 //搜索每一個“.html”文件 8 //通過 where 找到匹配項 9 //【註意】select 中的變數要求顯示聲明其類型,因為 MatchCollection 不是泛型 IEnumerable 集合 10 var query = from fileInfo in infoes 11 where fileInfo.Extension == ".html" 12 let text = File.ReadAllText(fileInfo.FullName) 13 let matches = searchTerm.Matches(text) 14 where matches.Count > 0 15 select new 16 { 17 name = fileInfo.FullName, 18 matchValue = from Match match in matches select match.Value 19 }; 20 21 Console.WriteLine($"The term \"{searchTerm}\" was found in:"); 22 23 foreach (var q in query) 24 { 25 //修剪匹配找到的文件中的路徑 26 Console.WriteLine($"{q.name.Substring(floder.Length - 1)}"); 27 28 //輸出找到的匹配值 29 foreach (var v in q.matchValue) 30 { 31 Console.WriteLine(v); 32 } 33 }
1 private static IList<FileInfo> GetFiles(string path) 2 { 3 var files = Directory.GetFiles(path, "*.*", SearchOption.AllDirectories); 4 5 return files.Select(file => new FileInfo(file)).ToList(); 6 }
您還可以查詢由 RegEx 搜索返回的 MatchCollection 對象。在此示例中,結果中僅生成每個匹配項的值。但也可使用 LINQ 對該集合執行各種篩選、排序和分組操作。
【註意】由於 MatchCollection 是非泛型 IEnumerable 集合,因此必須顯式聲明查詢中的範圍變數的類型。
五、如何查找兩個集合間的差異
此示例演示如何使用 LINQ 對兩個字元串列表進行比較,並輸出那些位於 names1.txt 中但不在 names2.txt 中的行。Bankov, Peter
Holm, Michael
Garcia, Hugo
Potra, Cristina
Noriega, Fabricio
Aw, Kam Foo
Beebe, Ann
Toyoshima, Tim
Guy, Wey Yuan
Garcia, Debra
names1.txt
Liu, Jinghao
Bankov, Peter
Holm, Michael
Garcia, Hugo
Beebe, Ann
Gilchrist, Beth
Myrcha, Jacek
Giakoumakis, Leo
McLin, Nkenge
El Yassir, Mehdi
names2.txt
1 //創建數據源 2 var names1Text = File.ReadAllLines(@"names1.txt"); 3 var names2Text = File.ReadAllLines(@"names2.txt"); 4 5 //創建查詢,這裡必須使用方法語法 6 var query = names1Text.Except(names2Text); 7 8 //執行查詢 9 Console.WriteLine("The following lines are in names1.txt but not names2.txt"); 10 foreach (var name in query) 11 { 12 Console.WriteLine(name); 13 }
【註意】某些類型的查詢操作(如 Except<TSource>、Distinct<TSource>、Union<TSource> 和 Concat<TSource>)只能用基於方法的語法表示。
六、如何排序或過濾任意單詞或欄位的文本數據
下麵的示例演示如何按結構化文本(如逗號分隔值)行中的任意欄位對該文本行進行排序。可在運行時動態指定該欄位。假定 scores.csv 中的欄位表示學生的 ID 號,後面跟四個測驗分數。111, 97, 92, 81, 60 112, 75, 84, 91, 39 113, 88, 94, 65, 91 114, 97, 89, 85, 82 115, 35, 72, 91, 70 116, 99, 86, 90, 94 117, 93, 92, 80, 87 118, 92, 90, 83, 78 119, 68, 79, 88, 92 120, 99, 82, 81, 79 121, 96, 85, 91, 60 122, 94, 92, 91, 91scores.csv
1 //創建數據源 2 var scores = File.ReadAllLines(@"scores.csv"); 3 //可以改為 0~4 的任意值 4 const int sortField = 1; 5 6 //演示從方法返回查詢 7 //返回查詢變數,非查詢結果 8 //這裡執行查詢 9 foreach (var score in RunQuery(scores, sortField)) 10 { 11 Console.WriteLine(score); 12 }
1 private static IEnumerable<string> RunQuery(IEnumerable<string> score, int num) 2 { 3 //分割字元串來排序 4 var query = from line in score 5 let fields = line.Split(',') 6 orderby fields[num] descending 7 select line; 8 9 return query; 10 }
此示例還演示如何從方法返回查詢變數。
七、如何對一個分割的文件的欄位重新排序
逗號分隔值 (CSV) 文件是一種文本文件,通常用於存儲電子錶格數據或其他由行和列表示的表格數據。通過使用 Split 方法分隔欄位,可以非常輕鬆地使用 LINQ 來查詢和操作 CSV 文件。事實上,可以使用此技術來重新排列任何結構化文本行部分;此技術不局限於 CSV 文件。
在下麵的示例中,假定有三列分別代表學生的“姓氏”、“名字”和“ID”。這些欄位基於學生的姓氏按字母順序排列。查詢生成一個新序列,其中首先出現的是 ID 列,後面的第二列組合了學生的名字和姓氏。根據 ID 欄位重新排列各行。結果保存到新文件,但不修改原始數據。Adams,Terry,120 Fakhouri,Fadi,116 Feng,Hanying,117 Garcia,Cesar,114 Garcia,Debra,115 Garcia,Hugo,118 Mortensen,Sven,113 O'Donnell,Claire,112 Omelchenko,Svetlana,111 Tucker,Lance,119 Tucker,Michael,122 Zabokritski,Eugene,121spreadsheet1.csv
1 //數據源 2 var lines = File.ReadAllLines(@"spreadsheet1.csv"); 3 //將舊數據的第2列的欄位放到第一位,逆向結合第0列和第1列的欄位 4 var query = from line in lines 5 let t = line.Split(',') 6 orderby t[2] 7 select $"{t[2]}, {t[1]} {t[0]}"; 8 9 foreach (var q in query) 10 { 11 Console.WriteLine(q); 12 } 13 14 //寫入文件 15 File.WriteAllLines("spreadsheet2.csv", query);
八、如何組合和比較字元串集合
此示例演示如何合併包含文本行的文件,然後排序結果。具體來說,此示例演示如何對兩組文本行執行簡單的串聯、聯合和交集。
Bankov, Peter
Holm, Michael
Garcia, Hugo
Potra, Cristina
Noriega, Fabricio
Aw, Kam Foo
Beebe, Ann
Toyoshima, Tim
Guy, Wey Yuan
Garcia, Debra
names1.txt
Liu, Jinghao
Bankov, Peter
Holm, Michael
Garcia, Hugo
Beebe, Ann
Gilchrist, Beth
Myrcha, Jacek
Giakoumakis, Leo
McLin, Nkenge
El Yassir, Mehdi
names2.txt
1 var names1Text = File.ReadAllLines(@"names1.txt"); 2 var names2Text = File.ReadAllLines(@"names2.txt"); 3 4 //簡單連接,併排序。重覆保存。 5 var concatQuery = names1Text.Concat(names2Text).OrderBy(x => x); 6 OutputQueryResult(concatQuery, "Simple concatenate and sort. Duplicates are preserved:"); 7 8 //基於預設字元串比較器連接,並刪除重名。 9 var unionQuery = names1Text.Union(names2Text).OrderBy(x => x); 10 OutputQueryResult(unionQuery, "Union removes duplicate names:"); 11 12 //查找在兩個文件中出現的名稱 13 var intersectQuery = names1Text.Intersect(names2Text).OrderBy(x => x); 14 OutputQueryResult(intersectQuery, "Merge based on intersect:"); 15 16 //在每個列表中找到匹配的欄位。使用 concat 將兩個結果合併,然後使用預設的字元串比較器進行排序 17 const string nameMatch = "Garcia"; 18 var matchQuery1 = from name in names1Text 19 let t = name.Split(',') 20 where t[0] == nameMatch 21 select name; 22 var matchQuery2 = from name in names2Text 23 let t = name.Split(',') 24 where t[0] == nameMatch 25 select name; 26 27 var temp = matchQuery1.Concat(matchQuery2).OrderBy(x => x); 28 OutputQueryResult(temp, $"Concat based on partial name match \"{nameMatch}\":");
1 private static void OutputQueryResult(IEnumerable<string> querys, string title) 2 { 3 Console.WriteLine(Environment.NewLine + title); 4 foreach (var query in querys) 5 { 6 Console.WriteLine(query); 7 } 8 9 Console.WriteLine($"{querys.Count()} total names in list"); 10 }
九、如何從多個源中填充對象集合
不要嘗試將記憶體中的數據或文件系統中的數據與仍在資料庫中的數據相聯接。此種跨域聯接會生成未定義的結果,因為資料庫查詢和其他類型的源定義聯接運算的方式可能不同。另外,如果資料庫中的數據量足夠大,則存在此類運算引發記憶體不足異常的風險。若要將資料庫數據與記憶體中的數據相聯接,請首先對資料庫查詢調用 ToList 或 ToArray,然後對返回的集合執行聯接。1 //每行 names.csv 包含姓氏,名字,和身份證號,以逗號分隔。例如,Omelchenko,Svetlana,111 2 var names = File.ReadAllLines(@"names.csv"); 3 //每行 scores.csv 包括身份證號碼和四個測試評分,以逗號分隔。例如,111,97,92,81,60 4 var scores = File.ReadAllLines(@"scores.csv"); 5 6 //使用一個匿名的類型合併數據源。 7 //【註意】動態創建一個 int 的考試成績成員列表。 8 //跳過分割字元串中的第一項,因為它是學生的身份證,不是一個考試成績 9 var students = from name in names 10 let t = name.Split(',') 11 from score in scores 12 13 let t2 = score.Split(',') 14 where t[2] == t2[0] 15 select new 16 { 17 FirstName = t[0], 18 LastName = t[1], 19 ID = Convert.ToInt32(t[2]), 20 ExamScores = (from scoreAsText in t2.Skip(1) 21 select Convert.ToInt32(scoreAsText)).ToList() 22 }; 23 24 foreach (var student in students)