Linq To Objects - 如何操作文件目錄 開篇語: 上次發佈的 《LINQ:進階 - LINQ 標準查詢操作概述》 社會反響不錯,但自己卻始終覺得缺點什麼!“紙上得來終覺淺,絕知此事要躬行”,沒錯,就是實戰!這次讓我們一起來看看一些操作文件目錄的技巧,也許能引我們從不同的角度思考問題,從 ...
Linq To Objects - 如何操作文件目錄
開篇語:
上次發佈的 《LINQ:進階 - LINQ 標準查詢操作概述》 社會反響不錯,但自己卻始終覺得缺點什麼!“紙上得來終覺淺,絕知此事要躬行”,沒錯,就是實戰!這次讓我們一起來看看一些操作文件目錄的技巧,也許能引我們從不同的角度思考問題,從而走出思維的死角!
這是與 《Linq To Objects - 如何操作字元串》 風格相似的操作技巧篇。
這裡主要貼的是代碼,所以會很枯燥乏味,要知道,放棄遠遠比一章章的看下去要簡單得多。博主猜測:看的每一小點都可能令你有“柳暗花明又一村”之意!
序
許多文件系統操作實質上是查詢,因此非常適合使用 LINQ 方法。 【註意】本節中的查詢是非破壞性查詢。它們不用於更改原始文件或文件夾的內容。這遵循了查詢不應引起任何副作用這條規則。通常,修改源數據的任何代碼(包括執行創建/更新/刪除運算符的查詢)應與只查詢數據的代碼分開。 (1)如何查詢具有指定屬性或名稱的文件?--演示如何通過檢查文件的 FileInfo 對象的一個或多個屬性來搜索文件。
--演示如何根據文件擴展名返回 FileInfo 對象組。
--演示如何返回指定目錄樹中的所有文件中的總位元組數。 --演示如何返回位於兩個指定文件夾中的所有文件,以及僅位於其中一個文件夾中的所有文件。 --演示如何返回目錄樹中的最大文件、最小文件或指定數量的文件。--演示如何對出現在指定目錄樹的多個位置的所有文件名進行分組。此外,還演示如何根據自定義比較器執行更複雜的比較。
--演示如何迴圈訪問樹中的文件夾,打開每個文件以及查詢文件的內容。一、如何查詢具有指定屬性或名稱的文件
此示例演示如何查找指定目錄樹中具有指定文件擴展名(例如“.txt”)的所有文件,還演示如何根據創建時間返回樹中最新或最舊的文件。
1 //該查詢將所有生產的完整路徑。txt文件指定的文件夾包括子文件夾下。 2 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 14.0\"; 3 //取文件系統快照 4 var dir = new DirectoryInfo(path); 5 //該方法假定應用程式在指定路徑下的所有文件夾都具有搜索許可權。 6 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 7 8 //創建查詢 9 var fileQuery = from file in files 10 where file.Extension == ".html" 11 orderby file.Name 12 select file; 13 14 //執行查詢 15 foreach (var file in fileQuery) 16 { 17 Console.WriteLine(file.FullName); 18 } 19 20 //創建和執行一個新的查詢,通過查詢舊文件的創建時間作為一個出發點 21 //Last:選最後一個,因為是按日期升序,所以最新的是指最後一個 22 var newestFile = (from file in fileQuery 23 orderby file.CreationTime 24 select new { file.FullName, file.CreationTime }).Last(); 25 26 Console.WriteLine( 27 $"\r\nThe newest .txt file is {newestFile.FullName}. Creation time: {newestFile.CreationTime}");
圖中執行結果可能與您的不一樣。
二、如何按照擴展名對文件進行分組
此示例演示如何使用 LINQ 對文件或文件夾列表執行高級分組和排序操作。此外,它還演示如何使用 Skip<TSource> 和 Take<TSource> 方法對控制台視窗中的輸出進行分頁。 下麵的查詢演示如何按文件擴展名對指定目錄樹的內容進行分組。1 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 14.0\Common7"; 2 //“path”的長度,後續用於在輸出時去掉“path”這段首碼 3 var trimLength = path.Length; 4 //取文件系統快照 5 var dir = new DirectoryInfo(path); 6 //該方法假定應用程式在指定路徑下的所有文件夾都具有搜索許可權。 7 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 8 9 //創建查詢 10 var query = from file in files 11 group file by file.Extension.ToLower() into fileGroup 12 orderby fileGroup.Key 13 select fileGroup; 14 15 //一次顯示一組。如果列表實體的行數大於控制台視窗中的行數,則分頁輸出。 16 PageOutput(trimLength, query);
1 private static void PageOutput(int rootLength, IOrderedEnumerable<IGrouping<string, FileInfo>> query) 2 { 3 //跳出分頁迴圈的標誌 4 var isAgain = true; 5 //控制台輸出的高度 6 var numLines = Console.WindowHeight - 3; 7 8 //遍歷分組集合 9 foreach (var g in query) 10 { 11 var currentLine = 0; 12 13 do 14 { 15 Console.Clear(); 16 Console.WriteLine(string.IsNullOrEmpty(g.Key) ? "[None]" : g.Key); 17 18 //從“currentLine”開始顯示“numLines”條數 19 var resultPage = g.Skip(currentLine).Take(numLines); 20 21 //執行查詢 22 foreach (var info in resultPage) 23 { 24 Console.WriteLine("\t{0}", info.FullName.Substring(rootLength)); 25 } 26 27 //記錄輸出行數 28 currentLine += numLines; 29 Console.WriteLine("點擊“任意鍵”繼續,按“End”鍵退出"); 30 31 //給用戶選擇是否跳出 32 var key = Console.ReadKey().Key; 33 if (key != ConsoleKey.End) continue; 34 35 isAgain = false; 36 break; 37 } while (currentLine < g.Count()); 38 39 if (!isAgain) 40 { 41 break; 42 } 43 } 44 45 }
圖中執行結果可能與您的不一樣。
此程式的輸出可能會很長,具體取決於本地文件系統的細節以及 path 的設置。為了使您可以查看所有結果,此示例還演示如何按頁查看結果。這些方法可應用於 Windows 和 Web 應用程式。請註意,由於代碼將對組中的項進行分頁,因此需要嵌套的 foreach 迴圈。此外,還會使用某他某個邏輯來計算列表中的當前位置,以及使用戶可以停止分頁並退出程式。在這種特定情況下,將針對原始查詢的緩存結果運行分頁查詢。
三、如何查詢一組文件夾中的總位元組數
此示例演示如何檢索指定文件夾及其所有子文件夾中的所有文件所使用的總位元組數。 Sum 方法添加在 select 子句中選擇的所有項的值。您可以輕鬆修改此查詢以檢索指定目錄樹中的最大或最小文件,方法是調用 Min<TSource> 或 Max<TSource> 方法,而不是 Sum。1 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC#"; 2 var dir = new DirectoryInfo(path); 3 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 4 5 var query = from file in files 6 select file.Length; 7 8 //緩存結果,以避免多次訪問文件系統 9 var fileLengths = query as long[] ?? query.ToArray(); 10 //返回最大文件的大小 11 var largestLength = fileLengths.Max(); 12 //返回指定文件夾下的所有文件中的總位元組數 13 var totalBytes = fileLengths.Sum(); 14 Console.WriteLine(); 15 16 Console.WriteLine("There are {0} bytes in {1} files under {2}", 17 totalBytes, files.Count(), path); 18 Console.WriteLine("The largest files is {0} bytes.", largestLength);
圖中執行結果可能與您的不一樣。
如果您只需要統計特定目錄樹中的位元組數,則可以更高效地實現此目的,而無需創建 LINQ 查詢,因為該查詢會引發創建列表集合作為數據源的系統開銷。隨著查詢複雜度的增加,或者當您必須對同一數據源運行多個查詢時,LINQ 方法的有用性也會隨之增加。
四、如何比較兩個文件夾中的內容
此示例演示比較兩個文件列表的三種方法:
(1)查詢一個指定兩個文件列表是否相同的布爾值;
(2)查詢用於檢索同時位於兩個文件夾中的文件的交集;
(3)查詢用於檢索位於一個文件夾中但不在另一個文件夾中的文件的差集;
1 //創建兩個帶比較的文件夾 2 const string path1 = @"E:\Test1"; 3 const string path2 = @"E:\Test2"; 4 5 var dir1 = new DirectoryInfo(path1); 6 var dir2 = new DirectoryInfo(path2); 7 8 //取文件快照 9 var files1 = dir1.GetFiles("*.*", SearchOption.AllDirectories); 10 var files2 = dir2.GetFiles("*.*", SearchOption.AllDirectories); 11 12 //自定義文件比較器 13 var comparer = new FileComparer(); 14 15 //該查詢確定兩個文件夾包含相同的文件列表,基於自定義文件比較器。查詢立即執行,因為它返回一個bool。 16 var areIdentical = files1.SequenceEqual(files2, comparer); 17 Console.WriteLine(areIdentical == true ? "the two folders are the same" : "The two folders are not the same"); 18 19 //交集:找相同的文件 20 var queryCommonFiles = files1.Intersect(files2, comparer); 21 22 var commonFiles = queryCommonFiles as FileInfo[] ?? queryCommonFiles.ToArray(); 23 if (commonFiles.Any()) 24 { 25 Console.WriteLine("The following files are in both folders:"); 26 foreach (var v in commonFiles) 27 { 28 Console.WriteLine(v.FullName); 29 } 30 } 31 else 32 { 33 Console.WriteLine("There are no common files in the two folders."); 34 } 35 36 //差集:對比兩個文件夾的差異 37 var diffQuery = files1.Except(files2, comparer); 38 39 Console.WriteLine("The following files are in list1 but not list2:"); 40 foreach (var v in diffQuery) 41 { 42 Console.WriteLine(v.FullName); 43 }
1 //該實現定義了一個非常簡單的兩個 FileInfo 對象之間的比較。它只比較文件的名稱和它們位元組數的長度 2 public class FileComparer : IEqualityComparer<FileInfo> 3 { 4 public bool Equals(FileInfo x, FileInfo y) 5 { 6 return string.Equals(x.Name, y.Name, StringComparison.CurrentCultureIgnoreCase) && x.Length == y.Length; 7 } 8 9 //返回一個比較標準的哈希值。根據 IEqualityComparer 規則,如果相等,那麼哈希值也必須是相等的。 10 //因為這裡所定義的相等只是一個簡單的值相等,而不是引用標識,所以兩個或多個對象將產生相同的哈希值是可能的。 11 public int GetHashCode(FileInfo obj) 12 { 13 var s = string.Format("{0}{1}", obj.Name, obj.Length); 14 15 return s.GetHashCode(); 16 } 17 }
圖中執行結果可能與您的不一樣。
【註意】 可以修改上述這些方法以便對任意類型的對象序列進行比較。 此處顯示的 FileComparer 類演示如何將自定義比較器類與標準查詢運算符一起使用。該類不是為在實際方案中使用而設計的。它只是使用每個文件的名稱和長度(以位元組為單位)來確定每個文件夾的內容是否相同。在實際方案中,應對此比較器進行修改以執行更嚴格的相等性檢查。五、如何在目錄樹中查詢最大的文件
此示例演示與文件大小(以位元組為單位)相關的五種查詢:
(1)如何檢索最大文件的大小(以位元組為單位);
(2)如何檢索最小文件的大小(以位元組為單位);
(3)如何從指定的根文件夾下的一個或多個文件夾檢索 FileInfo 對象最大或最小文件;
(4)如何檢索一個序列,如 10 個最大文件。
下麵的示例包含五種不同的查詢,這些查詢演示如何根據文件大小(以位元組為單位)查詢和分組文件。可以輕鬆地修改這些示例,以使查詢基於 FileInfo 對象的某個其他屬性。1 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC#"; 2 var dir = new DirectoryInfo(path); 3 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 4 5 var query = from file in files 6 select file.Length; 7 8 //返回最大文件的大小 9 var maxSize = query.Max(); 10 Console.WriteLine("The length of the largest file under {0} is {1}", 11 path, maxSize); 12 13 //倒序排列 14 var query2 = from file in files 15 let len = file.Length 16 where len > 0 17 orderby len descending 18 select file; 19 20 var fileInfos = query2 as FileInfo[] ?? query2.ToArray(); 21 //倒序排列的第一個就是最大的文件 22 var longestFile = fileInfos.First(); 23 //倒序排列的第一個就是最小的文件 24 var smallestFile = fileInfos.Last(); 25 26 Console.WriteLine("The largest file under {0} is {1} with a length of {2} bytes", 27 path, longestFile.FullName, longestFile.Length); 28 Console.WriteLine("The smallest file under {0} is {1} with a length of {2} bytes", 29 path, smallestFile.FullName, smallestFile.Length); 30 Console.WriteLine("===== The 10 largest files under {0} are: =====", path); 31 32 //返回前10個最大的文件 33 var queryTenLargest = fileInfos.Take(10); 34 foreach (var v in queryTenLargest) 35 { 36 Console.WriteLine("{0}: {1} bytes", v.FullName, v.Length); 37 }圖中執行結果可能與您的不一樣。
若要返回一個或多個完整的 FileInfo 對象,查詢必須首先檢查數據源中的每個對象,然後按這些對象的 Length 屬性的值排序它們。然後查詢可以返回具有最大長度的單個對象或序列。使用 First<TSource> 可返回列表中的第一個元素。使用 Take<TSource> 可返回前 n 個元素。指定降序排序順序可將最小的元素放在列表的開頭。
六、如何在目錄樹中查詢重覆的文件
有時,多個文件夾中可能存在同名的文件。例如,在 Visual Studio 安裝文件夾中,有多個文件夾包含 readme.htm 文件。此示例演示如何在指定的根文件夾中查詢這樣的重覆文件名。第二個示例演示如何查詢其大小和創建時間也匹配的文件。1 static void Main(string[] args) 2 { 3 QueryDuplicates(); 4 //QueryDuplicates2(); 5 6 Console.ReadKey(); 7 }
1 static void QueryDuplicates() 2 { 3 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 12.0"; 4 var dir = new DirectoryInfo(path); 5 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 6 var charsToSkip = path.Length; 7 8 var queryDupNames = (from file in files 9 group file.FullName.Substring(charsToSkip) by file.Name into fileGroup 10 where fileGroup.Count() > 1 11 select fileGroup).Distinct(); 12 13 PageOutput<string, string>(queryDupNames); 14 }
1 private static void QueryDuplicates2() 2 { 3 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 12.0"; 4 var dir = new DirectoryInfo(path); 5 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 6 //路徑的長度 7 var charsToSkip = path.Length; 8 9 //註意一個複合鍵的使用。三個屬性都匹配的文件屬於同一組。 10 //匿名類型也可以用於複合鍵,但不能跨越方法邊界。 11 var queryDupFiles = from file in files 12 group file.FullName.Substring(charsToSkip) by 13 new PortableKey() { Name = file.Name, CreationTime = file.CreationTime, Length = file.Length } 14 into fileGroup 15 where fileGroup.Count() > 1 16 select fileGroup; 17 18 var queryDupNames = queryDupFiles as IGrouping<PortableKey, string>[] ?? queryDupFiles.ToArray(); 19 var list = queryDupNames.ToList(); 20 var i = queryDupNames.Count(); 21 22 //分頁輸出 23 PageOutput<PortableKey, string>(queryDupNames); 24 25 }
1 private static void PageOutput<TK, TV>(IEnumerable<IGrouping<TK, TV>> queryDupNames) 2 { 3 //跳出分頁迴圈的標誌 4 var isAgain = true; 5 var numLines = Console.WindowHeight - 3; 6 7 var dupNames = queryDupNames as IGrouping<TK, TV>[] ?? queryDupNames.ToArray(); 8 foreach (var queryDupName in dupNames) 9 { 10 //分頁開始 11 var currentLine = 0; 12 13 do 14 { 15 Console.Clear(); 16 Console.WriteLine("Filename = {0}", queryDupName.Key.ToString() == string.Empty ? "[none]" : queryDupName.Key.ToString()); 17 18 //跳過 currentLine 行,取 numLines 行 19 var resultPage = queryDupName.Skip(currentLine).Take(numLines); 20 21 foreach (var fileName in resultPage) 22 { 23 Console.WriteLine("\t{0}", fileName); 24 } 25 26 //增量器記錄已顯示的行數 27 currentLine += numLines; 28 29 //讓用戶自動選擇下一下 30 //Console.WriteLine("Press any key to continue or the 'End' key to break..."); 31 //var key = Console.ReadKey().Key; 32 //if (key == ConsoleKey.End) 33 //{ 34 // isAgain = false; 35 // break; 36 //} 37 38 //按得有點累,還是讓它自動下一頁吧 39 Thread.Sleep(100); 40 41 } while (currentLine < queryDupName.Count()); 42 43 //if (!isAgain) 44 // break; 45 } 46 47 }
圖中執行結果可能與您的不一樣。
第一個查詢使用一個簡單的鍵確定是否匹配;這會找到同名但內容可能不同的文件。第二個查詢使用複合鍵並根據 FileInfo 對象的三個屬性來確定是否匹配。此查詢非常類似於查找同名且內容類似或相同的文件。七、如何在文件夾中查詢文件的內容
此示例演示如何查詢指定目錄樹中的所有文件、打開每個文件並檢查其內容。 此類技術可用於對目錄樹的內容創建索引或反向索引。 此示例中執行的是簡單的字元串搜索。 但是,可使用正則表達式執行更複雜類型的模式匹配。1 const string path = @"C:\Program Files (x86)\Microsoft Visual Studio 12.0"; 2 var dir = new DirectoryInfo(path); 3 var files = dir.GetFiles("*.*", SearchOption.AllDirectories); 4 5 //待匹配的字元串 6 const string searchTerm = @"Visual Studio"; 7 //搜索每個文件的內容。 8 //您也可以使用正則表達式替換 Contains 方法 9 var queryMatchingFiles = from file in files 10 where file.Extension == ".html" 11 let content = GetFileConetnt(file.FullName) 12 where content.Contains(searchTerm) 13 select file.FullName; 14 15 //執行查詢 16 Console.WriteLine("The term \"{0}\" was found in:", searchTerm); 17 foreach (var filename in queryMatchingFiles) 18 { 19 Console.WriteLine(filename); 20 }
1 /// <summary> 2 /// 讀取文件的所有內容 3 /// </summary> 4 /// <param name="fileName"></param> 5 /// <returns></returns> 6 static string GetFileConetnt(string fileName) 7 { 8 //如果我們在快照後已刪除該文件,則忽略它,並返回空字元串。 9 return File.Exists(fileName) ? File.ReadAllText(fileName) : ""; 10 }