史林楓:開源HtmlAgilityPack公共小類庫封裝 - 網頁採集(爬蟲)輔助解析利器【附源碼+可視化工具推薦】

来源:http://www.cnblogs.com/jayshsoft/archive/2016/10/25/HtmlAgilityPack-dll-tools.html
-Advertisement-
Play Games

做開發的,可能都做過信息採集相關的程式,史林楓也經常做一些數據採集或某些網站的業務辦理自動化操作軟體。 獲取目標網頁的信息很簡單,使用網路編程,利用HttpWebResponse、HttpWebRequest和WebClient就可以了。 複雜的是獲取網頁內容後,需要對關鍵信息進行過濾,最初史林楓主 ...


做開發的,可能都做過信息採集相關的程式,史林楓也經常做一些數據採集或某些網站的業務辦理自動化操作軟體。

獲取目標網頁的信息很簡單,使用網路編程,利用HttpWebResponse、HttpWebRequest和WebClient就可以了。

複雜的是獲取網頁內容後,需要對關鍵信息進行過濾,最初史林楓主要使用正則表達式來匹配目標數據。

這樣的匹配也能達到目的,但對於不熟悉正則表達式的開發者或初學者就比較吃力了,尤其是比較複雜的正則。

最好要有專門的工具先測試,再把正則放到程式中測試。這裡推薦RegexTester.exe。

後來,一次偶然的機會接觸到HtmlAgilityPack。這是個開源的類庫。想研究源碼的可以移步這裡:HtmlAgilityPack源碼

剛開始使用是比較隨性的,需要用了就開始new 然後找跟節點,找目標節點,取屬性或取文本。使用的多了,就有封裝類庫的想法,然後在使用過程中不斷改進,更新,目前使用還是比較穩定的。

使用的時候需要引用HtmlAgilityPack.dll  Visual Studio中的NuGet可以獲取到

先上類庫源碼:

  1 /// <summary>
  2     /// html文檔解析輔助類庫
  3     /// </summary>
  4     public class HtmlParse {
  5         private readonly HtmlDocument doc = new HtmlDocument();
  6 
  7         /// <summary>
  8         /// 構造函數 初始化文檔並解析 預設utf-8模式
  9         /// </summary>
 10         /// <param name="htmlOrUrl">獲取的html字元串或url鏈接</param>
 11         public HtmlParse(string htmlOrUrl) {
 12             InitDoc(htmlOrUrl);
 13         }
 14 
 15         /// <summary>
 16         /// 構造函數 初始化文檔並解析 預設utf-8模式
 17         /// </summary>
 18         /// <param name="htmlOrUrl">獲取的html字元串或url鏈接</param>
 19         /// <param name="encode">字元編碼</param>
 20         public HtmlParse(string htmlOrUrl, string encode) {
 21             InitDoc(htmlOrUrl, encode);
 22         }
 23 
 24 
 25         /// <summary>
 26         ///     根據url或html字元串獲取文檔並解析
 27         /// </summary>
 28         /// <param name="htmlOrUrl">html字元串或url</param>
 29         /// <param name="encode">網站編碼</param>
 30         /// <returns></returns>
 31         public HtmlDocument InitDoc(string htmlOrUrl, string encode = "utf-8") {
 32             if (htmlOrUrl.Trim().StartsWith("http")) {
 33                 htmlOrUrl = NetHelper.GetPageStr(htmlOrUrl, "", encode);
 34             }
 35             doc.LoadHtml(htmlOrUrl);
 36             return doc;
 37         }
 38 
 39         /// <summary>
 40         /// 獲取節點集合
 41         /// </summary>
 42         /// <param name="xPath"></param>
 43         /// <returns></returns>
 44         public HtmlNodeCollection GetNodes(string xPath) {
 45             return doc.DocumentNode.SelectNodes(xPath);
 46         }
 47 
 48 
 49         /// <summary>
 50         /// 獲取單個節點
 51         /// </summary>
 52         /// <param name="xPath"></param>
 53         /// <returns></returns>
 54         public HtmlNode GetNode(string xPath) {
 55             return doc.DocumentNode.SelectSingleNode(xPath);
 56         }
 57 
 58         /// <summary>
 59         /// 獲取節點的屬性值
 60         /// </summary>
 61         /// <param name="node">節點</param>
 62         /// <param name="attrName">屬性名稱</param>
 63         /// <returns></returns>
 64         public string GetNodeAttr(HtmlNode node, string attrName) {
 65             if (node == null || node.Attributes[attrName] == null) {
 66                 return string.Empty;
 67             }
 68             return node.Attributes[attrName].Value;
 69         }
 70 
 71         /// <summary>
 72         /// 獲取節點的InnerText的值
 73         /// </summary>
 74         /// <param name="node"></param>
 75         /// <returns></returns>
 76         public string GetNodeText(HtmlNode node) {
 77             if (node == null) {
 78                 return string.Empty;
 79             }
 80             return node.InnerText;
 81         }
 82 
 83         /// <summary>
 84         /// 獲取節點的InnerHtml或OuterHtml值
 85         /// </summary>
 86         /// <param name="node">節點</param>
 87         /// <param name="isOuter">是否要獲取OuterHtml</param>
 88         /// <returns></returns>
 89         public string GetNodeHtml(HtmlNode node, bool isOuter = false) {
 90             if (node == null) {
 91                 return string.Empty;
 92             }
 93             if (isOuter) {
 94                 return node.OuterHtml;
 95             }
 96             return node.InnerHtml;
 97         }
 98 
 99         /// <summary>
100         /// 根據Xpath和屬性名稱獲取屬性值
101         /// </summary>
102         /// <param name="xPath"></param>
103         /// <param name="attrName"></param>
104         /// <returns></returns>
105         public string GetNodeAttr(string xPath, string attrName) {
106             var node = GetNode(xPath);
107             return GetNodeAttr(node, attrName);
108         }
109 
110         /// <summary>
111         /// 根據XPath獲取節點的InnerText
112         /// </summary>
113         /// <param name="xPath"></param>
114         /// <returns></returns>
115         public string GetNodeText(string xPath) {
116             var node = GetNode(xPath);
117             return GetNodeText(node);
118         }
119 
120         /// <summary>
121         /// 根據XPath獲取節點的InnerHtml或OuterHtml值
122         /// </summary>
123         /// <param name="xPath"></param>
124         /// <param name="isOuter"></param>
125         /// <returns></returns>
126         public string GetNodeHtml(string xPath, bool isOuter = false) {
127             var node = GetNode(xPath);
128             return GetNodeHtml(node);
129         }
130     }

 

提示:想要熟練的使用HtmlAgilityPack,必須要瞭解XPath的相關知識。不懂的可以移步這裡:XPath入門教程

實際上XPath主要註意幾個要點就可以解決80%的問題。

1.以/開頭的是從根節點開始選取,以//開頭的是模糊選取,而不考慮它們的位置

2.可以使用屬性來定位要選取的節點或節點集合 比如//span[@class="time"] 就是選擇文檔中所有class="time"的span元素。

3.節點集合中的某一個使用[i]的方式選取 比如 //span[@class="time"][1] 就是選擇文檔中所有class="time"的span元素中的第一個span。註意在這裡選擇節點的索引是從1開始的,而不是0

4.使用|  來做容錯選擇,比如一個網頁中某個數據可能在<div class="a1"></div>中 也可能在<div class="a2"></div> 這時就可以用 //div[@class="a1"]|//div[@class="a2"] 作為XPath

5.XPath中需要用到的引號 可以使用單引號  因為C#中字元串需要用雙引號,XPath中需要引號的使用單引號即可,這樣不用轉義了。

 

上面還用到了一個NetHelper。主要用於獲取Url的內容。這東西網上一大堆,這裡就不獻醜了。自行結合即可。

使用方法也很簡單:

// 比如這裡獲取我的博客首頁內容 並解析當前文章列表
var
doc = new HtmlParse("http://www.cnblogs.com/jayshsoft/"); var nodeList = doc.GetNodes("//div[@class='post post-list-item']"); foreach (var node in nodeList) { //這裡寫自己的邏輯 }

自從封裝好類庫後,採集內容就變得非常Easy了,只要把流程分析好即可,Html文章中的元素任你宰割,蹂躪。。。

 

另外,推薦一個FireFox瀏覽器插件:XPath Checker

 

有了它 你就可以在瀏覽器中直接寫好XPath,直接看到結果 一目瞭然

直接上圖  

右鍵點擊網頁空白處 選擇View XPath

輸入XPath 就可以得到你想要的數據了。是不是很直觀?是就推薦一下  嘿嘿。。。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • startup startup asp.net core 的入口,在構造函數中完成環境參數的配置。 public void Configure(IApplicationBuilder app, IHostingEnvironment env, ILoggerFactory loggerFactory ...
  • 在很多情況下,我們開發都需要有一個快速的代碼生成工具用來提高開發效率,代碼生成工具很多信息都是讀取資料庫的表、視圖等元數據進行對象表信息的完善,有了這些信息,我們就可以在普通的實體類代碼裡面添加屬性欄位的中文註釋,或者在Winform或者Web界面的快速生成的時候,可以在查詢框或者界面編輯的時候,充... ...
  • 目前.Net Core上沒有System.Drawing這個類庫,想要在.Net Core上處理圖片得另闢蹊徑。 微軟給出了將來取代System.Drawing的方案,偏向於使用一個單獨的服務端進行各種圖片處理 "https://github.com/dotnet/corefx/issues/202 ...
  • 實現字元或數字的組合排列。例如:ab 的所有組合為: ab,ba ;ab的所有不重覆排列為:ab ...
  • 按照領域驅動設計的思路,我們搭建開發框架的解決方案如下: *該解決方案正在改造過程中,會隨著改造的過程逐步完善。 解決方案目錄 對應領域設計層 說明 Infrastructure 基礎設施層 開發的底層類庫 Core 包括緩存、配置、日誌、常用工具、數據訪問等核心組件 Core.Caching.Re ...
  • 文檔目錄 本節內容: 簡介 在ABP中管理連接和事務 約定的工作單元 UnitOfWork 特性 IUnitOfWorkManager 工作單元詳情 禁用工作單元 非事務性工作單元 工作單元方法調用另一個方法 工作單元域 自動保存修改 IRepository.GetAll() 方法 UnitOfWo ...
  • 有關LZF演算法的相關解析文檔比較少,但是Apple對LZF的開源,可以讓我們對該演算法進行一個簡單的解析。LZFSE 基於 Lempel-Ziv ,並使用了有限狀態熵編碼。LZF採用類似lz77和lzss的混合編碼。使用3種“起始標記”來代表每段輸出的數據串。 接下來看一下開源的LZF演算法的實現源碼。 ...
  • IOC模式: 1.IOC模式:通過一個播放器的例子來說明什麼是依賴,依賴倒置,控制反轉(IOC),最後實現依賴註入。通過Unity實現IOC容器 http://www.cnblogs.com/qqlin/archive/2012/10/09/2707075.html 2.深入理解DIP、IoC、DI ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...