史林楓:開源HtmlAgilityPack公共小類庫封裝 - 網頁採集(爬蟲)輔助解析利器【附源碼+可視化工具推薦】

来源:http://www.cnblogs.com/jayshsoft/archive/2016/10/25/HtmlAgilityPack-dll-tools.html
-Advertisement-
Play Games

做開發的,可能都做過信息採集相關的程式,史林楓也經常做一些數據採集或某些網站的業務辦理自動化操作軟體。 獲取目標網頁的信息很簡單,使用網路編程,利用HttpWebResponse、HttpWebRequest和WebClient就可以了。 複雜的是獲取網頁內容後,需要對關鍵信息進行過濾,最初史林楓主 ...


做開發的,可能都做過信息採集相關的程式,史林楓也經常做一些數據採集或某些網站的業務辦理自動化操作軟體。

獲取目標網頁的信息很簡單,使用網路編程,利用HttpWebResponse、HttpWebRequest和WebClient就可以了。

複雜的是獲取網頁內容後,需要對關鍵信息進行過濾,最初史林楓主要使用正則表達式來匹配目標數據。

這樣的匹配也能達到目的,但對於不熟悉正則表達式的開發者或初學者就比較吃力了,尤其是比較複雜的正則。

最好要有專門的工具先測試,再把正則放到程式中測試。這裡推薦RegexTester.exe。

後來,一次偶然的機會接觸到HtmlAgilityPack。這是個開源的類庫。想研究源碼的可以移步這裡:HtmlAgilityPack源碼

剛開始使用是比較隨性的,需要用了就開始new 然後找跟節點,找目標節點,取屬性或取文本。使用的多了,就有封裝類庫的想法,然後在使用過程中不斷改進,更新,目前使用還是比較穩定的。

使用的時候需要引用HtmlAgilityPack.dll  Visual Studio中的NuGet可以獲取到

先上類庫源碼:

  1 /// <summary>
  2     /// html文檔解析輔助類庫
  3     /// </summary>
  4     public class HtmlParse {
  5         private readonly HtmlDocument doc = new HtmlDocument();
  6 
  7         /// <summary>
  8         /// 構造函數 初始化文檔並解析 預設utf-8模式
  9         /// </summary>
 10         /// <param name="htmlOrUrl">獲取的html字元串或url鏈接</param>
 11         public HtmlParse(string htmlOrUrl) {
 12             InitDoc(htmlOrUrl);
 13         }
 14 
 15         /// <summary>
 16         /// 構造函數 初始化文檔並解析 預設utf-8模式
 17         /// </summary>
 18         /// <param name="htmlOrUrl">獲取的html字元串或url鏈接</param>
 19         /// <param name="encode">字元編碼</param>
 20         public HtmlParse(string htmlOrUrl, string encode) {
 21             InitDoc(htmlOrUrl, encode);
 22         }
 23 
 24 
 25         /// <summary>
 26         ///     根據url或html字元串獲取文檔並解析
 27         /// </summary>
 28         /// <param name="htmlOrUrl">html字元串或url</param>
 29         /// <param name="encode">網站編碼</param>
 30         /// <returns></returns>
 31         public HtmlDocument InitDoc(string htmlOrUrl, string encode = "utf-8") {
 32             if (htmlOrUrl.Trim().StartsWith("http")) {
 33                 htmlOrUrl = NetHelper.GetPageStr(htmlOrUrl, "", encode);
 34             }
 35             doc.LoadHtml(htmlOrUrl);
 36             return doc;
 37         }
 38 
 39         /// <summary>
 40         /// 獲取節點集合
 41         /// </summary>
 42         /// <param name="xPath"></param>
 43         /// <returns></returns>
 44         public HtmlNodeCollection GetNodes(string xPath) {
 45             return doc.DocumentNode.SelectNodes(xPath);
 46         }
 47 
 48 
 49         /// <summary>
 50         /// 獲取單個節點
 51         /// </summary>
 52         /// <param name="xPath"></param>
 53         /// <returns></returns>
 54         public HtmlNode GetNode(string xPath) {
 55             return doc.DocumentNode.SelectSingleNode(xPath);
 56         }
 57 
 58         /// <summary>
 59         /// 獲取節點的屬性值
 60         /// </summary>
 61         /// <param name="node">節點</param>
 62         /// <param name="attrName">屬性名稱</param>
 63         /// <returns></returns>
 64         public string GetNodeAttr(HtmlNode node, string attrName) {
 65             if (node == null || node.Attributes[attrName] == null) {
 66                 return string.Empty;
 67             }
 68             return node.Attributes[attrName].Value;
 69         }
 70 
 71         /// <summary>
 72         /// 獲取節點的InnerText的值
 73         /// </summary>
 74         /// <param name="node"></param>
 75         /// <returns></returns>
 76         public string GetNodeText(HtmlNode node) {
 77             if (node == null) {
 78                 return string.Empty;
 79             }
 80             return node.InnerText;
 81         }
 82 
 83         /// <summary>
 84         /// 獲取節點的InnerHtml或OuterHtml值
 85         /// </summary>
 86         /// <param name="node">節點</param>
 87         /// <param name="isOuter">是否要獲取OuterHtml</param>
 88         /// <returns></returns>
 89         public string GetNodeHtml(HtmlNode node, bool isOuter = false) {
 90             if (node == null) {
 91                 return string.Empty;
 92             }
 93             if (isOuter) {
 94                 return node.OuterHtml;
 95             }
 96             return node.InnerHtml;
 97         }
 98 
 99         /// <summary>
100         /// 根據Xpath和屬性名稱獲取屬性值
101         /// </summary>
102         /// <param name="xPath"></param>
103         /// <param name="attrName"></param>
104         /// <returns></returns>
105         public string GetNodeAttr(string xPath, string attrName) {
106             var node = GetNode(xPath);
107             return GetNodeAttr(node, attrName);
108         }
109 
110         /// <summary>
111         /// 根據XPath獲取節點的InnerText
112         /// </summary>
113         /// <param name="xPath"></param>
114         /// <returns></returns>
115         public string GetNodeText(string xPath) {
116             var node = GetNode(xPath);
117             return GetNodeText(node);
118         }
119 
120         /// <summary>
121         /// 根據XPath獲取節點的InnerHtml或OuterHtml值
122         /// </summary>
123         /// <param name="xPath"></param>
124         /// <param name="isOuter"></param>
125         /// <returns></returns>
126         public string GetNodeHtml(string xPath, bool isOuter = false) {
127             var node = GetNode(xPath);
128             return GetNodeHtml(node);
129         }
130     }

 

提示:想要熟練的使用HtmlAgilityPack,必須要瞭解XPath的相關知識。不懂的可以移步這裡:XPath入門教程

實際上XPath主要註意幾個要點就可以解決80%的問題。

1.以/開頭的是從根節點開始選取,以//開頭的是模糊選取,而不考慮它們的位置

2.可以使用屬性來定位要選取的節點或節點集合 比如//span[@class="time"] 就是選擇文檔中所有class="time"的span元素。

3.節點集合中的某一個使用[i]的方式選取 比如 //span[@class="time"][1] 就是選擇文檔中所有class="time"的span元素中的第一個span。註意在這裡選擇節點的索引是從1開始的,而不是0

4.使用|  來做容錯選擇,比如一個網頁中某個數據可能在<div class="a1"></div>中 也可能在<div class="a2"></div> 這時就可以用 //div[@class="a1"]|//div[@class="a2"] 作為XPath

5.XPath中需要用到的引號 可以使用單引號  因為C#中字元串需要用雙引號,XPath中需要引號的使用單引號即可,這樣不用轉義了。

 

上面還用到了一個NetHelper。主要用於獲取Url的內容。這東西網上一大堆,這裡就不獻醜了。自行結合即可。

使用方法也很簡單:

// 比如這裡獲取我的博客首頁內容 並解析當前文章列表
var
doc = new HtmlParse("http://www.cnblogs.com/jayshsoft/"); var nodeList = doc.GetNodes("//div[@class='post post-list-item']"); foreach (var node in nodeList) { //這裡寫自己的邏輯 }

自從封裝好類庫後,採集內容就變得非常Easy了,只要把流程分析好即可,Html文章中的元素任你宰割,蹂躪。。。

 

另外,推薦一個FireFox瀏覽器插件:XPath Checker

 

有了它 你就可以在瀏覽器中直接寫好XPath,直接看到結果 一目瞭然

直接上圖  

右鍵點擊網頁空白處 選擇View XPath

輸入XPath 就可以得到你想要的數據了。是不是很直觀?是就推薦一下  嘿嘿。。。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • startup startup asp.net core 的入口,在構造函數中完成環境參數的配置。 public void Configure(IApplicationBuilder app, IHostingEnvironment env, ILoggerFactory loggerFactory ...
  • 在很多情況下,我們開發都需要有一個快速的代碼生成工具用來提高開發效率,代碼生成工具很多信息都是讀取資料庫的表、視圖等元數據進行對象表信息的完善,有了這些信息,我們就可以在普通的實體類代碼裡面添加屬性欄位的中文註釋,或者在Winform或者Web界面的快速生成的時候,可以在查詢框或者界面編輯的時候,充... ...
  • 目前.Net Core上沒有System.Drawing這個類庫,想要在.Net Core上處理圖片得另闢蹊徑。 微軟給出了將來取代System.Drawing的方案,偏向於使用一個單獨的服務端進行各種圖片處理 "https://github.com/dotnet/corefx/issues/202 ...
  • 實現字元或數字的組合排列。例如:ab 的所有組合為: ab,ba ;ab的所有不重覆排列為:ab ...
  • 按照領域驅動設計的思路,我們搭建開發框架的解決方案如下: *該解決方案正在改造過程中,會隨著改造的過程逐步完善。 解決方案目錄 對應領域設計層 說明 Infrastructure 基礎設施層 開發的底層類庫 Core 包括緩存、配置、日誌、常用工具、數據訪問等核心組件 Core.Caching.Re ...
  • 文檔目錄 本節內容: 簡介 在ABP中管理連接和事務 約定的工作單元 UnitOfWork 特性 IUnitOfWorkManager 工作單元詳情 禁用工作單元 非事務性工作單元 工作單元方法調用另一個方法 工作單元域 自動保存修改 IRepository.GetAll() 方法 UnitOfWo ...
  • 有關LZF演算法的相關解析文檔比較少,但是Apple對LZF的開源,可以讓我們對該演算法進行一個簡單的解析。LZFSE 基於 Lempel-Ziv ,並使用了有限狀態熵編碼。LZF採用類似lz77和lzss的混合編碼。使用3種“起始標記”來代表每段輸出的數據串。 接下來看一下開源的LZF演算法的實現源碼。 ...
  • IOC模式: 1.IOC模式:通過一個播放器的例子來說明什麼是依賴,依賴倒置,控制反轉(IOC),最後實現依賴註入。通過Unity實現IOC容器 http://www.cnblogs.com/qqlin/archive/2012/10/09/2707075.html 2.深入理解DIP、IoC、DI ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...