C# HtmlAgilityPack爬取靜態頁面

来源:https://www.cnblogs.com/xueyubao/archive/2019/09/04/11462169.html
-Advertisement-
Play Games

最近對爬蟲很感興趣,稍微研究了一下,利用HtmlAgilityPack製作了一個十分簡單的爬蟲,這個簡易爬蟲只能獲取靜態頁面的Html ...


最近對爬蟲很感興趣,稍微研究了一下,利用HtmlAgilityPack製作了一個十分簡單的爬蟲,這個簡易爬蟲只能獲取靜態頁面的Html

HtmlAgilityPack簡介

HtmlAgilityPack是一個解析速度十分快,並且開源的Html解析工具,並且HtmlAgilityPack支持使用Xpath解析Html,能夠幫助我們解析Html文檔就像解析Xml文檔一樣輕鬆、方便。

C#安裝HtmlAgilityPack

  1. 如果VS安裝有Nuget,在Nuget直接搜索安裝即可。
  2. 下載後解壓縮後有3個文件,這裡只需要將其中的HtmlAgilityPack.dll、HtmlAgilityPack.xml引入解決方案中即可使用

實例(獲取某頁面圖片)

載入HTML頁面

//從網頁中載入
string url = "https://www.bilibili.com";
HtmlWeb web = new HtmlWeb();
HtmlDocument hd = web.Load(url);

利用WebClient寫一個圖片下載器

需要using System.Netusing System.IO

/// <summary>
/// 圖片下載器
/// </summary>
public class ImgDownloader
{
    /// <summary>
    /// 下載圖片
    /// </summary>
    /// <param name="webClient"></param>
    /// <param name="url">圖片url</param>
    /// <param name="folderPath">文件夾路徑</param>
    /// <param name="fileName">圖片名</param>
    public static void DownloadImg(WebClient webClient, string url, string folderPath, string fileName)
    {
        //如果文件夾不存在,則創建一個
        if (!Directory.Exists(folderPath))
        {
            Directory.CreateDirectory(folderPath);
        }
        //判斷路徑是否完整,補全不完整的路徑
        if (url.IndexOf("https:") == -1 && url.IndexOf("http:") == -1)
        {
            url = "https:" + url;
        }
        //下載圖片
        try
        {
            webClient.DownloadFile(url, folderPath + fileName);
            Console.WriteLine(fileName + "下載成功");
        }
        catch (Exception ex)
        {
            Console.Write(ex.Message);
            Console.WriteLine(url);
        }
    }
}

通過Xpath獲取img標簽中的圖片

string imgPath = "//img";//選擇img
int imgNum = 0;//圖片編號
//獲取img標簽中的圖片
foreach (HtmlNode node in hd.DocumentNode.SelectNodes(imgPath))
{
    if (node.Attributes["src"] != null)
    {
        string imgUrl = node.Attributes["src"].Value.ToString();
        if (imgUrl != "" && imgUrl != " ")
        {
            imgNum++;
            //生成文件名,自動獲取尾碼
            string fileName = imgNum + imgUrl.Substring(imgUrl.LastIndexOf("."));
            ImgDownloader.DownloadImg(wc, imgUrl, "images/", fileName);
        }
    }
}

通過Xpath獲取背景圖

//獲取背景圖
string bgImgPath = "//*[@style]";//選擇具有style屬性的節點
foreach (HtmlNode node in hd.DocumentNode.SelectNodes(bgImgPath))
{
    if (node.Attributes["style"].Value.Contains("background-image:url"))
    {
        imgNum++;
        string bgImgUrl = node.Attributes["style"].Value;
        bgImgUrl = Regex.Match(bgImgUrl, @"(?<=\().+?(?=\))").Value;//讀取url()的內容
        //Console.WriteLine(bgImgUrl);
        //生成文件名,自動獲取尾碼
        string fileName = imgNum + bgImgUrl.Substring(bgImgUrl.LastIndexOf("."));

        ImgDownloader.DownloadImg(wc, bgImgUrl, "images/bgcImg/", fileName);
    }
}

完整代碼

using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Net;
using System.IO;
using HtmlAgilityPack;
using System.Text.RegularExpressions;

namespace WebCrawlerDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            WebClient wc = new WebClient();
            

            string url = "https://www.bilibili.com";
            HtmlWeb web = new HtmlWeb();
            HtmlDocument hd = web.Load(url);//下載html頁面

            string imgPath = "//img";//選擇img
            
            int imgNum = 0;//圖片編號
            
            //獲取img標簽中的圖片
            foreach (HtmlNode node in hd.DocumentNode.SelectNodes(imgPath))
            {
                if (node.Attributes["src"] != null)
                {
                    string imgUrl = node.Attributes["src"].Value.ToString();
                    if (imgUrl != "" && imgUrl != " ")
                    {
                        imgNum++;
                        //生成文件名,自動獲取尾碼
                        string fileName = imgNum + imgUrl.Substring(imgUrl.LastIndexOf("."));

                        ImgDownloader.DownloadImg(wc, imgUrl, "images/", fileName);
                    }
                }
            }
            //獲取背景圖
            string bgImgPath = "//*[@style]";//選擇具有style屬性的節點
            foreach (HtmlNode node in hd.DocumentNode.SelectNodes(bgImgPath))
            {
                if (node.Attributes["style"].Value.Contains("background-image:url"))
                {
                    imgNum++;
                    string bgImgUrl = node.Attributes["style"].Value;
                    bgImgUrl = Regex.Match(bgImgUrl, @"(?<=\().+?(?=\))").Value;//讀取url()的內容
                    //生成文件名,自動獲取尾碼
                    string fileName = imgNum + bgImgUrl.Substring(bgImgUrl.LastIndexOf("."));

                    ImgDownloader.DownloadImg(wc, bgImgUrl, "images/bgcImg/", fileName);
                }
            }

            Console.WriteLine("----------END----------");
            Console.ReadKey();
        }
    }
    /// <summary>
    /// 圖片下載器
    /// </summary>
    public class ImgDownloader
    {
        /// <summary>
        /// 下載圖片
        /// </summary>
        /// <param name="webClient"></param>
        /// <param name="url">圖片url</param>
        /// <param name="folderPath">文件夾路徑</param>
        /// <param name="fileName">圖片名</param>
        public static void DownloadImg(WebClient webClient, string url, string folderPath, string fileName)
        {
            //如果文件夾不存在,則創建一個
            if (!Directory.Exists(folderPath))
            {
                Directory.CreateDirectory(folderPath);
            }
            //判斷路徑是否完整,補全不完整的路徑
            if (url.IndexOf("https:") == -1 && url.IndexOf("http:") == -1)
            {
                url = "https:" + url;
            }
            //下載圖片
            try
            {
                webClient.DownloadFile(url, folderPath + fileName);
                Console.WriteLine(fileName + "下載成功");
            }
            catch (Exception ex)
            {
                Console.Write(ex.Message);
                Console.WriteLine(url);
            }
        }
    }
}

參考文章


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 微信小程式室內地圖導航開發,小程式室內地圖開發,小程式地圖導航,調用ESMap室內地圖需要用到小程式web-view組件。ESMap地圖引擎(室內3D地圖)提供地圖瀏覽、縮放、旋轉、圖層顯隱、室內定位、室內導航、全景等基礎功能,支持自定義室內地圖顯示風格及樣式,可自動繪製樓層熱力圖、散點圖等專題地圖... ...
  • 1.首先說明node.js、npm、cnpm分別是做什麼的? node.js簡單的說 Node.js 就是運行在服務端的 JavaScript,安裝了node.js預設安裝了npm,可以使用npm -v查看是否安裝。 npm可以理解為遠程倉庫,如果我們要使用npm需要先把需要的包寫到package. ...
  • web前端開發技術人才越來越吃香,而且web前端領域劃分越來越細,對技術的需求越來越高,想學習web前端的人也是越來越多。那麼,如何學習web前端知識?從哪開始?轉型成為web前端工程師需要學些什麼?小白到高手需要多久? 1、轉型web前端需要學什麼 第一階段:你要從最基礎的HTML/CSS開始,簡 ...
  • HTML5對比HTML4新增了很多元素,也刪除了部分元素(可以用css樣式表方式替代)所以我只列出HTML5最常用的幾個標簽。 head標簽中: body標簽中: 列表/表格: 在HTML中,<form></form>標簽對用來創建一個表單,即定義表單的開始和結束位置,真正處理表單的數據腳本或程式在 ...
  • font-style: normal; ...
  • js代碼: ...
  • Demo地址:http://app.guoddy.com 源代碼地址:https://github.com/jellydong/LJDAPP 數據並不會真實保存,設定的為測試模式,所以免登錄。 ...
  • 發佈者訂閱模式/客戶端模式 對象與對象之間不可以直接調用其成員。如果直接調用其他對象的成員那麼就是一個緊耦合。 1. 1.刪除系統為我們準備的窗體。創建一個窗體應用程式 2.創建兩個窗體對象,一個父窗體一個子窗體 3.在Program程式中修改程式啟動窗體為父窗體 2. 1.為我們的兩個窗體添加同樣 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...