C# 使用HtmlAgilityPack抓取網頁信息

来源:http://www.cnblogs.com/liuyoung/archive/2017/09/06/7485516.html
-Advertisement-
Play Games

前幾天看到一篇博文:C# 爬蟲 抓取小說 博主使用的是正則表達式獲取小說的名字、目錄以及內容。 下麵使用HtmlAgilityPack來改寫原博主的代碼 在使用HtmlAgilityPack之前,可以先熟悉一下XPath:點我 代碼如下: 1 using System; 2 using System ...


前幾天看到一篇博文:C# 爬蟲 抓取小說

博主使用的是正則表達式獲取小說的名字、目錄以及內容。

 

下麵使用HtmlAgilityPack來改寫原博主的代碼

在使用HtmlAgilityPack之前,可以先熟悉一下XPath:點我

代碼如下:

 1 using System;
 2 using System.IO;
 3 using System.Text;
 4 using HtmlAgilityPack;
 5 
 6 namespace HtmlAgilityPackDemo
 7 {
 8     class Program
 9     {
10         static void Main(string[] args)
11         {
12             HtmlWeb htmlWeb = new HtmlWeb();
13             HtmlDocument document = htmlWeb.Load("http://www.23us.so/files/article/html/13/13655/index.html");
14             FileStream fs = new FileStream("無疆.txt", FileMode.Append, FileAccess.Write);
15             StreamWriter sr = new StreamWriter(fs, Encoding.UTF8);
16             try
17             {
18                 HtmlNodeCollection nodeCollection = document.DocumentNode.SelectNodes(@"//table/tr/td/a[@href]"); //  //代表獲取所有
19                 foreach (var node in nodeCollection)
20                 {
21                     HtmlAttribute attribute = node.Attributes["href"];
22                     string val = attribute.Value;
23                     var title = htmlWeb.Load(val).DocumentNode.SelectNodes(@"//h1")[0].InnerText; //文章標題
24                     var doc = htmlWeb.Load(val).DocumentNode.SelectNodes(@"//dd[@id='contents']");//文章內容
25                     var content = doc[0].InnerHtml.Replace("&nbsp;", "").Replace("<br>", "\r\n"); 
26                     sr.WriteLine("\r\n" + title + "\r\n" + content); // 開始寫入
27                 }
28             }
29             catch (Exception ex)
30             {
31                 Console.WriteLine(ex.ToString());
32             }
33             finally
34             {
35                 sr.Close();
36                 fs.Close();
37             }
38             Console.WriteLine("ok");
39             Console.ReadKey(true);
40 
41 
42         }
43 
44 
45     }
46 }
View Code

 

實現效果和原博主一樣!

代碼僅供參考!!!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 由於.Net MVC 5登陸和註冊方式有很多種,但是Identity方式去實現或許會更簡單更容易理解 首先新建一個項目 其次如下選擇Empty和MVC的選項 然後打開NuGet包管理器分別安裝幾個包 然後往Models文件夾裡面添加ApplicationUser類,SignInModel類,Sign ...
  • Now that Visual Studio 2010 SP1 has been released, administrators and developers may wish to install both RTM and SP1 together for a seamless experien ...
  • MUI官方文檔點我 (一)準備工作,下載相關的js、cs文件,地址 (二)新建普通html頁面 1)引入相關js、cs文件 2) 一個input,記錄下id: 3)核心代碼: 這裡註意 selectItems.y.text 取到的是字元串類型,selectItems.y.value取到的是值類型,一 ...
  • 對於一個 .NET開發人員,你可能沒有使用過Docker,但是你不可能沒有聽說過Docker。Docker是Github上最受歡迎的開源項目之一,它號稱要成為所有雲應用的基石,並把互聯網升級到下一代。Docker是dotCloud公司開源的一款產品,Docker從其誕生到現在,短短兩三年的時間里已經... ...
  • switch....case 在一定程度上破壞了代碼的整潔性,為了讓代碼更加簡潔,這裡想到使用鍵值對來對switch.....case進行替換 ...
  • 創建ConsoleDome控制台應用程式 從NuGet包管理器安裝EntityFramework 創建DbContextDome類並繼承DbContext 設置config 創建實體模型 在程式包管理器控制台執行Enable-Migrations來創建Configuration配置ef 最後執行Up ...
  • 使用 SQLServer 會話管理解決 Session 丟失問題 步驟 1.通過命令行執行 aspnet_regsql.exe 程式(不要雙擊安裝),先在 CMD 中輸入命令 再執行 執行成功的結果為: 2.檢查資料庫 自動增加了兩張表。 3.在 Web.Config 中加入代碼 測試 新建一個 H ...
  • 在日常工作中,在編輯文檔時,為了方便自己或者Boss能夠實時查看到需要的網頁或者文檔是,需要對在Excel中輸入的相關文字進行超鏈接,那麼對於一些在Excel中插入的圖片我們該怎麼實現超鏈接呢,下麵給大家分享一個方法: 首先簡單瞭解一下一款叫Spire.XLS的組件,這個組件是由E-iceblue公 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...