C# 使用HtmlAgilityPack抓取網頁信息

-Advertisement-

前幾天看到一篇博文：C# 爬蟲抓取小說博主使用的是正則表達式獲取小說的名字、目錄以及內容。下麵使用HtmlAgilityPack來改寫原博主的代碼在使用HtmlAgilityPack之前，可以先熟悉一下XPath：點我代碼如下: 1 using System; 2 using System ...

前幾天看到一篇博文：C# 爬蟲抓取小說

博主使用的是正則表達式獲取小說的名字、目錄以及內容。

下麵使用HtmlAgilityPack來改寫原博主的代碼

在使用HtmlAgilityPack之前，可以先熟悉一下XPath：點我

代碼如下:

 1 using System;
 2 using System.IO;
 3 using System.Text;
 4 using HtmlAgilityPack;
 5 
 6 namespace HtmlAgilityPackDemo
 7 {
 8     class Program
 9     {
10         static void Main(string[] args)
11         {
12             HtmlWeb htmlWeb = new HtmlWeb();
13             HtmlDocument document = htmlWeb.Load("http://www.23us.so/files/article/html/13/13655/index.html");
14             FileStream fs = new FileStream("無疆.txt", FileMode.Append, FileAccess.Write);
15             StreamWriter sr = new StreamWriter(fs, Encoding.UTF8);
16             try
17             {
18                 HtmlNodeCollection nodeCollection = document.DocumentNode.SelectNodes(@"//table/tr/td/a[@href]"); //  //代表獲取所有
19                 foreach (var node in nodeCollection)
20                 {
21                     HtmlAttribute attribute = node.Attributes["href"];
22                     string val = attribute.Value;
23                     var title = htmlWeb.Load(val).DocumentNode.SelectNodes(@"//h1")[0].InnerText; //文章標題
24                     var doc = htmlWeb.Load(val).DocumentNode.SelectNodes(@"//dd[@id='contents']");//文章內容
25                     var content = doc[0].InnerHtml.Replace("&nbsp;", "").Replace("<br>", "\r\n"); 
26                     sr.WriteLine("\r\n" + title + "\r\n" + content); // 開始寫入
27                 }
28             }
29             catch (Exception ex)
30             {
31                 Console.WriteLine(ex.ToString());
32             }
33             finally
34             {
35                 sr.Close();
36                 fs.Close();
37             }
38             Console.WriteLine("ok");
39             Console.ReadKey(true);
40 
41 
42         }
43 
44 
45     }
46 }

View Code

實現效果和原博主一樣!

代碼僅供參考！！！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Asp.Net MVC 5使用Identity之簡單的註冊和登陸

由於.Net MVC 5登陸和註冊方式有很多種，但是Identity方式去實現或許會更簡單更容易理解首先新建一個項目其次如下選擇Empty和MVC的選項然後打開NuGet包管理器分別安裝幾個包然後往Models文件夾裡面添加ApplicationUser類，SignInModel類，Sign ...
Visual Studio 2010 集成 SP1 補丁製作 Visual Studio 2010 Service Pack 1 完整版安裝光碟的方法

Now that Visual Studio 2010 SP1 has been released, administrators and developers may wish to install both RTM and SP1 together for a seamless experien ...
MUI框架 picker日期選擇器實例

MUI官方文檔點我 (一)準備工作，下載相關的js、cs文件，地址（二）新建普通html頁面 1）引入相關js、cs文件 2）一個input，記錄下id： 3）核心代碼：這裡註意 selectItems.y.text 取到的是字元串類型，selectItems.y.value取到的是值類型，一 ...
.NET Core多平臺開發體驗[4]: Docker

對於一個 .NET開發人員，你可能沒有使用過Docker，但是你不可能沒有聽說過Docker。Docker是Github上最受歡迎的開源項目之一，它號稱要成為所有雲應用的基石，並把互聯網升級到下一代。Docker是dotCloud公司開源的一款產品，Docker從其誕生到現在，短短兩三年的時間里已經... ...
C# 利用鍵值對取代Switch...Case語句

switch....case 在一定程度上破壞了代碼的整潔性，為了讓代碼更加簡潔，這裡想到使用鍵值對來對switch.....case進行替換 ...
EF CodeFirst Dome學習

創建ConsoleDome控制台應用程式從NuGet包管理器安裝EntityFramework 創建DbContextDome類並繼承DbContext 設置config 創建實體模型在程式包管理器控制台執行Enable-Migrations來創建Configuration配置ef 最後執行Up ...
[ASP.NET][Session] 使用 SQLServer 會話管理解決 Session 丟失問題

使用 SQLServer 會話管理解決 Session 丟失問題步驟 1.通過命令行執行 aspnet_regsql.exe 程式（不要雙擊安裝），先在 CMD 中輸入命令再執行執行成功的結果為： 2.檢查資料庫自動增加了兩張表。 3.在 Web.Config 中加入代碼測試新建一個 H ...
C#/VB.NET對EXCEL圖片添加超鏈接

在日常工作中，在編輯文檔時，為了方便自己或者Boss能夠實時查看到需要的網頁或者文檔是，需要對在Excel中輸入的相關文字進行超鏈接，那麼對於一些在Excel中插入的圖片我們該怎麼實現超鏈接呢，下麵給大家分享一個方法：首先簡單瞭解一下一款叫Spire.XLS的組件，這個組件是由E-iceblue公 ...