.net 使用HtmlAgilityPack做爬蟲_ZenDei技術網路在線

.net 使用HtmlAgilityPack做爬蟲

-Advertisement-

HtmlAgilityPack官網：https://html-agility-pack.net/?z=codeplex .net中使用HtmlAgilityPack做爬蟲步驟: 1、在nuget中安裝HtmlAgilityPack 安裝好之後我們就可以開始我們的爬蟲之旅了 2、抓取網頁源代碼 1 v ...

HtmlAgilityPack官網：https://html-agility-pack.net/?z=codeplex

.net中使用HtmlAgilityPack做爬蟲步驟:

1、在nuget中安裝HtmlAgilityPack

安裝好之後我們就可以開始我們的爬蟲之旅了

2、抓取網頁源代碼

1 var web = new HtmlWeb();
2 var doc = web.Load("要抓取的網頁鏈接");

View Code

至此，我們就得到了網頁的源代碼了，然後用HtmlDocument來操作

還有一些特殊性質的需要填裝驗證數據的抓取，我們可以通過HttpWebRequest或者HttpClient來獲取網頁源代碼

1 var htmlTxt =獲取html的string的方法;
2 var doc = new HtmlDocument();
3 doc.LoadHtml(htmlTxt);

View Code

3、進行數據篩選清洗

舉個慄子：

我們現在抓取電影天堂的數據：https://www.dytt8.net

我們先抓取他的分類，我們打開https://www.dytt8.net 然後右鍵查看源代碼，發現分類處於div class 為contain中，這樣我們就好辦了

直接用HtmlDocument獲取 class為contain的所有a標簽

 1 var list =doc.DocumentNode.SelectNodes("//div[@class='contain']/ul/li/a");
 2 
 3 
 4  foreach (var item in list)
 5 {
 6     //獲取a標簽下麵的href
 7      var url = item.Attributes["href"].Value;
 8       // 獲取a標簽的文本
 9      var txt =item.InnerHtml;
10 }

View Code

這樣，我們就獲取電影天堂的影片分類啦。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Main(string[] args)之args傳遞的幾種方式

1、通過配置project屬性傳遞。如圖： 2、通過代碼傳遞 3、通過命令行傳遞 ...
.net core mvc發佈項目到IIS上出現500錯誤

如題，我把.net core mvc項目以應用程式方式掛到IIS預設網站下，結果出現瞭如下錯誤：HTTP Error 500.0 - ANCM In-Process Handler Load Failure 嗯，因為確定頁面測試是成功的，而且也有另一個.net core測試項目也掛成功過，所以不覺得 ...
java

一直都想弄個博客來秀一下，也是想記錄一些生活的點點滴滴，而博客園是一個特別適合做博客網站的程式，我的想法是多年以後，我心靈的點點滴滴，都可以在這裡找到暈染的痕跡。程式員生活總是和程式有關係的，對我而言，博客園專註於.net，這是一個全新的事物。 ...
用installshield2013 將winform程式打包成exe執行程式

前期準備工作 1，一個已經測試通過的winform程式 2，安裝好的installshield2013插件 ps：一般VS都沒有安裝此插件，需要自己去下載打包步驟 1，新建一個打包程式 ps:如果你的項目列表中只有2沒有1，說明你沒有安裝installshield2013插件 2，打包工具簡介 3 ...
C#枚舉（Enum）小結

枚舉概念枚舉類型（也稱為枚舉）提供了一種有效的方式來定義可能分配給變數的一組已命名整數常量。該類型使用enum關鍵字聲明。示例代碼1 預設情況下枚舉中每個元素的基本類型都是int。可以使用冒號指定另一種整數類型。示例代碼2 預設情況下，第一個枚舉值具有值0，並且每個連續枚舉數的值將增加1。枚 ...
[翻譯] ASP.NET Core 利用 Docker、ElasticSearch、Kibana 來記錄日誌

一步一步指導您使用 ElasticSearch, Kibana, ASP.NET Core 2.1 和 Docker 來記錄日誌 ...
C#中Skip和Take的用法

Skip()和Take()方法都是IEnumerable<T> 介面的擴展方法，包括C#中的所有Collections類，如ArrayList，Queue,Stack等等，還有數組和字元串都可以調用這兩個方法。 Skip()和Take()方法都是IEnumerable<T> 介面的擴展方法，包括C# ...
asp.net core系列 55 IS4使用Identity密碼保護API

一.概述 OAuth 2.0資源(web api)所有者密碼授權，允許客戶端(Client項目)向令牌服務(IdentityServer項目)發送用戶名和密碼，並獲取代表該用戶的訪問令牌。在官方文檔中講到：規範通常建議不要使用“資源所有者密碼授權”。當用戶進行身份驗證並請求訪問令牌時，使用一個互動式 ...