.net 使用HtmlAgilityPack做爬蟲

来源:https://www.cnblogs.com/LmuQuan/archive/2019/04/15/10708974.html
-Advertisement-
Play Games

HtmlAgilityPack官網:https://html-agility-pack.net/?z=codeplex .net中使用HtmlAgilityPack做爬蟲步驟: 1、在nuget中安裝HtmlAgilityPack 安裝好之後我們就可以開始我們的爬蟲之旅了 2、抓取網頁源代碼 1 v ...


HtmlAgilityPack官網:https://html-agility-pack.net/?z=codeplex

.net中使用HtmlAgilityPack做爬蟲步驟:

1、在nuget中安裝HtmlAgilityPack

 

安裝好之後我們就可以開始我們的爬蟲之旅了

2、抓取網頁源代碼

1 var web = new HtmlWeb();
2 var doc = web.Load("要抓取的網頁鏈接");
View Code

至此,我們就得到了網頁的源代碼了,然後用HtmlDocument來操作

還有一些特殊性質的需要填裝驗證數據的抓取,我們可以通過HttpWebRequest或者HttpClient來獲取網頁源代碼

1 var htmlTxt =獲取html的string的方法;
2 var doc = new HtmlDocument();
3 doc.LoadHtml(htmlTxt);
View Code

3、進行數據篩選清洗

舉個慄子:

我們現在抓取電影天堂的數據:https://www.dytt8.net

我們先抓取他的分類,我們打開https://www.dytt8.net  然後右鍵查看源代碼,發現分類處於div  class 為contain中,這樣我們就好辦了

直接用HtmlDocument獲取 class為contain的所有a標簽

 1 var list =doc.DocumentNode.SelectNodes("//div[@class='contain']/ul/li/a");
 2 
 3 
 4  foreach (var item in list)
 5 {
 6     //獲取a標簽下麵的href
 7      var url = item.Attributes["href"].Value;
 8       // 獲取a標簽的文本
 9      var txt =item.InnerHtml;
10 }
View Code

這樣,我們就獲取電影天堂的影片分類啦。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、通過配置project屬性傳遞。如圖: 2、通過代碼傳遞 3、通過命令行傳遞 ...
  • 如題,我把.net core mvc項目以應用程式方式掛到IIS預設網站下,結果出現瞭如下錯誤:HTTP Error 500.0 - ANCM In-Process Handler Load Failure 嗯,因為確定頁面測試是成功的,而且也有另一個.net core測試項目也掛成功過,所以不覺得 ...
  • 一直都想弄個博客來秀一下,也是想記錄一些生活的點點滴滴,而博客園是一個特別適合做博客網站的程式,我的想法是多年以後,我心靈的點點滴滴,都可以在這裡找到暈染的痕跡。程式員生活總是和程式有關係的,對我而言,博客園專註於.net,這是一個全新的事物。 ...
  • 前期準備工作 1,一個已經測試通過的winform程式 2,安裝好的installshield2013插件 ps:一般VS都沒有安裝此插件,需要自己去下載 打包步驟 1,新建一個打包程式 ps:如果你的項目列表中只有2沒有1,說明你沒有安裝installshield2013插件 2,打包工具簡介 3 ...
  • 枚舉概念 枚舉類型(也稱為枚舉)提供了一種有效的方式來定義可能分配給變數的一組已命名整數常量。該類型使用enum關鍵字聲明。 示例代碼1 預設情況下枚舉中每個元素的基本類型都是int。可以使用冒號指定另一種整數類型。 示例代碼2 預設情況下,第一個枚舉值具有值0,並且每個連續枚舉數的值將增加1。 枚 ...
  • 一步一步指導您使用 ElasticSearch, Kibana, ASP.NET Core 2.1 和 Docker 來記錄日誌 ...
  • Skip()和Take()方法都是IEnumerable<T> 介面的擴展方法,包括C#中的所有Collections類,如ArrayList,Queue,Stack等等,還有數組和字元串都可以調用這兩個方法。 Skip()和Take()方法都是IEnumerable<T> 介面的擴展方法,包括C# ...
  • 一.概述 OAuth 2.0資源(web api)所有者密碼授權,允許客戶端(Client項目)向令牌服務(IdentityServer項目)發送用戶名和密碼,並獲取代表該用戶的訪問令牌。在官方文檔中講到:規範通常建議不要使用“資源所有者密碼授權”。當用戶進行身份驗證並請求訪問令牌時,使用一個互動式 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...