.net 使用HtmlAgilityPack做爬蟲

来源:https://www.cnblogs.com/LmuQuan/archive/2019/04/15/10708974.html
-Advertisement-
Play Games

HtmlAgilityPack官網:https://html-agility-pack.net/?z=codeplex .net中使用HtmlAgilityPack做爬蟲步驟: 1、在nuget中安裝HtmlAgilityPack 安裝好之後我們就可以開始我們的爬蟲之旅了 2、抓取網頁源代碼 1 v ...


HtmlAgilityPack官網:https://html-agility-pack.net/?z=codeplex

.net中使用HtmlAgilityPack做爬蟲步驟:

1、在nuget中安裝HtmlAgilityPack

 

安裝好之後我們就可以開始我們的爬蟲之旅了

2、抓取網頁源代碼

1 var web = new HtmlWeb();
2 var doc = web.Load("要抓取的網頁鏈接");
View Code

至此,我們就得到了網頁的源代碼了,然後用HtmlDocument來操作

還有一些特殊性質的需要填裝驗證數據的抓取,我們可以通過HttpWebRequest或者HttpClient來獲取網頁源代碼

1 var htmlTxt =獲取html的string的方法;
2 var doc = new HtmlDocument();
3 doc.LoadHtml(htmlTxt);
View Code

3、進行數據篩選清洗

舉個慄子:

我們現在抓取電影天堂的數據:https://www.dytt8.net

我們先抓取他的分類,我們打開https://www.dytt8.net  然後右鍵查看源代碼,發現分類處於div  class 為contain中,這樣我們就好辦了

直接用HtmlDocument獲取 class為contain的所有a標簽

 1 var list =doc.DocumentNode.SelectNodes("//div[@class='contain']/ul/li/a");
 2 
 3 
 4  foreach (var item in list)
 5 {
 6     //獲取a標簽下麵的href
 7      var url = item.Attributes["href"].Value;
 8       // 獲取a標簽的文本
 9      var txt =item.InnerHtml;
10 }
View Code

這樣,我們就獲取電影天堂的影片分類啦。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、通過配置project屬性傳遞。如圖: 2、通過代碼傳遞 3、通過命令行傳遞 ...
  • 如題,我把.net core mvc項目以應用程式方式掛到IIS預設網站下,結果出現瞭如下錯誤:HTTP Error 500.0 - ANCM In-Process Handler Load Failure 嗯,因為確定頁面測試是成功的,而且也有另一個.net core測試項目也掛成功過,所以不覺得 ...
  • 一直都想弄個博客來秀一下,也是想記錄一些生活的點點滴滴,而博客園是一個特別適合做博客網站的程式,我的想法是多年以後,我心靈的點點滴滴,都可以在這裡找到暈染的痕跡。程式員生活總是和程式有關係的,對我而言,博客園專註於.net,這是一個全新的事物。 ...
  • 前期準備工作 1,一個已經測試通過的winform程式 2,安裝好的installshield2013插件 ps:一般VS都沒有安裝此插件,需要自己去下載 打包步驟 1,新建一個打包程式 ps:如果你的項目列表中只有2沒有1,說明你沒有安裝installshield2013插件 2,打包工具簡介 3 ...
  • 枚舉概念 枚舉類型(也稱為枚舉)提供了一種有效的方式來定義可能分配給變數的一組已命名整數常量。該類型使用enum關鍵字聲明。 示例代碼1 預設情況下枚舉中每個元素的基本類型都是int。可以使用冒號指定另一種整數類型。 示例代碼2 預設情況下,第一個枚舉值具有值0,並且每個連續枚舉數的值將增加1。 枚 ...
  • 一步一步指導您使用 ElasticSearch, Kibana, ASP.NET Core 2.1 和 Docker 來記錄日誌 ...
  • Skip()和Take()方法都是IEnumerable<T> 介面的擴展方法,包括C#中的所有Collections類,如ArrayList,Queue,Stack等等,還有數組和字元串都可以調用這兩個方法。 Skip()和Take()方法都是IEnumerable<T> 介面的擴展方法,包括C# ...
  • 一.概述 OAuth 2.0資源(web api)所有者密碼授權,允許客戶端(Client項目)向令牌服務(IdentityServer項目)發送用戶名和密碼,並獲取代表該用戶的訪問令牌。在官方文檔中講到:規範通常建議不要使用“資源所有者密碼授權”。當用戶進行身份驗證並請求訪問令牌時,使用一個互動式 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...