如何通過C#實現網頁信息採集的方法總結

来源:http://www.cnblogs.com/zyjj/archive/2017/07/10/7146069.html
-Advertisement-
Play Games

Internet上有著極其龐大的資源信息,各行各業的信息無所不有。網頁的信息搜集就是獲取網頁的數據,然後通過程式分析,將有用的數據提取分離出來。搜索引擎工作的一部分就是網頁數據抽取。比如編製程式抽取新浪網新聞頻道里的這個新聞的標題就是一種網頁數據抽取。 獲取網頁數據有很多種方式。網頁信息收集器可以很 ...


 Internet上有著極其龐大的資源信息,各行各業的信息無所不有。網頁的信息搜集就是獲取網頁的數據,然後通過程式分析,將有用的數據提取分離出來。搜索引擎工作的一部分就是網頁數據抽取。比如編製程式抽取新浪網新聞頻道里的這個新聞的標題就是一種網頁數據抽取。

  獲取網頁數據有很多種方式。網頁信息收集器可以很方便的針對某個網站的信息內容進行收集。如某個論壇的所有註冊會員的E-MAIL列表、某個行業網站的企業名錄、某個下載網站上所有軟體列表等等。本文結合實例主要介紹了C#網頁信息採集方法,實例彙總了三種常用的方法,是非常實用的技巧,需要的朋友可以參考下。在這裡主要講述通過HttpWebResponse、WebResponse 和WebClient三種方式獲取網頁內容。具體實現方法如下:

  一、通過HttpWebResponse來獲取

  這是一種比較通用的獲取方式。

HttpWebResponse

通用的獲取方式

  二、通過WebResponse來獲取

  相對來說,這是一種最簡單的獲取方式。匹配下麵這段代碼:

WebResponse

簡單的獲取方式

  三、通過WebClient 來獲取

  這是一種很簡單的獲取方式,當然,其它的獲取方法也很簡單。在這裡首先要說明的是,如果為了實際項目的效率考慮,需要考慮在函數中分配一個記憶體區域。大概寫法如下:

WebClient

  結語:

  以上就是採集數據的核心代碼,這種方法看似很神奇的功能,都是我們平常所用的功能拼加起來的,其實仔細分析起來也沒有多大的難度,只要能夠認真研究,網頁的信息採集不會是難事!同時也希望本文所述對大家的C#程式設計有所幫助。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一.通過導圖的方法快速去理解springmvc的原理 二.架構流程。 1、 用戶發送請求至前端控制器DispatcherServlet 2、 DispatcherServlet收到請求調用HandlerMapping處理器映射器。 3、 處理器映射器根據請求url找到具體的處理器,生成處理器對象及處 ...
  • 廢話不多說,直接上步驟。 1、文件準備 下載皮膚文件,將解壓後的Skinssk文件夾放在程式根目錄(bin\\debug)下。 皮膚文件下載地址:http://pan.baidu.com/s/1slSAqFN 2、添加工程引用 右鍵引用->點擊添加引用->瀏覽->選擇剛剛放在debug目錄下Skin ...
  • Create a web API with ASP.NET Core MVC and Visual Studio for Windows 在windows上用vs與asp.net core mvc 創建一個 web api 程式 2017-5-24 8 分鐘閱讀時長 本文內容 1.Overview ...
  • 首先對 Center 進行一個簡單的佈局 然後就是在js裡面完成tabs的點擊事件實現了 其實center就是在div裡面嵌入了一個iframe,所以最後返回的就是一個iframe 這裡需要註意一點就是上面的detail是導航欄的類選擇器的值(這裡的class一定要一樣) 整個頁面代碼 ...
  • ef中,我們創建外鍵的時候需要註意,否則會出現標題所示問題。 例:有項目表,項目收藏表,用戶表 項目表有如下欄位:ProjectId,InputPersonId等 項目收藏表有如下欄位:ProjectId,UseId等 用戶表有如下欄位:用戶id等 項目表: 項目收藏表: 用戶表: 分析一下,假如刪 ...
  • 我們先來簡單瞭解一下WinForm和FarPoint,WinForm是·Net開發平臺中對Windows Form的一種稱謂。而FarPoint是一款模擬EXCEL的控制項。它可以根據用戶的要求實現很大部份的EXCEL操作,且包括多個子表、表格風格定義、公式計算、排序、分組等等都可以實現。本文主要是介 ...
  • 配置的同步涉及到兩個方面:第一,對原始的配置文件實施監控併在其發生變化之後從新載入配置;第二,配置重新載入之後及時通知應用程式進而使後者能夠使用最新的配置。接下來我們利用一個簡單的.NET Core控制台應用來演示針對文件的配置會涉及到數據同步的問題,我們希望應用能夠對原始配置文件實施監控,併在文件 ...
  • ASP是動態伺服器頁面(ActiveServerPage)的英文縮寫,是微軟公司開發的代替CGI腳本程式的一種應用,它可以與資料庫和其它程式進行交互,是一種簡單、方便的編程工具。那麼關於ASP.NET頁面事件的知識點,你又瞭解多少呢? 大家可以看到其實在ASP.NET(ASP.NET是.NETFra ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...