Internet上有著極其龐大的資源信息,各行各業的信息無所不有。網頁的信息搜集就是獲取網頁的數據,然後通過程式分析,將有用的數據提取分離出來。搜索引擎工作的一部分就是網頁數據抽取。比如編製程式抽取新浪網新聞頻道里的這個新聞的標題就是一種網頁數據抽取。 獲取網頁數據有很多種方式。網頁信息收集器可以很 ...
Internet上有著極其龐大的資源信息,各行各業的信息無所不有。網頁的信息搜集就是獲取網頁的數據,然後通過程式分析,將有用的數據提取分離出來。搜索引擎工作的一部分就是網頁數據抽取。比如編製程式抽取新浪網新聞頻道里的這個新聞的標題就是一種網頁數據抽取。
獲取網頁數據有很多種方式。網頁信息收集器可以很方便的針對某個網站的信息內容進行收集。如某個論壇的所有註冊會員的E-MAIL列表、某個行業網站的企業名錄、某個下載網站上所有軟體列表等等。本文結合實例主要介紹了C#網頁信息採集方法,實例彙總了三種常用的方法,是非常實用的技巧,需要的朋友可以參考下。在這裡主要講述通過HttpWebResponse、WebResponse 和WebClient三種方式獲取網頁內容。具體實現方法如下:
一、通過HttpWebResponse來獲取
這是一種比較通用的獲取方式。
二、通過WebResponse來獲取
相對來說,這是一種最簡單的獲取方式。匹配下麵這段代碼:
三、通過WebClient 來獲取
這是一種很簡單的獲取方式,當然,其它的獲取方法也很簡單。在這裡首先要說明的是,如果為了實際項目的效率考慮,需要考慮在函數中分配一個記憶體區域。大概寫法如下:
結語:
以上就是採集數據的核心代碼,這種方法看似很神奇的功能,都是我們平常所用的功能拼加起來的,其實仔細分析起來也沒有多大的難度,只要能夠認真研究,網頁的信息採集不會是難事!同時也希望本文所述對大家的C#程式設計有所幫助。