爬蟲淺談一:一個簡單c#爬蟲程式

来源:https://www.cnblogs.com/wzk153/archive/2018/06/06/9145684.html
-Advertisement-
Play Games

這篇文章只是簡單展示一個基於HTTP請求如何抓取數據的文章,如覺得簡單的朋友,後續我們再慢慢深入研究探討。 圖1: 如圖1,我們工作過程中,無論平臺網站還是企業官網,總少不了新聞展示。如某天產品經理跟我們說,推廣人員想要抓取百度新聞中熱點要聞版塊提高站點百度排名。要抓取百度的熱點要聞版本,首先我們先 ...



這篇文章只是簡單展示一個基於HTTP請求如何抓取數據的文章,如覺得簡單的朋友,後續我們再慢慢深入研究探討。

1

 

 如圖1,我們工作過程中,無論平臺網站還是企業官網,總少不了新聞展示。如某天產品經理跟我們說,推廣人員想要抓取百度新聞中熱點要聞版塊提高站點百度排名。要抓取百度的熱點要聞版本,首先我們先要瞭解站點https://news.baidu.com/請求頭(Request headers信息。

為什麼要瞭解請求頭(Request headers)信息? 

原因是我們可以根據請求頭信息某部分報文信息偽裝這是一個正常HTTP請求而不是人為爬蟲程式躲過站點封殺,而成功獲取響應數據(Response data

 

如何查看百度新聞網址請求頭信息?

 2

 

如圖2,我們可以打開谷歌瀏覽器或者其他瀏覽器查看該站點請求頭報文信息。從圖中可以瞭解到該百度新聞站點可以接受text/html等數據類型;語言是中文;瀏覽器版本是Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36等等報文信息,在我們發起一個HTTP請求的時候直接攜帶該報文信息過去。當然並不是每個報文信息參數都必須攜帶過去,攜帶一部分能夠請求成功即可。

 

那什麼是響應數據(Response data)?

3

 

如圖3,響應數據(Response data)是可以從谷歌瀏覽器或者其他瀏覽器中查看到的,響應可以是json數據,可以是DOM樹數據,方便我們後續解析數據。

 

當然您可以學習任意一門開發語言開發爬蟲程式:C#NodeJsPythonJavaC++

但這裡主要講述是C#開發爬蟲程式。微軟為我們提供兩個關於HTTP請求HttpWebRequestHttpWebResponse對象,方便我們發送請求獲取數據。以下展示下C# HTTP請求代碼:

        private string RequestAction(RequestOptions options)
        {
            string result = string.Empty;
            IWebProxy proxy = GetProxy();
            var request = (HttpWebRequest)WebRequest.Create(options.Uri);
            request.Accept = options.Accept;
            //在使用curl做POST的時候, 當要POST的數據大於1024位元組的時候, curl並不會直接就發起POST請求, 而是會分為倆步,
            //發送一個請求, 包含一個Expect: 100 -continue, 詢問Server使用願意接受數據
            //接收到Server返回的100 - continue應答以後, 才把數據POST給Server
            //並不是所有的Server都會正確應答100 -continue, 比如lighttpd, 就會返回417 “Expectation Failed”, 則會造成邏輯出錯.
            request.ServicePoint.Expect100Continue = false;
            request.ServicePoint.UseNagleAlgorithm = false;//禁止Nagle演算法加快載入速度
            if (!string.IsNullOrEmpty(options.XHRParams)) { request.AllowWriteStreamBuffering = true; } else { request.AllowWriteStreamBuffering = false; }; //禁止緩衝加快載入速度
            request.Headers.Add(HttpRequestHeader.AcceptEncoding, "gzip,deflate");//定義gzip壓縮頁面支持
            request.ContentType = options.ContentType;//定義文檔類型及編碼
            request.AllowAutoRedirect = options.AllowAutoRedirect;//禁止自動跳轉
            request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36";//設置User-Agent,偽裝成Google Chrome瀏覽器
            request.Timeout = options.Timeout;//定義請求超時時間為5秒
            request.KeepAlive = options.KeepAlive;//啟用長連接
            if (!string.IsNullOrEmpty(options.Referer)) request.Referer = options.Referer;//返回上一級歷史鏈接
            request.Method = options.Method;//定義請求方式為GET
            if (proxy != null) request.Proxy = proxy;//設置代理伺服器IP,偽裝請求地址
            if (!string.IsNullOrEmpty(options.RequestCookies)) request.Headers[HttpRequestHeader.Cookie] = options.RequestCookies;
            request.ServicePoint.ConnectionLimit = options.ConnectionLimit;//定義最大連接數
            if (options.WebHeader != null && options.WebHeader.Count > 0) request.Headers.Add(options.WebHeader);//添加頭部信息
            if (!string.IsNullOrEmpty(options.XHRParams))//如果是POST請求,加入POST數據
            {
                byte[] buffer = Encoding.UTF8.GetBytes(options.XHRParams);
                if (buffer != null)
                {
                    request.ContentLength = buffer.Length;
                    request.GetRequestStream().Write(buffer, 0, buffer.Length);
                }
            }
            using (var response = (HttpWebResponse)request.GetResponse())
            {
                ////獲取請求響應
                //foreach (Cookie cookie in response.Cookies)
                //    options.CookiesContainer.Add(cookie);//將Cookie加入容器,保存登錄狀態
                if (response.ContentEncoding.ToLower().Contains("gzip"))//解壓
                {
                    using (GZipStream stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress))
                    {
                        using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                        {
                            result = reader.ReadToEnd();
                        }
                    }
                }
                else if (response.ContentEncoding.ToLower().Contains("deflate"))//解壓
                {
                    using (DeflateStream stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress))
                    {
                        using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                        {
                            result = reader.ReadToEnd();
                        }
                    }
                }
                else
                {
                    using (Stream stream = response.GetResponseStream())//原始
                    {
                        using (StreamReader reader = new StreamReader(stream, Encoding.UTF8))
                        {
                            result = reader.ReadToEnd();
                        }
                    }
                }
            }
            request.Abort();
            return result;
        }
View Code

還有一個我自定義傳參對象,當然無論傳入或者傳出的對象都是你們根據自己實際業務需求定義的:

    public class RequestOptions
    {
        /// <summary>
        /// 請求方式,GET或POST
        /// </summary>
        public string Method { get; set; }
        /// <summary>
        /// URL
        /// </summary>
        public Uri Uri { get; set; }
        /// <summary>
        /// 上一級歷史記錄鏈接
        /// </summary>
        public string Referer { get; set; }
        /// <summary>
        /// 超時時間(毫秒)
        /// </summary>
        public int Timeout = 15000;
        /// <summary>
        /// 啟用長連接
        /// </summary>
        public bool KeepAlive = true;
        /// <summary>
        /// 禁止自動跳轉
        /// </summary>
        public bool AllowAutoRedirect = false;
        /// <summary>
        /// 定義最大連接數
        /// </summary>
        public int ConnectionLimit = int.MaxValue;
        /// <summary>
        /// 請求次數
        /// </summary>
        public int RequestNum = 3;
        /// <summary>
        /// 可通過文件上傳提交的文件類型
        /// </summary>
        public string Accept = "*/*";
        /// <summary>
        /// 內容類型
        /// </summary>
        public string ContentType = "application/x-www-form-urlencoded";
        /// <summary>
        /// 實例化頭部信息
        /// </summary>
        private WebHeaderCollection header = new WebHeaderCollection();
        /// <summary>
        /// 頭部信息
        /// </summary>
        public WebHeaderCollection WebHeader
        {
            get { return header; }
            set { header = value; }
        }
        /// <summary>
        /// 定義請求Cookie字元串
        /// </summary>
        public string RequestCookies { get; set; }
        /// <summary>
        /// 非同步參數數據
        /// </summary>
        public string XHRParams { get; set; }
    }
View Code

根據展示的代碼,我們可以發現HttpWebRequest對象裡面都封裝了很多Request headers報文參數,我們可以根據該網站的Request headers信息在微軟提供的HttpWebRequest對象里設置(看代碼報文參數註釋,都有寫相關參數說明,如果理解錯誤,望告之,謝謝),然後發送請求獲取Response data解析數據

 

還有補充一點,爬蟲程式能夠使用代理IP最好使用代理IP,這樣降低被封殺機率,提高抓取效率。但是代理IP也分質量等級,對於某一些HTTPS站點,可能對應需要質量等級更加好的代理IP才能穿透,這裡暫不跑題,後續我會寫一篇關於代理IP質量等級文章詳說我的見解。

 C#代碼如何使用代理IP

 微軟NET框架也為了我們提供一個使用代理IP System.Net.WebProxy對象,關於使用代碼如下:

        private System.Net.WebProxy GetProxy()
        {
            System.Net.WebProxy webProxy = null;
            try
            {
                // 代理鏈接地址加埠
                string proxyHost = "192.168.1.1";
                string proxyPort = "9030";

                // 代理身份驗證的帳號跟密碼
                //string proxyUser = "xxx";
                //string proxyPass = "xxx";

                // 設置代理伺服器
                webProxy = new System.Net.WebProxy();
                // 設置代理地址加埠
                webProxy.Address = new Uri(string.Format("{0}:{1}", proxyHost, proxyPort));
                // 如果只是設置代理IP加埠,例如192.168.1.1:80,這裡直接註釋該段代碼,則不需要設置提交給代理伺服器進行身份驗證的帳號跟密碼。
                //webProxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);
            }
            catch (Exception ex)
            {
                Console.WriteLine("獲取代理信息異常", DateTime.Now.ToString(), ex.Message);
            }
            return webProxy;
        }
View Code

關於 System.Net.WebProxy對象參數說明,我在代碼裡面也做瞭解釋。

 

如果獲取到Response data數據是json,xml等格式數據,這類型解析數據方法我們這裡就不詳細說了,請自行百度。這裡主要講的是DOMHTML數據解析,對於這類型數據有人會用正則表達式來解析,也有人用組件。當然只要能獲取到自己想要數據,怎麼解析都是可以。這裡主要講我經常用到解析組件 HtmlAgilityPack,引用DLL為(using HtmlAgilityPack)。解析代碼如下:

                HtmlDocument htmlDoc = new HtmlDocument();
                htmlDoc.LoadHtml(simpleCrawlResult.Contents);
                HtmlNodeCollection liNodes = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='pane-news']").SelectSingleNode("div[1]/ul[1]").SelectNodes("li");
                if (liNodes != null && liNodes.Count > 0)
                {
                    for (int i = 0; i < liNodes.Count; i++)
                    {
                        string title = liNodes[i].SelectSingleNode("strong[1]/a[1]").InnerText.Trim();
                        string href = liNodes[i].SelectSingleNode("strong[1]/a[1]").GetAttributeValue("href", "").Trim();
                        Console.WriteLine("新聞標題:" + title + ",鏈接:" + href);
                    }
                }
View Code

另外附上HtmlAgilityPack學習鏈接 http://www.cnblogs.com/asxinyu/p/CSharp_HtmlAgilityPack_XPath_Weather_Data.html

 

下麵主要展示抓取結果。

4

如圖4,抓取效果,一個簡單爬蟲程式就這樣子完成了。。。(這裡只是小弟不才個人見解,如有錯誤,望各位大牛多多指教)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • JRE : Java 運行環境 JDK : Java 開發工具包,其中包括 JRE (javac、java、javap、jar、javadoc 、javah 等命令) JVM : Java 虛擬機 PATH : Windows 環境變數 CLASSPTH :Java 程式運行時類載入路徑 ( 非 j ...
  • 面向對象的操作方式,spring統一定義在org.springframework.jdbc.object以RdbmsOperation作為頂層抽象定義 Spring對各種ORM的集成 Spring的集成主要體現在對ORM框架的封裝,jdbc提供了jdbctemplate Hibernate提供了hi ...
  • 首先下載wireshark並安裝 這是一個免費軟體。我也不懂 隨便就在百度里下載了個 ,版本是Version 2.4.3 。 然後是要在首選項里勾選dicom協議選項。 關於使用,這個我也是一臉懵逼,隨便給兩個網上的教程吧,http://openmaniak.com/cn/wireshark_fil ...
  • 最近在做項目過程中,經常會遇到生成訂單流水號唯一性的應用,也有不少同事也請教我對唯一性的 "流水號"的問題,根據個人所見,一般生成的規則都是根據日期來進行操作,我目前在做的一個項目:”報告卡“上的編碼就是根據 ”yyyyMMdd+四位數字(累加)“的格式生成,一般對這一類的操作最好是在存儲過程中生成 ...
  • 因公司ELK監控分析日誌的需要,需要區分進程運行狀態日誌以及錯誤日誌,以便能夠根據日誌級別(level)進行不同策略的預警,而現有的Nlog、Log4Net都沒有Process這樣的level,故針對這兩個日誌框架做了一些擴展,實現了自定義PROCESS LEVEL,因代碼不多,故直接貼代碼,有疑問 ...
  • 第一種 split()方法將一個字元串對象的每個字元拆出來,並且將每個字元串當成數組的每個元素reverse()方法用來改變數組,將數組中的元素倒個序排列,第一個數組元素成為最後一個,最後一個變成第一個join()方法將數組中的所有元素邊接成一個字元串 第二種 for迴圈給原字元串做一個遞減遍歷,然 ...
  • 這兩天試了下Stylet框架,這個框架雖然很小,但是功能齊全,簡化了很多MVVM的代碼,比如Command,對Dialog,MessageBox都有很好的支持。 開源地址 https://github.com/canton7/Stylet 新建一個WPF項目,添加NuGet引用 安裝完成後會自動添加 ...
  • 使用兩個c#的特性: 加在類上的:[DataContract] 加在欄位上的:[DataMember(Name = "ResultCode",EmitDefaultValue = true,IsRequired = true, Order = 1)] 這個order就是控制順序的。C#就是辣麽強大。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...