c#如何採集需要登錄的頁面

来源:http://www.cnblogs.com/aspnetjia/archive/2016/02/28/5224276.html
-Advertisement-
Play Games

首先說明:代碼片段是從網路獲取,然後自己修改。我想好的東西應該拿來分享。 先說下原理:當我們採集頁面的時候,如果被採集的網站需要登錄才能採集。不管是基於Cookie還是基於Session,我們都會首先發送一個Http請求頭,這個Http請求頭裡面就包含了網站需要的Cookie信息。當網站接收到發送過


首先說明:代碼片段是從網路獲取,然後自己修改。我想好的東西應該拿來分享。

先說下原理:當我們採集頁面的時候,如果被採集的網站需要登錄才能採集。不管是基於Cookie還是基於Session,我們都會首先發送一個Http請求頭,這個Http請求頭裡面就包含了網站需要的Cookie信息。當網站接收到發送過來的Http請求頭時,會從Http請求頭獲取相關的Cookie或者Session信息,然後由程式來處理,決定你是否有許可權訪問當前頁面。

好了,原理搞清楚了,就好辦了。我們所要做的僅僅是在採集的時候(或者說HttpWebRequest提交數據的時候),將Cookie信息放入Http請求頭裡面就可以了。

在這裡我提供2種方法。

第一種,直接將Cookie信息放入HttpWebRequest的CookieContainer里。看代碼:

protected void Page_Load(object sender, EventArgs e)
        {
            //設置Cookie,存入Hashtable
            Hashtable ht = new Hashtable();
            ht.Add("username", "youraccount");
            ht.Add("id", "yourid");
            this.Collect(ht);
        }
        public void Collect(Hashtable ht)
        {
            string content = string.Empty;
            string url = "http://www.ibest100.com/需要登錄後才能採集的頁面";
            string host = "http://www.ibest100.com";
            try
            {
                //獲取提交的位元組
                byte[] bs = Encoding.UTF8.GetBytes(content);
                //設置提交的相關參數
                HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create(url);
                req.Method = "POST";
                req.ContentType = "application/json;charset=utf-8";
                req.ContentLength = bs.Length;
                //將Cookie放入CookieContainer,然後再將CookieContainer添加到HttpWebRequest
                CookieContainer cc = new CookieContainer();
                cc.Add(new Uri(host), new Cookie("username", ht["username"].ToString()));
                cc.Add(new Uri(host), new Cookie("id", ht["id"].ToString()));
                req.CookieContainer = cc;
                //提交請求數據
                Stream reqStream = req.GetRequestStream();
                reqStream.Write(bs, 0, bs.Length);
                reqStream.Close();
                //接收返回的頁面,必須的,不能省略
                WebResponse wr = req.GetResponse();
                System.IO.Stream respStream = wr.GetResponseStream();
                System.IO.StreamReader reader = new System.IO.StreamReader(respStream, System.Text.Encoding.GetEncoding("utf-8"));
                string t = reader.ReadToEnd();
                System.Web.HttpContext.Current.Response.Write(t);
                wr.Close();
            }
            catch (Exception ex)
            {
                System.Web.HttpContext.Current.Response.Write("異常在getPostRespone:" + ex.Source + ":" + ex.Message);
            }

        }

第二種,每次打開采集程式時,需要先到被採集的網站模擬登錄一次,獲取CookieContainer,然後再採集。看代碼:

protected void Page_Load(object sender, EventArgs e)
        {
            try
            {
                CookieContainer cookieContainer = new CookieContainer();
                string formatString = "username={0}&password={1}";//***************
                string postString = string.Format(formatString, "youradminaccount", "yourpassword");
                //將提交的字元串數據轉換成位元組數組
                byte[] postData = Encoding.UTF8.GetBytes(postString);
                //設置提交的相關參數
                string URI = "http://www.ibest100.com/登錄頁面";//***************
                HttpWebRequest request = WebRequest.Create(URI) as HttpWebRequest;
                request.Method = "POST";
                request.KeepAlive = false;
                request.ContentType = "application/x-www-form-urlencoded";
                request.CookieContainer = cookieContainer;
                request.ContentLength = postData.Length;
                // 提交請求數據
                System.IO.Stream outputStream = request.GetRequestStream();
                outputStream.Write(postData, 0, postData.Length);
                outputStream.Close();
                //接收返回的頁面,必須的,不能省略
                HttpWebResponse response = request.GetResponse() as HttpWebResponse;
                System.IO.Stream responseStream = response.GetResponseStream();
                System.IO.StreamReader reader = new System.IO.StreamReader(responseStream, Encoding.GetEncoding("gb2312"));
                string srcString = reader.ReadToEnd();
                //打開您要訪問的頁面
                URI = "http://www.ibest100.com/需要登錄後才能採集的頁面";//***************
                request = WebRequest.Create(URI) as HttpWebRequest;
                request.Method = "GET";
                request.KeepAlive = false;
                request.CookieContainer = cookieContainer;
                // 接收返回的頁面
                response = request.GetResponse() as HttpWebResponse;
                responseStream = response.GetResponseStream();
                reader = new System.IO.StreamReader(responseStream, Encoding.GetEncoding("gb2312"));
                srcString = reader.ReadToEnd();
                //輸出獲取的頁面或者處理
                Response.Write(srcString);
            }
            catch (WebException we)
            {
                string msg = we.Message;
                Response.Write(msg);
            }
        }

也許有人會問,如果對方登錄的時候要驗證碼怎麼辦?那你就用第一種方式吧,只不過需要你分析對方的Cookie。

應用範圍:採集數據、論壇發帖、博客發文。

感謝來自網路 的文章 編輯:dezai

轉載自:http://www.aspnetjia.com
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • FROM: http://blog.csdn.net/npy_lp/article/details/7686583 從事Linux開發的軟體工程師幾乎都使用過虛擬機軟體,如VMware workstation,一般把虛擬機軟體運行在微軟的操作系統中,把Linux操作系統(如Ubuntu)運行在虛擬機
  • 系統媽Ghost win10 64位快速安裝版 V2016年2月,更新了最新系統補丁,升級系統版本號為2016年2月份。這款累積更新補丁會取代之前的版本。本系統還附帶最常用的裝機必備軟體、QQ等。 系統下載:http://www.xitongma.com 三種激活途徑:1、利用win7、win8、w
  • 深度技術ghost win7系統 64位快速安裝版 V2016年2月,深度技術ghost win7 64位快速安裝版在不影響大多數軟體和硬體運行的前提下,已經儘可能關閉非必要服務,自動安裝AMD/Intel 雙核 CPU 驅動和優化程式,發揮新平臺的最大性能。首次登陸桌面,後臺自動判斷和執行清理目標
  • 首先定義一個字元串: string str = "abc"; 1.字元大小寫轉化 大寫:str.ToUpper(); 小寫: str.ToLower(); 2.字元和Ascii碼互相轉換 Ascii碼:byte[] b = Encoding.GetEncoding("unicode").GetByt
  • 註釋 /// <summary> /// 3.文檔註釋 /// </summary> private static void Test() { Console.WriteLine("Hello world!");// 1.單行註釋 Console.ReadKey(); /* 2.塊註釋 Consol
  • 3.0獲取介面調用憑據 ①介面說明 access_token是公眾號的全局唯一票據,公眾號調用各介面時都需使用access_token。開發者需要進行妥善保存。access_token的存儲至少要保留512個字元空間。access_token的有效期目前為2h(7200s),需定時刷新,重覆獲取將導
  • 效果 首先,我們先來準備我們需要的類 1.檢查項目類 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; namespa
  • 今天跟大家分享下在Asp.NET Web API中Controller是如何解析從客戶端傳遞過來的數據,然後賦值給Controller的參數的,也就是參數綁定和模型綁定。 Web API參數綁定就是簡單類型的綁定,比如:string,char,bool,int,uint,byte,sbyte,sho
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...