【原創】網站抓包HttpWebRequest不返回Javascript生成的Cookie的解決辦法

来源:http://www.cnblogs.com/x-poior/archive/2016/04/15/5396353.html
-Advertisement-
Play Games

前言: 最近在做中國移動爬蟲的過程中,首先遇到的就是 在某個請求中,有一個名為“WT_PFC"的cookie鍵值是由前端JavaScript生成的,沒有進入到HttpWebResponse中,也就是說C#不回去執行客戶端腳本 ,HttpWebRequest不是一個真正意義上的web瀏覽器,它只會下載 ...


前言:

最近在做中國移動爬蟲的過程中,首先遇到的就是 在某個請求中,有一個名為“WT_PFC"的cookie鍵值是由前端JavaScript生成的,沒有進入到HttpWebResponse中,也就是說C#不回去執行客戶端腳本 ,HttpWebRequest不是一個真正意義上的web瀏覽器,它只會下載它所請求的地址的html信息,它永遠不會去執行JavaScript或者ajax。

但是由於其他的請求的Request需要Sent該Cookie,所以查了很多資料,基本上只能 重新構建 js 演算法 或者使用 WebBrowser自動去執行頁面js, 但這些都不是最好最快的方法。我採用的是以下的

C# 代碼動態編譯JavaScript代碼的方式得出 JavaScript函數被調用之後的 返回值。

 

1.Cookie(WT_FPC):

 

2. 通過HttpWatch查到的生成該cookie的js代碼:

public static function GetWT_FPC(){
     
    var $t = "2";
    var $u = new Date();
    var $v = new Date($u.getTime() + 315360000000);
    var $w = new Date($u.getTime());
     
    if ($t.length < 10) { 
        var $x = $u.getTime().toString();
        for (var i = 2; i <= (32 - $x.length); i++) $t += Math.floor(Math.random() * 16.0).toString(16);
        $t += $x;
    };
    $t = encodeURIComponent($t); 
    return "WT_FPC=id=" + $t + ":lv=" + $u.getTime().toString() + ":ss=" + $w.getTime().toString() ;
    };

  請註意:請按以上的格式書寫 腳本函數,即加上"public static ".

 

3.JsHelper(動態編譯Js代碼):

我把上面js代碼放到本地"WT_FPC.js"文件中

public static class JsHelper {
		/// <summary>
		/// 執行JS方法
		/// </summary>
		/// <param name="methodName">方法名</param>
		/// <param name="para">參數</param>
		/// <returns></returns>
		public static string GetJsMethd(string methodName, object[] para) {
			string path = AppDomain.CurrentDomain.BaseDirectory + "WT_FPC.js";
			string str2 = File.ReadAllText(path);
			StringBuilder sb = new StringBuilder();
			sb.Append("package aa{");    
			sb.Append(" public class JScript {");
		
			sb.Append(str2);
			sb.Append("}}");
			  

			CompilerParameters parameters = new CompilerParameters();

			parameters.GenerateInMemory = true;

			CodeDomProvider _provider = new Microsoft.JScript.JScriptCodeProvider();

			CompilerResults results = _provider.CompileAssemblyFromSource(parameters, sb.ToString());

			Assembly assembly = results.CompiledAssembly;

			Type _evaluateType = assembly.GetType("aa.JScript");

			object obj = _evaluateType.InvokeMember("GetWT_FPC", BindingFlags.InvokeMethod,
			null, null, para);

			return obj.ToString();
		}
	}

註意:以上的helper代碼如果報錯的話,99%都是由於 Js代碼的問題,即js代碼不規範或者 變數缺少定義之類。

 

4. C#代碼調用helper獲得執行結果

//設置Cookie"WT_FPC"
			string wt_fpc = JsHelper.GetJsMethd("GetWT_FPC", null);
			CookieCollection hcc = new CookieCollection();
			Cookie wtcookie = new Cookie() {
				Expires = DateTime.Now.AddYears(10),
				Path = "/",
				Domain = ".10086.cn",
				Name = "WT_FPC", 
				 Value = wt_fpc.Substring(wt_fpc.IndexOf('=') + 1, wt_fpc.Length - 7)// 
			};
			hcc.Add(wtcookie);
			HttpHelperNew.cookie.Add(wtcookie);

  

5.完結! 小經驗: 有時候 JavaScript前端生成的cookie,有時候 伺服器端並不 校驗,也就是,如果把這個cookie值不通過js代碼動態得到,直接 寫死的話 也應該可以。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. du -sh 查看目錄、文件總大小 -a:全部文件與目錄大小都列出來。如果不加任何選項和參數只列出目錄(包含子目錄)大小。 -c:最後加總2. df -h 查看磁碟使用量3. lsblk 查看系統塊設備信息 blkid 查看磁碟分區的uuid 3. free 系統記憶體以及虛擬記憶體使用情況 -m ...
  • 原文鏈接:http://blog.chinaunix.net/uid-21139058-id-446661.html 原文鏈接:http://blog.chinaunix.net/uid-21139058-id-446661.html 原文鏈接:http://blog.chinaunix.net/u ...
  • 所謂 LAMP,指的是:Linux+Apache+Mysql+Php (轉載http://www.cnblogs.com/zhj5chengfeng/p/3369460.html) 僅以此文做一個備忘錄 Step1. 安裝 Apache 1. 在 terminal 中輸入一下命令並執行: sudo ...
  • 1.改網卡名 先vim /etc/sysconfig/grub:GRUB_TIMEOUT=5GRUB_DEFAULT=savedGRUB_DISABLE_SUBMENU=trueGRUB_TERMINAL_OUTPUT="console"GRUB_CMDLINE_LINUX="crashkernel ...
  • 由於項目需要,我需要給系統加許可權,這真是一個讓人頭疼的問題,如果要每個業務方法都加上許可權判斷邏輯,那真的不敢想象是多麼大的工作量,日後有變動的話,我會不會發瘋? 所以我必須利用之前學到的AOP編程,在需要進行許可權判斷的業務方法前後執行一些許可權判斷,可是呢AOP已經被我忘記了。 幸好,百度網盤裡有之前... ...
  • 文件夾中使用常見任務,如截圖所示增加紅色框部分。 設置步驟: 我的電腦--〉右鍵--〉屬性--〉高級選項--〉性能設置--〉自定義:勾選在文件夾中使用常見任務。 ...
  • 1.馮諾依曼體繫結構(存儲程式電腦) 1.1 解釋 從硬體角度可以抽象為一下模型: 從硬體角度可以抽象為一下模型: CPU與記憶體通過匯流排連接,CPU中有很多寄存器(總是指向記憶體的某一塊區域),如IP(Instruction Pointer)。假如指向CS(Code Segment,代碼段),CPU ...
  • winform combobox控制項綁定datatable並實現實現模糊查詢,顯示下拉列表,網上太多案例,都不是我所需要的,研究了一下 不用Dev 也能實現不錯的效果。 廢話不多直接代碼加圖片 先看效果圖 NO1. combobox 綁定數據源 NO2.ComboBox添加TextUpdate事件 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...