Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

来源:https://www.cnblogs.com/Python1234/archive/2018/05/27/9097172.html
-Advertisement-
Play Games

登錄百度 先清理瀏覽器緩存,打開Charles,登錄一次百度主頁,抓取到登錄過程。 參數分析 確定了需要分析的參數,從哪個開始分析呢?隨意吧 一般有些參數之間是有關係的,比如token的請求參數里需要gid參數 這裡我就不一一去分析參數間的關係了,直接來了啊 參數 gid 一方面其他參數需要它,另外 ...


登錄百度

先清理瀏覽器緩存,打開Charles,登錄一次百度主頁,抓取到登錄過程。

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

參數分析

確定了需要分析的參數,從哪個開始分析呢?隨意吧

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

一般有些參數之間是有關係的,比如token的請求參數里需要gid參數

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

這裡我就不一一去分析參數間的關係了,直接來了啊

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

參數 gid

一方面其他參數需要它,另外就是這個參數是完全由本地js生成的。先看一下這個參數

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

搜索一下這個值,沒有。那麼我們再來搜一下這個name,就是gid,之前說過我們一般是找xxx=這種,先來搜一下gid=

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

點擊loginv4_9f3632a.js,然後在JavaScript頁簽搜索gid=

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

有好幾個,我圈出了這個getqrcode?請求,為啥捏?看圖,我們找到這個請求

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

看到請求里的gid值了嗎?跟我們登錄的gid是一樣的,那就確定是這個地方了,gid=e.guideRandom,然後在這個腳本里搜一下guideRandom

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

然後翻譯一下這個js,這......就自己去琢磨吧

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

就剩下callback,其他的請求里也需要callback這個

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

搜一下bd__cbs__,為啥要搜這個?這個真的很痛苦,callback搜出來一大片,而且沒看出來什麼有效數據,值又搜不到,那就搜一半吧,你問我為啥?第六感,不管你信不信,反正我是信了

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

分析一下這段代碼,基本就是c.getUniqueId這個函數了,搜一下這個函數

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

oj8k,找到了,代碼貼下麵,為什麼這麼寫?自己查js去,當然有更簡單了pyv8或者psexecjs

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Token這裡我要再說一下,參數我們分析完了,你以為請求就成功了嗎?

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Oh!yeah,之前我們都是得到所有請求參數就訪問成功了

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

就這裡卡了我好長時間。那麼碰到這種情況要從那幾個點著手呢,首先我想到的是cookies

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

然後向上去找Set Cookie的地方

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

訪問首頁得到四個cookie值,H_PS_PSSID、BIDUPSID、PSTM、BAIDUID

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

這裡又找到一個BDORZ,首頁很簡單,沒有什麼參數,

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

註意看這幾個參數,就在上面四個cookies中,t是時間戳,參數都搞定了,那麼Token的cookies也都搞定了,終於可以成功了,圖樣圖森破,還是不行。MMP,cookies搞定都不行,我還有招,請求頭!!!瀏覽器里直接拷過去,看你還想咋的

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

然鵝....,算你狠,不過我不會輕易認輸的

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

調試他娘的,一遍一遍又一遍,兩遍三遍四五遍,各種姿勢都試了,終於高潮要來了,特麽的請求不一樣

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

先上圖

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

瀏覽器的正常請求

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

程式發送的請求

看到不一樣了吧,為什麼呢?我們在用requests庫的時候,get請求我比較習慣用.get(url, params=data),參數用params的方式傳入,再來看一下Token請求的參數

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

getapi是空,那很明顯

data = { "getapi":"", "tpl":"mn", ....}session.get(url, params=data)

然後發送的請求就是/v2/api/?getapi=&tpl=mn&....,實際上正常的請求是/v2/api/?getapi&tpl=mn&...,竟然還有這種操作,我真的是第一次碰到,改一下

data = { "tpl":"mn", ...}url = ".../v2/api/?getapi&{}".format(urlencode(data))session.get(url)

到這裡才算OK了,最後總結了一下,請求的那個坑、請求頭中的Referer、cookies,終於可以說一句OJ8K

參數 dv

為什麼要先說這個dv,首先這個我沒完全破解,另外就算你用固定值,也不影響結果,這個不能詳細說,否則得好幾帖子,我們先搜dv=

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

切換到javascript頁簽

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

我們可以搜一下dv_Input這個控制項,它是沒有的,我就不展示了,然後應該就是window.LG_DV_ARG了

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

這裡有dvjsinput,上圖我們也看到了這個,切換到javascript頁簽看一下

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

然後打開瀏覽器,清空緩存,打開隱身視窗,打開開發者工具,訪問百度首頁

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

觀察一下dv值的特點,可以找一些比較有特色的部分搜一下,比如tk、@,這樣儘量減少我們調試js的過程,因為真的很痛苦

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

在console裡面執行一下這個計算,跟我們dv前面的值是不是類似,那就是它了,不管你是不是我都認為是。然後再搜一下@

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

剛纔計算的Token+@+Ue(xx),這個肯定就是dv了,至於Ue嘛,我沒搞定,不過發現沒啥意義,寫固定值也可以,也就不用費心去找這個了。



太多了,所以這裡就分割一下,剩下的下一篇再繼續

Python爬蟲入門教程之——百度模擬登錄!爬蟲真好玩!

歡迎關註我的博客或者公眾號:https://home.cnblogs.com/u/Python1234/ Python學習交流

歡迎加入我的千人交流答疑群:125240963


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 實現步驟: 1、創建用戶登錄提交界面 2、創建處理用戶登錄請求servlet組件Main 3、創建代表登錄成功響應的servlet的組件LoginSuccess 4、創建代表登錄失敗響應的servlet組件LoginFail 【1代碼login.html】 【2程式Main.java】 【3程式Lo ...
  • Python作為一種解釋型語言,由於使用了全局解釋鎖(GIL)的原因,其代碼不能同時在多核CPU上併發的運行。這也導致在Python中使用多線程編程並不能實現併發,我們得使用其他的方法在Python中實現併發編程。 一、全局解釋鎖(GIL) Python中不能通過使用多線程實現併發編程主要是因為全局 ...
  • 使用繼承時,基類必須保證存在預設構造器(無參構造器),子類在實例化時,會首先自動調用隱式調用父類的無參構造器,允許子類與父類的構造器列表不一致,子類使用有參構造器實例化對象時,最好顯式調用父類構造器,防止出錯。 ...
  • 每一個class位元組碼文件都唯一對應一個類或介面,class文件中記錄中類或介面的基本信息,但反之不成立,不是每一個類或介面都有一個唯一對應的位元組碼文件,首先類或介面的位元組碼可以不以文件的方式存儲,可以直接從記憶體中生成位元組碼,而不產生.class文件,動態代理的原理就是直接記憶體中生成位元組碼流,根據加 ...
  • 簡介 抖音,是一款可以拍短視頻的音樂創意短視頻社交軟體,該軟體於2016年9月上線,是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟體選擇歌曲,拍攝15秒的音樂短視頻,形成自己的作品。此APP已在Android各大應用商店和APP Store均有上線。 今天咱們就用Python爬取抖音視頻 ...
  • 一.列表及元組 1.首先我們先來看一下列表: 列表是我們最常用的數據類型之一,通過列表可以對數據實現最方便的存儲、修改等操作 創建類表的兩種方式: (1.)l1=[1,2,3,4] (2.)l1=list((1,2,3,4)) (1.)和(2.)是等價的都是創建列表的方式 列表常用的方法: 我們可以 ...
  • 題目: 給定一個數組,它的第 i 個元素是一支給定股票第 i 天的價格。 設計一個演算法來計算你所能獲取的最大利潤。你可以儘可能地完成更多的交易(多次買賣一支股票)。 註意:你不能同時參與多筆交易(你必須在再次購買前出售掉之前的股票)。 示例 1: 輸入: [7,1,5,3,6,4] 輸出: 7 解釋 ...
  • 一:Hash結構集合 Hash結構的特點是無序和唯一,無序即添加元素的順序和輸出元素的順序不一致,唯一是指元素不重覆。那是什麼來保證Hash結構元素唯一的呢? 元素所在類的HashCode()和equals()方法來保證元素的唯一性的,所以自定義的類用Hash結構集合存儲元素時,需要重寫這兩個方法。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...