python爬蟲入門01:教你在 Chrome 瀏覽器輕鬆抓包

来源:https://www.cnblogs.com/fxxkpython/archive/2019/05/06/fxxkpython.html
-Advertisement-
Play Games

通過 python爬蟲入門:什麼是爬蟲,怎麼玩爬蟲? 我們知道了什麼是爬蟲 也知道了爬蟲的具體流程 那麼在我們要對某個網站進行爬取的時候 要對其數據進行分析 就要知道應該怎麼請求 就要知道獲取的數據是什麼樣的 所以我們要學會怎麼抓咪咪! 哦,不對。 我們要學會怎麼數據抓包 雖然小饅頭也是包的一種 o ...


通過

 

 python爬蟲入門:什麼是爬蟲,怎麼玩爬蟲?

 

我們知道了什麼是爬蟲

 

也知道了爬蟲的具體流程

 

那麼在我們要對某個網站進行爬取的時候

 

要對其數據進行分析

 

就要知道應該怎麼請求

 

就要知道獲取的數據是什麼樣的

 

所以我們要學會怎麼抓咪咪!

 

 

哦,不對。

 

我們要學會怎麼數據抓包

 

雖然小饅頭也是包的一種

 

ok...anyway...

 

打開我們的 Chrome 瀏覽器

 

在這裡 小帥b 提醒大家一句

 

儘量不要用國產瀏覽器

 

很多是有後門

 

 

 

所以

 

Chrome 是首選!

 

ok,打開 Chrome 瀏覽器之後呢

 

我們隨便輸入一個網址吧

 

比如

 

www.pornhub.com

 

 

 

營養跟不上?那就...

 

輸入一個人人都能上的網站

 

www.baidu.com

 

用力回車

 

一個熟悉的頁面顯示在你的面前

 

 

 

 

這個時候,你按下 F12

 

你可以看到彈出一個有點裝逼的視窗

 

 

 

這個玩意

 

正是我們想要的

 

可以看到

 

Element 標簽下對應的 HTML 代碼

 

其實就是這個網頁的代碼

 

我們可以在這裡除了看看它的代碼之外

 

我們還可以修改一些東西

 

比如我把這個按鈕改成小帥b

 

 

 

按下回車

 

 

 

是不是瞬間逼格滿滿

 

哦,不好意思

 

今天不是要說怎麼裝逼的

 

 

我們點擊 Network 這個標簽

 

然後刷新一下

 

可以看到有很多的請求

 

 

 

HTTP 的請求方式有好幾種

 

GET, POST, PUT, DELETE, HEAD, OPTIONS, TRACE

 

不過最常見的就是 GET 和 POST 請求

 

咱們就一一說道說道

 

 

 

接下來就是

 

學習 python 的正確姿勢

 

 

 

我們直接搜索「蒼老師

 

然後我們就可以發現

 

有好多請求

 

 

這些都是 GET 請求

 

我們隨便點擊一個請求進去

 

 

可以看到我們的請求URL

 

https://www.baidu.com/s?wd=%E8%8B%8D%E8%80%81%E5%B8%88&rsv_spt=1&rsv_iqid=0xad707ee600011b25&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=0&oq=%25E8%258B%258D%25E8%2580%2581%25E5%25B8%2588&rsv_t=5d8eqNDy4ZpyUOz7ByzyIMYfH5Jc7861dr4CFQaY3WCiDnOpBLob6Eouk23%2F3L%2BTD46O&rsv_sug3=15&rsv_pq=996e776f0000df06&rsv_sug4=19123

 

在 ?後面的這些 jb 玩意兒

 

就是 GET 請求的參數

 

這些參數以「鍵值對」的形式實現

 

比如這裡的

 

wd=%E8%8B%8D%E8%80%81%E5%B8%88

 

就是告訴百度

 

我們要查詢的是蒼老師相關的內容

 

這種方式的請求方式是最簡單的

 

所以以後我們在 Python 寫 GET 請求的時候

 

直接在 URL 後面加個 ?然後添加參數值就好了

 

比如

 

我要百度搜索波多野結衣

 

那麼就是

 

https://www.baidu.com/s?wd=波多野結衣

 

不信你直接在瀏覽器這樣搜

 

是一毛一樣的

 

那麼,啥是 POST 請求呢?

 

我們在做一些信息提交的時候

 

 比如註冊,登錄

 

這時候我們做的就是 POST 請求

 

POST 的參數不會直接放在 URL 上

 

會以 Form 表單的形式將數據提交給伺服器

 

 

 

我們來登錄一下百度

 

 

當我們點擊登錄的時候

 

就開始將我們的賬號密碼請求給百度伺服器

 

可以看到我們請求了 login 這個介面

 

請求方法就是 POST

 

 

而我們的請求參數是以 Form 表單的方式提交的

 

 

拉到下麵就可以看到

 

username 就是 xiaoshuaib

而密碼,就是被加密了的

 

這些都是 POST 參數

 

可以發現

 

GET請求把請求參數都暴露在URL上

 

而POST請求的參數放在request body 裡面

 

POST請求方式還對密碼參數加了密

 

這樣就相對安全一些

 

 

ok

 

你已經瞭解請求方式了

 

接下來說說請求頭

 

 

 

當然說的不是上面這個 gou 頭哈

 

我們剛剛在訪問百度的時候

 

可以看到這個玩意

 

 

這個就是請求頭

 

Request Header

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 命名的註意事項: 命名要有實際含義 命名風格保持一致 不用拼音命名 不用語言關鍵字 適當的使用註釋 好的代碼應該是自描述的 難以理解的地方加上註釋 函數的功能加上註釋說明 類的功能和使用方法加註釋 多備份重要的代碼 代碼不能只有一份 啟用編譯器的自動備份 用代碼管理工具備份 堅持字元編碼統一 PHP ...
  • 1. 在開發機上的準備工作 2. 在伺服器上的準備工作 3.安裝uwsgi 4.編寫uwsgi配置文件,使用配置文件啟動uwsgi 5. 安裝nginx 6. 收集靜態文件 7. 編寫nginx配置文件: 8. 使用supervisor配置 1. 在開發機上的準備工作 git init git re ...
  • 01、Lombok 的自我介紹 Lombok 在官網是這樣作自我介紹的: Project Lombok makes java a spicier language by adding 'handlers' that know how to build and compile simple, boil ...
  • Python編程實現對視頻文件進行剪切的功能。截取指定長度的視頻並保存,運行後首先選擇要裁剪的視頻,然後輸入開始時間點和停止時間點即可。將剪切後的視頻保存為output.avi文件 Python編程實現對視頻文件進行剪切的功能。截取指定長度的視頻並保存,運行後首先選擇要裁剪的視頻,然後輸入開始時間點 ...
  • 第一次編輯 2019-05-07 01:09:39 垃圾回收的對象 程式中的不可用對象(不存活的對象,沒有任何引用),或者無用的變數信息等,在程式中長期存在會逐漸占用較多的記憶體空間,導致沒有足夠的空間分配給新生成的對象等. 判斷哪些是需要回收的對象 早期jdk使用引用計數法,計數每個對象的引用次數, ...
  • 什麼是原子操作? 原子操作和資料庫的ACID有啥關係? AtomicInteger是怎麼實現原子操作的? AtomicInteger是有什麼缺點? ...
  • Python基礎之單例模式,內容包括 單例設計模式介紹,__new__方法,Python中的單例。其中,單例設計模式 包括 設計模式,單例模式;__new__方法 包括 __new__作用,重寫__new__方法註意,重寫new方法示例;Python中的單例 包括 單例,單例設計模式思路分析,用ne... ...
  • Python面向對象之類屬性類方法靜態方法,內容包括 類的結構,類屬性和實例屬性,類方法和靜態方法,方法綜合案例等。其中,類的結構 包括 實例,類是一個特殊的對象;類屬性和實例屬性 包括 類屬性的定義及使用,屬性的查找機制-向上查找;類方法和靜態方法 包括 類方法,靜態方法;方法綜合案例 僅包含 游... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...