【0基礎學爬蟲】爬蟲基礎之抓包工具的使用

来源:https://www.cnblogs.com/ikdl/archive/2023/03/16/17223060.html
-Advertisement-
Play Games

大數據時代,各行各業對數據採集的需求日益增多,網路爬蟲的運用也更為廣泛,越來越多的人開始學習網路爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。 抓包工具概述 抓包工具,顧名思義,就是抓取網 ...


0

大數據時代,各行各業對數據採集的需求日益增多,網路爬蟲的運用也更為廣泛,越來越多的人開始學習網路爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。

抓包工具概述

抓包工具,顧名思義,就是抓取網路數據包信息的工具。抓包工具最初主要應用於測試工作中,通過抓包工具查看網路數據包,併進行分析,來定位數據傳輸中的問題。隨著不斷發展,抓包工具的功能不斷拓展,在網路數據傳輸中能夠將獲取到的數據包進行重發、編輯、替換等操作。作為爬蟲開發者,我們需要模擬用戶的真實請求來獲取數據,所以我們需要瞭解目標網站交互中的數據信息是如何傳輸的,以及詳細的請求信息、傳遞信息、接收信息。因此掌握各抓包工具的使用是一項必備的技能。

常見抓包工具及工作原理

目前流行的抓包工具有很多,這裡只介紹實際開發中最為常見的。
常見的抓包工具可以分為兩種:

1、抓取應用層的HTTP/HTTPS協議包,通過中間人代理截取協議包,如:Fiddler,Charles。

1

以Fiddler為例,此類抓包工具通過代理某個埠,攔截經過該埠的通信協議,並對傳輸數據進行解析展示,使用也起來非常簡單。對於HTTP請求,數據傳輸都是明文,抓包工具可以直接看到數據報文。但HTTPS請求在HTTP基礎上多了一層SSL/TLS協議,在數據傳輸中採用了雙向加密,對於傳輸中的數據包需要密鑰來進行解密,因此抓包工具即使攔截到了數據包,也無法對數據進行解析。因此Fiddler、Charles在使用前需要安裝證書。

2

2、抓取傳輸層的TCP/UDP協議,在網卡的鏈路層截取數據包,如:Wireshark。

3

F12開發者工具

F12開發者工具是在爬蟲開發中最常使用到的工具,它可以被用來查看網頁HTML元素、調試網頁、抓包等。

以谷歌開發者工具為例,打開F12工具可以看到此界面。

4

工具頂部有一些功能選項,在實際開發中,我們會經常用到以下幾種:

元素(Elements):用來查看、修改HTML元素,修改CSS屬性,查看樣式,監聽事件等

控制台(console):記錄異常信息,執行JS代碼

源代碼(Sources):查看網頁源碼、設置斷點、本地替換、運行JS腳本

網路(Network):監聽請求資源

本次主要介紹網路(Network)面板。

6

關於網路面板,我們需要知道一些基本的功能按鈕。

5

從左到右有六個選項:

1. 錄製按鈕: 紅色代表正在錄製網路活動,會持續監聽該網頁的網路活動,灰色代表停止錄製。

2. 清除按鈕: 會將錄製到的網路活動清除。

3. 過濾按鈕: 可以篩選出URL中包含輸入信息的請求,也可以選擇根據請求類型進行篩選。

4. 搜索按鈕: 可以搜索出包含輸入信息的所有請求。

5. 保留日誌: 勾選時,當頁面重新載入時不會清空上一次載入時的請求信息,未勾選時頁面重新載入時會自動清除上一次載入時的請求信息。建議勾選。

6. 停用緩存: 建議勾選。

使用F12抓包

使用開發者工具進行抓包十分簡單,只需要進行簡單的操作。

1、打開F12開發者工具。

2、打開目標網址。

即可完成抓包操作。

請求列表

請求列表裡麵包含了與網站交互中每個請求資源的信息。

點開任意資源,數據信息主要分為5種:

1. 常規信息: 常規信息中記錄了請求網址、請求方法、請求狀態碼,通過常規信息可以瞭解請求是否成功。

7

2. 響應頭信息: 響應頭信息中記錄了服務端響應的頭信息。

8

3. 請求頭信息: 請求頭信息中記錄了客戶端發起請求時攜帶的頭信息。

9

4. 載荷信息: 記錄了請求時提交的數據。

10

5. 響應信息: 記錄了服務端的響應信息。

11

F12開發者工具功能很強大,使用起來也非常便捷。但是也存在著很大的弊端:

  1. 容易被網站檢測,網站可以檢測用戶是否打開了F12,干擾開發者接下來的調試。
  2. 數據自動清空,瀏覽器為了減少資源信息的緩存,當一個資源被二次請求時,第一次的響應信息將會被清空。

17

因此在爬蟲開發中,會用到更為強大的抓包工具。

Fiddler的安裝與使用

下載與安裝

可以在 Fiddler官網 下載Fiddler經典版,下載時需要提交郵箱等資料。

12

安裝過程很簡單,這裡就不做介紹。

證書安裝

安裝完成後在安裝目錄中找到fiddler.exe運行。 如上文所述,Fiddler在使用前需要安裝證書,否則無法抓到HTTPS包。

安裝方法:Tools->Options->HTTPS
13

勾選以上三個選項。點擊Actions-Trust Root Certificate-Yes,信任證書。

14

導出證書到桌面,並打開谷歌瀏覽器-設置-安全-管理設備證書,將導出的證書導入到瀏覽器。

15

面板

16

18

Fiddler內置了許多強大的功能,這裡只介紹基本用法與常用功能。

基本用法:

當我們需要對某個網站進行抓包時,只需要打開Fiddler工具,觀察狀態欄中的Capturing是否存在,存在則代表正在記錄會話。選擇All Processes捕獲所有進程會話。打開網站後,Fiddler會自動的記錄每條會話信息,會話列表中記錄了Fiddler抓到的每條請求數據包,包含:

編號(按請求順序編號)、HOST(請求主機名)、URL、Content-Type(響應數據類型)、Result(響應狀態碼)、Protocol(請求協議)、Body(位元組數)、Caching(可緩存信息)、Process(發起請求的進程)、Comment(註釋)、Custom(備註)。

請求信息欄和響應信息欄中記錄了請求和響應時的詳細信息。

功能:

AutoResponder(響應替換): 通常在逆向開發中,會遇到一些網站的加密演算法代碼是動態變化的或者經過了高度混淆,也可能在某段代碼中對F12進行了檢測,通過各種手段干擾我們對網站進行調試。遇到這種情況,我們就可以使用AutoResponder功能,AutoResponder可以攔截目標請求,將目標請求的響應內容進行修改。利用AutoResponder,我們可以將干擾我們調試的代碼文件進行修改調整,方便之後的調試。

  1. 將想要修改的請求拖入AutoResponder中
  2. 勾選Enable rules -> Add Rule
  3. 點擊Rule Editor框的第二欄,滑倒最下,選擇Find a file,選擇進行替換的文件
  4. Save 保存

保存完成後刷新就可以發現目標請求被替換了。

19

重發: 選中需要重發的請求,點擊工具欄中的Replay即可。

模擬請求: 點擊工具欄中的Composer,輸入目標網址、請求頭,選擇請求方式,點擊Execute即可發起一次模擬請求。

20

Charles的使用

Charles與Fiddler的功能大同小異,但是Fiddler經典版不支持mac,Charles支持全系統,所以Charles算是Fiddler在mac系統中的一個替代品。所以只做簡單介紹。

下載與安裝

Charles官網 下載對應的版本進行安裝。

配置

安裝證書:進入Charles界面,點擊Help -> SLL Proxying -> Install Charles Root Certificate -> 安裝證書 -> 本地電腦 -> 放入受信任的根證書頒發機構存儲 -> 完成

22

設置SSL代理:Proxy -> Proxy Settings -> 勾選如下選項

23

Proxy -> SSL Proxying Settings

24

使用

Charles抓包方式與Fiddler一致,打開目標網站Charles會自動抓取請求,點擊Stop Recording可以停止抓包。

面板

21

Charles面板與Fiddler有些區別,可以看到抓到的數據也詳細一些。Charles有兩種界面模式,可以選擇Sequence,與Fildder比較接近。

功能

Filter 根據關鍵字篩選請求

重發 選擇請求,點擊上方Repeat selected requests進行重發

響應替換 效果與Fildder的AutoResponder一致,右鍵需要進行響應替換的請求,選擇Map Local,在Local path中選擇替換的文件即可。

25

結語

上文中講到了F12開發者工具、Fiddler、Charles這三款工具,正常爬蟲工作中一些抓包需求這三款工具都能很好的解決,但隨著爬蟲的不斷發展,反爬蟲措施也不斷增加。如近年來TLS指紋檢測逐漸被應用到反爬蟲中,在服務端與客戶端建立連接時就可以檢測到客戶端是否是爬蟲程式。通過Fiddler、Charlse這類抓包工具無法看到在建立TCP連接時傳輸了哪些信息,無法得知服務端是否可能檢測了TLS指紋信息,因此需要用到如Wireshark等更為強大的抓包工具,所以爬蟲開發者在提升自身水平的同時也需要掌握更為強大的工具,才能更好的解決問題。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. G1垃圾回收器 1.1. 垃圾優先(garbage first) 1.2. 在堆內離散的區域上進行操作 1.2.1. 預設大約有2048個 1.2.2. 代的區域不需要是連續的 1.2.3. 可能屬於老年代 1.2.3.1. 併發後臺線程尋找沒有被引用的對象時,一些區域會比其他區域有更多的垃圾 ...
  • 01_GoLand debug時出現Connected並且程式卡住的問題 環境:win10、go version go1.19.4 windows/amd64、GoLand 2020.3.5 x64 現象 : 在 debug 模式下運行項目,打上斷點後,可以進入斷點位置,也可以跳轉到下個斷點,但是, ...
  • 編寫程式過程中,我們有時不希望改變某個變數的值。此時就可以使用關鍵字 const 對變數的類型加以限定。 初始化和const 因為const對象一旦創建後其值就不能再改變,所以const對象必須初始化。一如既往,初始值可以是任意複雜的表達式: const int i = get_size();//正 ...
  • yaml 1.yaml介紹 YAML是 "YAML Ain't a Markup Language" (YAML不是一種標記語言)的遞歸縮寫。在開發這種語言時,YAML的意思其實是:"Yet Another Markup Language"(仍是一種標記語言),是為了強調這種語言以數據為中心,而不是 ...
  • Lombok、Spring-Initializer 1.Lombok 1.1Lombok介紹 Lombok的作用是: 簡化Javabean的開發,可以使用Lombok的註解讓代碼更加簡潔 Java項目中,很多沒有技術含量又必須存在的代碼:比如POJO類的getter、setter、toString方 ...
  • 一、前期準備 1、首先需要安裝並配置好本地JDK(WIN+R輸入cmd,輸入java -version如下圖) 2、下載maven到本地(鏈接Maven – Download Apache Maven) 其他歷史版本在這裡找:Index of /maven/maven-3 (apache.org) ...
  • 進入官網 Dcat Admin - Php後臺開發框架 這裡要選擇1.x 下麵來安裝框架 安裝完laravel之後,需要修改.env文件,設置資料庫鏈接設置正確 安裝 dcat-admin composer require dcat/laravel-admin 然後運行下麵的命令來發佈資源: php ...
  • 1.系統簡介 需求:進入系統顯示系統功能界面,功能如下: 1、添加學員 2、刪除學員 3、修改學員信息 4、查詢學員信息 5、顯示所有學員信息 6、退出系統 系統共6個功能,用戶根據自己需求選取。 2.步驟分析 顯示功能界面 用戶輸入功能序號 根據用戶輸入的功能序號,執行不同的功能(函數) 定義函數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...