【0基礎學爬蟲】爬蟲基礎之抓包工具的使用

来源:https://www.cnblogs.com/ikdl/archive/2023/03/16/17223060.html
-Advertisement-
Play Games

大數據時代,各行各業對數據採集的需求日益增多,網路爬蟲的運用也更為廣泛,越來越多的人開始學習網路爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。 抓包工具概述 抓包工具,顧名思義,就是抓取網 ...


0

大數據時代,各行各業對數據採集的需求日益增多,網路爬蟲的運用也更為廣泛,越來越多的人開始學習網路爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。

抓包工具概述

抓包工具,顧名思義,就是抓取網路數據包信息的工具。抓包工具最初主要應用於測試工作中,通過抓包工具查看網路數據包,併進行分析,來定位數據傳輸中的問題。隨著不斷發展,抓包工具的功能不斷拓展,在網路數據傳輸中能夠將獲取到的數據包進行重發、編輯、替換等操作。作為爬蟲開發者,我們需要模擬用戶的真實請求來獲取數據,所以我們需要瞭解目標網站交互中的數據信息是如何傳輸的,以及詳細的請求信息、傳遞信息、接收信息。因此掌握各抓包工具的使用是一項必備的技能。

常見抓包工具及工作原理

目前流行的抓包工具有很多,這裡只介紹實際開發中最為常見的。
常見的抓包工具可以分為兩種:

1、抓取應用層的HTTP/HTTPS協議包,通過中間人代理截取協議包,如:Fiddler,Charles。

1

以Fiddler為例,此類抓包工具通過代理某個埠,攔截經過該埠的通信協議,並對傳輸數據進行解析展示,使用也起來非常簡單。對於HTTP請求,數據傳輸都是明文,抓包工具可以直接看到數據報文。但HTTPS請求在HTTP基礎上多了一層SSL/TLS協議,在數據傳輸中採用了雙向加密,對於傳輸中的數據包需要密鑰來進行解密,因此抓包工具即使攔截到了數據包,也無法對數據進行解析。因此Fiddler、Charles在使用前需要安裝證書。

2

2、抓取傳輸層的TCP/UDP協議,在網卡的鏈路層截取數據包,如:Wireshark。

3

F12開發者工具

F12開發者工具是在爬蟲開發中最常使用到的工具,它可以被用來查看網頁HTML元素、調試網頁、抓包等。

以谷歌開發者工具為例,打開F12工具可以看到此界面。

4

工具頂部有一些功能選項,在實際開發中,我們會經常用到以下幾種:

元素(Elements):用來查看、修改HTML元素,修改CSS屬性,查看樣式,監聽事件等

控制台(console):記錄異常信息,執行JS代碼

源代碼(Sources):查看網頁源碼、設置斷點、本地替換、運行JS腳本

網路(Network):監聽請求資源

本次主要介紹網路(Network)面板。

6

關於網路面板,我們需要知道一些基本的功能按鈕。

5

從左到右有六個選項:

1. 錄製按鈕: 紅色代表正在錄製網路活動,會持續監聽該網頁的網路活動,灰色代表停止錄製。

2. 清除按鈕: 會將錄製到的網路活動清除。

3. 過濾按鈕: 可以篩選出URL中包含輸入信息的請求,也可以選擇根據請求類型進行篩選。

4. 搜索按鈕: 可以搜索出包含輸入信息的所有請求。

5. 保留日誌: 勾選時,當頁面重新載入時不會清空上一次載入時的請求信息,未勾選時頁面重新載入時會自動清除上一次載入時的請求信息。建議勾選。

6. 停用緩存: 建議勾選。

使用F12抓包

使用開發者工具進行抓包十分簡單,只需要進行簡單的操作。

1、打開F12開發者工具。

2、打開目標網址。

即可完成抓包操作。

請求列表

請求列表裡麵包含了與網站交互中每個請求資源的信息。

點開任意資源,數據信息主要分為5種:

1. 常規信息: 常規信息中記錄了請求網址、請求方法、請求狀態碼,通過常規信息可以瞭解請求是否成功。

7

2. 響應頭信息: 響應頭信息中記錄了服務端響應的頭信息。

8

3. 請求頭信息: 請求頭信息中記錄了客戶端發起請求時攜帶的頭信息。

9

4. 載荷信息: 記錄了請求時提交的數據。

10

5. 響應信息: 記錄了服務端的響應信息。

11

F12開發者工具功能很強大,使用起來也非常便捷。但是也存在著很大的弊端:

  1. 容易被網站檢測,網站可以檢測用戶是否打開了F12,干擾開發者接下來的調試。
  2. 數據自動清空,瀏覽器為了減少資源信息的緩存,當一個資源被二次請求時,第一次的響應信息將會被清空。

17

因此在爬蟲開發中,會用到更為強大的抓包工具。

Fiddler的安裝與使用

下載與安裝

可以在 Fiddler官網 下載Fiddler經典版,下載時需要提交郵箱等資料。

12

安裝過程很簡單,這裡就不做介紹。

證書安裝

安裝完成後在安裝目錄中找到fiddler.exe運行。 如上文所述,Fiddler在使用前需要安裝證書,否則無法抓到HTTPS包。

安裝方法:Tools->Options->HTTPS
13

勾選以上三個選項。點擊Actions-Trust Root Certificate-Yes,信任證書。

14

導出證書到桌面,並打開谷歌瀏覽器-設置-安全-管理設備證書,將導出的證書導入到瀏覽器。

15

面板

16

18

Fiddler內置了許多強大的功能,這裡只介紹基本用法與常用功能。

基本用法:

當我們需要對某個網站進行抓包時,只需要打開Fiddler工具,觀察狀態欄中的Capturing是否存在,存在則代表正在記錄會話。選擇All Processes捕獲所有進程會話。打開網站後,Fiddler會自動的記錄每條會話信息,會話列表中記錄了Fiddler抓到的每條請求數據包,包含:

編號(按請求順序編號)、HOST(請求主機名)、URL、Content-Type(響應數據類型)、Result(響應狀態碼)、Protocol(請求協議)、Body(位元組數)、Caching(可緩存信息)、Process(發起請求的進程)、Comment(註釋)、Custom(備註)。

請求信息欄和響應信息欄中記錄了請求和響應時的詳細信息。

功能:

AutoResponder(響應替換): 通常在逆向開發中,會遇到一些網站的加密演算法代碼是動態變化的或者經過了高度混淆,也可能在某段代碼中對F12進行了檢測,通過各種手段干擾我們對網站進行調試。遇到這種情況,我們就可以使用AutoResponder功能,AutoResponder可以攔截目標請求,將目標請求的響應內容進行修改。利用AutoResponder,我們可以將干擾我們調試的代碼文件進行修改調整,方便之後的調試。

  1. 將想要修改的請求拖入AutoResponder中
  2. 勾選Enable rules -> Add Rule
  3. 點擊Rule Editor框的第二欄,滑倒最下,選擇Find a file,選擇進行替換的文件
  4. Save 保存

保存完成後刷新就可以發現目標請求被替換了。

19

重發: 選中需要重發的請求,點擊工具欄中的Replay即可。

模擬請求: 點擊工具欄中的Composer,輸入目標網址、請求頭,選擇請求方式,點擊Execute即可發起一次模擬請求。

20

Charles的使用

Charles與Fiddler的功能大同小異,但是Fiddler經典版不支持mac,Charles支持全系統,所以Charles算是Fiddler在mac系統中的一個替代品。所以只做簡單介紹。

下載與安裝

Charles官網 下載對應的版本進行安裝。

配置

安裝證書:進入Charles界面,點擊Help -> SLL Proxying -> Install Charles Root Certificate -> 安裝證書 -> 本地電腦 -> 放入受信任的根證書頒發機構存儲 -> 完成

22

設置SSL代理:Proxy -> Proxy Settings -> 勾選如下選項

23

Proxy -> SSL Proxying Settings

24

使用

Charles抓包方式與Fiddler一致,打開目標網站Charles會自動抓取請求,點擊Stop Recording可以停止抓包。

面板

21

Charles面板與Fiddler有些區別,可以看到抓到的數據也詳細一些。Charles有兩種界面模式,可以選擇Sequence,與Fildder比較接近。

功能

Filter 根據關鍵字篩選請求

重發 選擇請求,點擊上方Repeat selected requests進行重發

響應替換 效果與Fildder的AutoResponder一致,右鍵需要進行響應替換的請求,選擇Map Local,在Local path中選擇替換的文件即可。

25

結語

上文中講到了F12開發者工具、Fiddler、Charles這三款工具,正常爬蟲工作中一些抓包需求這三款工具都能很好的解決,但隨著爬蟲的不斷發展,反爬蟲措施也不斷增加。如近年來TLS指紋檢測逐漸被應用到反爬蟲中,在服務端與客戶端建立連接時就可以檢測到客戶端是否是爬蟲程式。通過Fiddler、Charlse這類抓包工具無法看到在建立TCP連接時傳輸了哪些信息,無法得知服務端是否可能檢測了TLS指紋信息,因此需要用到如Wireshark等更為強大的抓包工具,所以爬蟲開發者在提升自身水平的同時也需要掌握更為強大的工具,才能更好的解決問題。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. G1垃圾回收器 1.1. 垃圾優先(garbage first) 1.2. 在堆內離散的區域上進行操作 1.2.1. 預設大約有2048個 1.2.2. 代的區域不需要是連續的 1.2.3. 可能屬於老年代 1.2.3.1. 併發後臺線程尋找沒有被引用的對象時,一些區域會比其他區域有更多的垃圾 ...
  • 01_GoLand debug時出現Connected並且程式卡住的問題 環境:win10、go version go1.19.4 windows/amd64、GoLand 2020.3.5 x64 現象 : 在 debug 模式下運行項目,打上斷點後,可以進入斷點位置,也可以跳轉到下個斷點,但是, ...
  • 編寫程式過程中,我們有時不希望改變某個變數的值。此時就可以使用關鍵字 const 對變數的類型加以限定。 初始化和const 因為const對象一旦創建後其值就不能再改變,所以const對象必須初始化。一如既往,初始值可以是任意複雜的表達式: const int i = get_size();//正 ...
  • yaml 1.yaml介紹 YAML是 "YAML Ain't a Markup Language" (YAML不是一種標記語言)的遞歸縮寫。在開發這種語言時,YAML的意思其實是:"Yet Another Markup Language"(仍是一種標記語言),是為了強調這種語言以數據為中心,而不是 ...
  • Lombok、Spring-Initializer 1.Lombok 1.1Lombok介紹 Lombok的作用是: 簡化Javabean的開發,可以使用Lombok的註解讓代碼更加簡潔 Java項目中,很多沒有技術含量又必須存在的代碼:比如POJO類的getter、setter、toString方 ...
  • 一、前期準備 1、首先需要安裝並配置好本地JDK(WIN+R輸入cmd,輸入java -version如下圖) 2、下載maven到本地(鏈接Maven – Download Apache Maven) 其他歷史版本在這裡找:Index of /maven/maven-3 (apache.org) ...
  • 進入官網 Dcat Admin - Php後臺開發框架 這裡要選擇1.x 下麵來安裝框架 安裝完laravel之後,需要修改.env文件,設置資料庫鏈接設置正確 安裝 dcat-admin composer require dcat/laravel-admin 然後運行下麵的命令來發佈資源: php ...
  • 1.系統簡介 需求:進入系統顯示系統功能界面,功能如下: 1、添加學員 2、刪除學員 3、修改學員信息 4、查詢學員信息 5、顯示所有學員信息 6、退出系統 系統共6個功能,用戶根據自己需求選取。 2.步驟分析 顯示功能界面 用戶輸入功能序號 根據用戶輸入的功能序號,執行不同的功能(函數) 定義函數 ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...