大數據時代,各行各業對數據採集的需求日益增多,網路爬蟲的運用也更為廣泛,越來越多的人開始學習網路爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。 抓包工具概述 抓包工具,顧名思義,就是抓取網 ...
大數據時代,各行各業對數據採集的需求日益增多,網路爬蟲的運用也更為廣泛,越來越多的人開始學習網路爬蟲這項技術,K哥爬蟲此前已經推出不少爬蟲進階、逆向相關文章,為實現從易到難全方位覆蓋,特設【0基礎學爬蟲】專欄,幫助小白快速入門爬蟲,本期為抓包工具的使用。
抓包工具概述
抓包工具,顧名思義,就是抓取網路數據包信息的工具。抓包工具最初主要應用於測試工作中,通過抓包工具查看網路數據包,併進行分析,來定位數據傳輸中的問題。隨著不斷發展,抓包工具的功能不斷拓展,在網路數據傳輸中能夠將獲取到的數據包進行重發、編輯、替換等操作。作為爬蟲開發者,我們需要模擬用戶的真實請求來獲取數據,所以我們需要瞭解目標網站交互中的數據信息是如何傳輸的,以及詳細的請求信息、傳遞信息、接收信息。因此掌握各抓包工具的使用是一項必備的技能。
常見抓包工具及工作原理
目前流行的抓包工具有很多,這裡只介紹實際開發中最為常見的。
常見的抓包工具可以分為兩種:
1、抓取應用層的HTTP/HTTPS協議包,通過中間人代理截取協議包,如:Fiddler,Charles。
以Fiddler為例,此類抓包工具通過代理某個埠,攔截經過該埠的通信協議,並對傳輸數據進行解析展示,使用也起來非常簡單。對於HTTP請求,數據傳輸都是明文,抓包工具可以直接看到數據報文。但HTTPS請求在HTTP基礎上多了一層SSL/TLS協議,在數據傳輸中採用了雙向加密,對於傳輸中的數據包需要密鑰來進行解密,因此抓包工具即使攔截到了數據包,也無法對數據進行解析。因此Fiddler、Charles在使用前需要安裝證書。
2、抓取傳輸層的TCP/UDP協議,在網卡的鏈路層截取數據包,如:Wireshark。
F12開發者工具
F12開發者工具是在爬蟲開發中最常使用到的工具,它可以被用來查看網頁HTML元素、調試網頁、抓包等。
以谷歌開發者工具為例,打開F12工具可以看到此界面。
工具頂部有一些功能選項,在實際開發中,我們會經常用到以下幾種:
元素(Elements):用來查看、修改HTML元素,修改CSS屬性,查看樣式,監聽事件等
控制台(console):記錄異常信息,執行JS代碼
源代碼(Sources):查看網頁源碼、設置斷點、本地替換、運行JS腳本
網路(Network):監聽請求資源
本次主要介紹網路(Network)面板。
關於網路面板,我們需要知道一些基本的功能按鈕。
從左到右有六個選項:
1. 錄製按鈕: 紅色代表正在錄製網路活動,會持續監聽該網頁的網路活動,灰色代表停止錄製。
2. 清除按鈕: 會將錄製到的網路活動清除。
3. 過濾按鈕: 可以篩選出URL中包含輸入信息的請求,也可以選擇根據請求類型進行篩選。
4. 搜索按鈕: 可以搜索出包含輸入信息的所有請求。
5. 保留日誌: 勾選時,當頁面重新載入時不會清空上一次載入時的請求信息,未勾選時頁面重新載入時會自動清除上一次載入時的請求信息。建議勾選。
6. 停用緩存: 建議勾選。
使用F12抓包
使用開發者工具進行抓包十分簡單,只需要進行簡單的操作。
1、打開F12開發者工具。
2、打開目標網址。
即可完成抓包操作。
請求列表
請求列表裡麵包含了與網站交互中每個請求資源的信息。
點開任意資源,數據信息主要分為5種:
1. 常規信息: 常規信息中記錄了請求網址、請求方法、請求狀態碼,通過常規信息可以瞭解請求是否成功。
2. 響應頭信息: 響應頭信息中記錄了服務端響應的頭信息。
3. 請求頭信息: 請求頭信息中記錄了客戶端發起請求時攜帶的頭信息。
4. 載荷信息: 記錄了請求時提交的數據。
5. 響應信息: 記錄了服務端的響應信息。
F12開發者工具功能很強大,使用起來也非常便捷。但是也存在著很大的弊端:
- 容易被網站檢測,網站可以檢測用戶是否打開了F12,干擾開發者接下來的調試。
- 數據自動清空,瀏覽器為了減少資源信息的緩存,當一個資源被二次請求時,第一次的響應信息將會被清空。
因此在爬蟲開發中,會用到更為強大的抓包工具。
Fiddler的安裝與使用
下載與安裝
可以在 Fiddler官網 下載Fiddler經典版,下載時需要提交郵箱等資料。
安裝過程很簡單,這裡就不做介紹。
證書安裝
安裝完成後在安裝目錄中找到fiddler.exe運行。 如上文所述,Fiddler在使用前需要安裝證書,否則無法抓到HTTPS包。
安裝方法:Tools->Options->HTTPS
勾選以上三個選項。點擊Actions-Trust Root Certificate-Yes,信任證書。
導出證書到桌面,並打開谷歌瀏覽器-設置-安全-管理設備證書,將導出的證書導入到瀏覽器。
面板
Fiddler內置了許多強大的功能,這裡只介紹基本用法與常用功能。
基本用法:
當我們需要對某個網站進行抓包時,只需要打開Fiddler工具,觀察狀態欄中的Capturing是否存在,存在則代表正在記錄會話。選擇All Processes捕獲所有進程會話。打開網站後,Fiddler會自動的記錄每條會話信息,會話列表中記錄了Fiddler抓到的每條請求數據包,包含:
編號(按請求順序編號)、HOST(請求主機名)、URL、Content-Type(響應數據類型)、Result(響應狀態碼)、Protocol(請求協議)、Body(位元組數)、Caching(可緩存信息)、Process(發起請求的進程)、Comment(註釋)、Custom(備註)。
請求信息欄和響應信息欄中記錄了請求和響應時的詳細信息。
功能:
AutoResponder(響應替換): 通常在逆向開發中,會遇到一些網站的加密演算法代碼是動態變化的或者經過了高度混淆,也可能在某段代碼中對F12進行了檢測,通過各種手段干擾我們對網站進行調試。遇到這種情況,我們就可以使用AutoResponder功能,AutoResponder可以攔截目標請求,將目標請求的響應內容進行修改。利用AutoResponder,我們可以將干擾我們調試的代碼文件進行修改調整,方便之後的調試。
- 將想要修改的請求拖入AutoResponder中
- 勾選Enable rules -> Add Rule
- 點擊Rule Editor框的第二欄,滑倒最下,選擇Find a file,選擇進行替換的文件
- Save 保存
保存完成後刷新就可以發現目標請求被替換了。
重發: 選中需要重發的請求,點擊工具欄中的Replay即可。
模擬請求: 點擊工具欄中的Composer,輸入目標網址、請求頭,選擇請求方式,點擊Execute即可發起一次模擬請求。
Charles的使用
Charles與Fiddler的功能大同小異,但是Fiddler經典版不支持mac,Charles支持全系統,所以Charles算是Fiddler在mac系統中的一個替代品。所以只做簡單介紹。
下載與安裝
在Charles官網 下載對應的版本進行安裝。
配置
安裝證書:進入Charles界面,點擊Help -> SLL Proxying -> Install Charles Root Certificate -> 安裝證書 -> 本地電腦 -> 放入受信任的根證書頒發機構存儲 -> 完成
設置SSL代理:Proxy -> Proxy Settings -> 勾選如下選項
Proxy -> SSL Proxying Settings
使用
Charles抓包方式與Fiddler一致,打開目標網站Charles會自動抓取請求,點擊Stop Recording可以停止抓包。
面板
Charles面板與Fiddler有些區別,可以看到抓到的數據也詳細一些。Charles有兩種界面模式,可以選擇Sequence,與Fildder比較接近。
功能
Filter 根據關鍵字篩選請求
重發 選擇請求,點擊上方Repeat selected requests進行重發
響應替換 效果與Fildder的AutoResponder一致,右鍵需要進行響應替換的請求,選擇Map Local,在Local path中選擇替換的文件即可。
結語
上文中講到了F12開發者工具、Fiddler、Charles這三款工具,正常爬蟲工作中一些抓包需求這三款工具都能很好的解決,但隨著爬蟲的不斷發展,反爬蟲措施也不斷增加。如近年來TLS指紋檢測逐漸被應用到反爬蟲中,在服務端與客戶端建立連接時就可以檢測到客戶端是否是爬蟲程式。通過Fiddler、Charlse這類抓包工具無法看到在建立TCP連接時傳輸了哪些信息,無法得知服務端是否可能檢測了TLS指紋信息,因此需要用到如Wireshark等更為強大的抓包工具,所以爬蟲開發者在提升自身水平的同時也需要掌握更為強大的工具,才能更好的解決問題。