Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分

来源:https://www.cnblogs.com/happymeng/archive/2019/03/12/10514435.html
-Advertisement-
Play Games

1. 爬取前的分析 是mitmproxy的命令行介面,比Fiddler、Charles等工具方便的地方是它可以對接Python腳本。 有了它我們可以不用手動截獲和分析HTTP請求和響應,只需寫好 請求和響應 的處理邏輯即可。 它還可以實現數據的解析、存儲等工作,這些過程都可以通過Python實現。 ...


1. 爬取前的分析

mitmdump是mitmproxy的命令行介面,比Fiddler、Charles等工具方便的地方是它可以對接Python腳本。
有了它我們可以不用手動截獲和分析HTTP請求和響應,只需寫好請求和響應的處理邏輯即可。
它還可以實現數據的解析、存儲等工作,這些過程都可以通過Python實現。

1.1 啟動mitmdump 保存到文件

使用命令

mitmdump -w crawl.txt  

其中 crawl.txt 可以為任意文件名,就可以保存相應的結果了

1.2 調用腳本文件

mitmdump -s script.py

script.py 文件中編寫如下代碼

# 修改UA
def request(flow):
    flow.request.headers['User-Agent'] = 'MitmProxy'
    print(flow.request.headers)

在夜神模擬器中打開http://httpbin.org/get
出現如下內容
python爬蟲入門教程
出現上述內容比較你已經可以對網頁request進行修改了,下麵打開手機惠農APP,看一下如何去捕獲相應的請求

2. 捕獲手機惠農APP請求

這個地方千萬不要單獨依賴mitmdump,要不你會直接卡死的,你可以採用mitmweb,打開APP之後,等待一會,點擊一個菜單進入。比如點擊下麵的供應大廳。
python爬蟲入門教程
之後在mitmweb中捕獲到列表頁的數據連接,保存地址 https://truffle.cnhnb.com/banana/supply/query/list 方便進行後續的操作。
python爬蟲入門教程

3. 完善script腳本

腳本主要有兩部分構成,數據獲取與數據存儲,數據獲取要註意,當訪問的url匹配到剛纔的地址的時候,就表示可以進行處理了

from mitmproxy import ctx
import json
import pymongo
# def request(flow):
#     #flow.request.headers['User-Agent'] = 'MitmProxy'
#     print(flow.request.headers)

def response(flow):
    start_url = "https://truffle.cnhnb.com/banana/supply/query/list"
    response = flow.response
    info = ctx.log.info
    if flow.request.url.startswith(start_url):
        text = response.text
        
        data = json.loads(text)
        save(data)

def save(data):
    DATABASE_IP = '127.0.0.1'
    DATABASE_PORT = 27017
    DATABASE_NAME = 'sun'
    client = pymongo.MongoClient(DATABASE_IP, DATABASE_PORT)
    db = client.sun
    db.authenticate("dba", "dba")
    collection = db.huinong  # 準備插入數據
    print(data["data"]["datas"])
    collection.insert_many(data["data"]["datas"])

實現的效果

註意,現在還沒有設置手機自動操作,所以操作是我手動滑動的。左側數據已經成功的捕獲到了。在這裡插入圖片描述
python爬蟲入門教程

4. 入庫效果

數據存儲到mongodb中,在處理就比較簡單了
python爬蟲入門教程

5. 其他說明

mitmdump提供了專門的日誌輸出功能,可以設定不同級別以不同顏色輸出結果。
ctx模塊有log功能,調用不同的輸出方法就可以輸出不同顏色的結果,以方便我們做調試。

ctx.log.warn(str(flow.request.query))
ctx.log.error(str(flow.request.headers))

更多的腳本例子,可以去參考。

https://github.com/mitmproxy/mitmproxy/tree/master/examples/simple

後續,我們將嘗試將剛纔的手動滑動修改成自動操作......

python爬蟲入門教程


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 獲取繪圖上下文 var mycanvas = document.getElementById('mycanvas'); var context = mycanvas.getContext('2d'); 2. 繪圖函數 註:x = positionX y= position Y w = widt ...
  • input函數 input()是從控制台獲取用戶輸入的信息,不論用戶輸入的是什麼,input()都會返回字元串類型。 <變數> = input(<提示性文字>) a = input("請輸入你的年齡:") print(type(a)) Run and output! 請輸入你的年齡:25 <clas ...
  • 官網:www.fhadmin.org 工作流模塊 1.模型管理 :web線上流程設計器、預覽流程xml、導出xml、部署流程 2.流程管理 :導入導出流程資源文件、查看流程圖、根據流程實例反射出流程模型、激活掛起 3.運行中流程:查看流程信息、當前任務節點、當前流程圖、作廢暫停流程、指派待辦人 4. ...
  • "中文編程"知乎專欄 "原文地址" 參考了周蟒的實現, 運行效果如下: 完整源碼在: "解釋器.py" 相關源碼如下, 即改寫 方法. 僅為演示之用, 直接用了字元串替換.: 定製 貌似更為合適, 還需研究如何實現. 參考資料 "周蟒 zhpy" ...
  • // ConsoleApplication1.cpp : 定義控制台應用程式的入口點。// #include "stdafx.h"#include "iostream" using namespace std; const short int max_Section= 20;const short ...
  • 1.哪個是True,哪個是False? 這裡要看三組代碼: # 第一組: >>>a=256 >>>b = 256 >>>a is b # 第二組: >>>a = 257 >>>b = 257 >>>a is b # 第三組: >>>a = 256, b = 256 >>>a is b 問題來了,這三 ...
  • 最近項目需要將批量鏈接中的pdf文檔爬下來處理,根據以下步驟完成了任務: 參考資料: https://blog.csdn.net/zhrq95/article/details/79300411 https://blog.csdn.net/yllifesong/article/details/8104 ...
  • CentOS的配置: 1.給CentOS安裝Zookeeper: 網路配置成僅主機 上傳tar.gz:比如用FTP tar -xvzf ... cd zookeeper mkdir data cd conf mv zoo_sample.cfg zoo.cfg vi zoo.cfg 修改這一行: da ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...