Python爬蟲入門教程 48-100 使用mitmdump抓取手機惠農APP-手機APP爬蟲部分

-Advertisement-

1. 爬取前的分析是mitmproxy的命令行介面，比Fiddler、Charles等工具方便的地方是它可以對接Python腳本。有了它我們可以不用手動截獲和分析HTTP請求和響應，只需寫好請求和響應的處理邏輯即可。它還可以實現數據的解析、存儲等工作，這些過程都可以通過Python實現。 ...

1. 爬取前的分析

mitmdump是mitmproxy的命令行介面，比Fiddler、Charles等工具方便的地方是它可以對接Python腳本。
有了它我們可以不用手動截獲和分析HTTP請求和響應，只需寫好請求和響應的處理邏輯即可。
它還可以實現數據的解析、存儲等工作，這些過程都可以通過Python實現。

1.1 啟動mitmdump 保存到文件

使用命令

mitmdump -w crawl.txt

其中 crawl.txt 可以為任意文件名，就可以保存相應的結果了

1.2 調用腳本文件

mitmdump -s script.py

script.py 文件中編寫如下代碼

# 修改UA
def request(flow):
    flow.request.headers['User-Agent'] = 'MitmProxy'
    print(flow.request.headers)

在夜神模擬器中打開http://httpbin.org/get
出現如下內容
python爬蟲入門教程
出現上述內容比較你已經可以對網頁request進行修改了，下麵打開手機惠農APP，看一下如何去捕獲相應的請求

2. 捕獲手機惠農APP請求

這個地方千萬不要單獨依賴mitmdump，要不你會直接卡死的，你可以採用mitmweb，打開APP之後，等待一會，點擊一個菜單進入。比如點擊下麵的供應大廳。
python爬蟲入門教程
之後在mitmweb中捕獲到列表頁的數據連接，保存地址 https://truffle.cnhnb.com/banana/supply/query/list 方便進行後續的操作。

3. 完善script腳本

腳本主要有兩部分構成，數據獲取與數據存儲，數據獲取要註意，當訪問的url匹配到剛纔的地址的時候，就表示可以進行處理了

from mitmproxy import ctx
import json
import pymongo
# def request(flow):
#     #flow.request.headers['User-Agent'] = 'MitmProxy'
#     print(flow.request.headers)

def response(flow):
    start_url = "https://truffle.cnhnb.com/banana/supply/query/list"
    response = flow.response
    info = ctx.log.info
    if flow.request.url.startswith(start_url):
        text = response.text
        
        data = json.loads(text)
        save(data)

def save(data):
    DATABASE_IP = '127.0.0.1'
    DATABASE_PORT = 27017
    DATABASE_NAME = 'sun'
    client = pymongo.MongoClient(DATABASE_IP, DATABASE_PORT)
    db = client.sun
    db.authenticate("dba", "dba")
    collection = db.huinong  # 準備插入數據
    print(data["data"]["datas"])
    collection.insert_many(data["data"]["datas"])

實現的效果

註意，現在還沒有設置手機自動操作，所以操作是我手動滑動的。左側數據已經成功的捕獲到了。在這裡插入圖片描述
python爬蟲入門教程

4. 入庫效果

數據存儲到mongodb中，在處理就比較簡單了
python爬蟲入門教程

5. 其他說明

mitmdump提供了專門的日誌輸出功能，可以設定不同級別以不同顏色輸出結果。
ctx模塊有log功能，調用不同的輸出方法就可以輸出不同顏色的結果，以方便我們做調試。

ctx.log.warn(str(flow.request.query))
ctx.log.error(str(flow.request.headers))

後續，我們將嘗試將剛纔的手動滑動修改成自動操作......

python爬蟲入門教程

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Html5 Canvas介紹

1. 獲取繪圖上下文 var mycanvas = document.getElementById('mycanvas'); var context = mycanvas.getContext('2d'); 2. 繪圖函數註：x = positionX y= position Y w = widt ...
python世界中形影不離的一對情侶！你知道是哪對嗎？

input函數 input()是從控制台獲取用戶輸入的信息，不論用戶輸入的是什麼，input()都會返回字元串類型。 <變數> = input(<提示性文字>) a = input("請輸入你的年齡:") print(type(a)) Run and output! 請輸入你的年齡:25 <clas ...
springboot activiti 整合項目框架源碼 shiro 安全框架 druid 資料庫連接池

官網：www.fhadmin.org 工作流模塊 1.模型管理：web線上流程設計器、預覽流程xml、導出xml、部署流程 2.流程管理：導入導出流程資源文件、查看流程圖、根據流程實例反射出流程模型、激活掛起 3.運行中流程：查看流程信息、當前任務節點、當前流程圖、作廢暫停流程、指派待辦人 4. ...
2019-02-10 擴展Python控制台實現中文反饋信息

"中文編程"知乎專欄 "原文地址" 參考了周蟒的實現, 運行效果如下: 完整源碼在: "解釋器.py" 相關源碼如下, 即改寫方法. 僅為演示之用, 直接用了字元串替換.: 定製貌似更為合適, 還需研究如何實現. 參考資料 "周蟒 zhpy" ...
c++讀取ini的Section節名

// ConsoleApplication1.cpp : 定義控制台應用程式的入口點。// #include "stdafx.h"#include "iostream" using namespace std; const short int max_Section= 20;const short ...
Python中的那些“坑”

1.哪個是True，哪個是False？這裡要看三組代碼： # 第一組： >>>a=256 >>>b = 256 >>>a is b # 第二組： >>>a = 257 >>>b = 257 >>>a is b # 第三組： >>>a = 256, b = 256 >>>a is b 問題來了，這三 ...
python批量爬取文檔

最近項目需要將批量鏈接中的pdf文檔爬下來處理，根據以下步驟完成了任務：參考資料： https://blog.csdn.net/zhrq95/article/details/79300411 https://blog.csdn.net/yllifesong/article/details/8104 ...
配置Zookeeper、Dubbox

CentOS的配置： 1.給CentOS安裝Zookeeper：網路配置成僅主機上傳tar.gz：比如用FTP tar -xvzf ... cd zookeeper mkdir data cd conf mv zoo_sample.cfg zoo.cfg vi zoo.cfg 修改這一行： da ...