Python爬蟲入門教程 29-100 手機APP數據抓取 pyspider

来源:https://www.cnblogs.com/happymeng/archive/2019/01/23/10307026.html
-Advertisement-
Play Games

1. 手機APP數據 寫在前面 繼續練習pyspider的使用,最近搜索了一些這個框架的一些使用技巧,發現文檔竟然挺難理解的,不過使用起來暫時沒有障礙,估摸著,要在寫個5篇左右關於這個框架的教程。今天教程中增加了圖片的處理,你可以重點學習一下。 2. 手機APP數據 頁面分析 咱要爬取的網站是 這個 ...


1. 手機APP數據----寫在前面

繼續練習pyspider的使用,最近搜索了一些這個框架的一些使用技巧,發現文檔竟然挺難理解的,不過使用起來暫時沒有障礙,估摸著,要在寫個5篇左右關於這個框架的教程。今天教程中增加了圖片的處理,你可以重點學習一下。

2. 手機APP數據----頁面分析

咱要爬取的網站是 http://www.liqucn.com/rj/new/ 這個網站我看了一下,有大概20000頁,每頁數據是9個,數據量大概在180000左右,可以抓取下來,後面做數據分析使用,也可以練習優化資料庫。

在這裡插入圖片描述

網站基本沒有反爬措施,上去爬就可以,略微控制一下併發,畢竟不要給別人伺服器太大的壓力。

頁面經過分析之後,可以看到它是基於URL進行的分頁,這就簡單了,我們先通過首頁獲取總頁碼,然後批量生成所有頁碼即可

http://www.liqucn.com/rj/new/?page=1
http://www.liqucn.com/rj/new/?page=2
http://www.liqucn.com/rj/new/?page=3
http://www.liqucn.com/rj/new/?page=4

獲取總頁碼的代碼

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://www.liqucn.com/rj/new/?page=1', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        # 獲取最後一頁的頁碼
        totle = int(response.doc(".current").text())
        for page in range(1,totle+1):
            self.crawl('http://www.liqucn.com/rj/new/?page={}'.format(page), callback=self.detail_page)

然後copy一段官方中文翻譯,過來,時刻提醒自己

代碼簡單分析:

def on_start(self) 方法是入口代碼。當在web控制台點擊run按鈕時會執行此方法。

self.crawl(url, callback=self.index_page)這個方法是調用API生成一個新的爬取任務,
            這個任務被添加到待抓取隊列。
def index_page(self, response) 這個方法獲取一個Response對象。 
            response.doc是pyquery對象的一個擴展方法。pyquery是一個類似於jQuery的對象選擇器。

def detail_page(self, response)返回一個結果集對象。
            這個結果預設會被添加到resultdb資料庫(如果啟動時沒有指定資料庫預設調用sqlite資料庫)。你也可以重寫
            on_result(self,result)方法來指定保存位置。

更多知識:
@every(minutes=24*60, seconds=0) 這個設置是告訴scheduler(調度器)on_start方法每天執行一次。
@config(age=10 * 24 * 60 * 60) 這個設置告訴scheduler(調度器)這個request(請求)過期時間是10天,
    10天內再遇到這個請求直接忽略。這個參數也可以在self.crawl(url, age=10*24*60*60) 和 crawl_config中設置。
@config(priority=2) 這個是優先順序設置。數字越大越先執行。

分頁數據已經添加到待爬取隊列中去了,下麵開始分析爬取到的數據,這個在detail_page函數實現

    @config(priority=2)
    def detail_page(self, response):
        docs = response.doc(".tip_blist li").items()
        dicts = []
        for item in docs:
            title = item(".tip_list>span>a").text()
            pubdate = item(".tip_list>i:eq(0)").text()
            info = item(".tip_list>i:eq(1)").text()
            # 手機類型
            category = info.split(":")[1]
            size = info.split("/")
            if len(size) == 2:
                size = size[1]
            else:
                size = "0MB"
            app_type = item("p").text()
            mobile_type = item("h3>a").text()
            # 保存數據
            
            # 建立圖片下載渠道
            
            img_url = item(".tip_list>a>img").attr("src")
            # 獲取文件名字
            filename = img_url[img_url.rindex("/")+1:]
            # 添加軟體logo圖片下載地址
            self.crawl(img_url,callback=self.save_img,save={"filename":filename},validate_cert=False)
            dicts.append({
                "title":title,
                "pubdate":pubdate,
                "category":category,
                "size":size,
                "app_type":app_type,
                "mobile_type":mobile_type
                
                })
        return dicts

數據已經集中返回,我們重寫on_result來保存數據到mongodb中,在編寫以前,先把鏈接mongodb的相關內容編寫完畢

import os

import pymongo
import pandas as pd
import numpy as np
import time
import json

DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.liqu  # 準備插入數據

數據存儲

    def on_result(self,result):
        if result:
            self.save_to_mongo(result)            
 
    def save_to_mongo(self,result):
        df = pd.DataFrame(result)
        #print(df)
        content = json.loads(df.T.to_json()).values()
        if collection.insert_many(content):
            print('存儲到 mongondb 成功')

獲取到的數據,如下表所示。到此為止,咱已經完成大部分的工作了,最後把圖片下載完善一下,就收工啦!

在這裡插入圖片描述

3. 手機APP數據----圖片存儲

圖片下載,其實就是保存網路圖片到一個地址即可

    def save_img(self,response):
        content = response.content
        file_name = response.save["filename"]
        #創建文件夾(如果不存在)
        if not os.path.exists(DIR_PATH):                         
            os.makedirs(DIR_PATH) 
            
        file_path = DIR_PATH + "/" + file_name
        
        with open(file_path,"wb" ) as f:
            f.write(content)

到此為止,任務完成,保存之後,調整爬蟲的抓取速度,點擊run,數據跑起來~~~~



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 首先,ES6 的 class 屬於一種“語法糖”,所以只是寫法更加優雅,更加像面對對象的編程,其思想和 ES5 是一致的。 function Point(x, y) { this.x = x; this.y = y; } Point.prototype.toString = function() { ...
  • if (window.performance) { console.info("window.performance is supported"); console.log(performance.navigation.type) } ...
  • 一、 主要知識點:html佈局,css變換,js事件觸發 二.CSS屬性記憶: CSS規則:子元素會繼承父元素的佈局屬性。不專本改變子元素的屬性,其會跟隨父元素。 功能 語句 margin 外邊距 Padding 內邊距 關於文本的水平居中為: text-align: center; 關於文本的垂直 ...
  • 1. 博客皮膚選擇 SimpleMemory 因為簡單,所以愛~ 2. 在”頁面定製CSS代碼“中填入以下內容 重要提示:側邊欄藍色風格,有的模塊可能遺漏,需要請自行在CSS樣式中的“側邊欄”加上對應DIV的id或者class 3. 在“首頁Html代碼”中填入以下內容: 說明:此樣式非首創,收集了 ...
  • 作為普通的網民來說,一般不需要知道也不用關心什麼是盜鏈,不過如果你是網站的開發者或維護者,就不得不重視盜鏈的問題了。如果你剛剛開發完一個沒有防盜鏈的帶有文件下載功能的網站,掛上internet,然後上傳幾個時下非常熱門的軟體或電影併在網站內公佈下載地址,讓MSN上的所有好友都來體驗一下你的傑作。 不 ...
  • 參考:https://www.cnblogs.com/lewis0077/p/5133812.html(深入解析策略模式) 參考:https://www.cnblogs.com/lewis0077/p/5133812.html(深入解析策略模式) 定義: 策略模式定義了一系列的演算法,並將每一個演算法封 ...
  • 前言 在上一篇中我們學習了結構型模式的組合模式和過濾器模式。本篇則來學習下結構型模式最後的兩個模式, 享元模式和代理模式。 享元模式 簡介 享元模式主要用於減少創建對象的數量,以減少記憶體占用和提高性能。這種類型的設計模式屬於結構型模式,它提供了減少對象數量從而改善應用所需的對象結構的方式。 用通俗的 ...
  • 基本語法 1.Grovvy的註釋分為//和/**/和java的一樣. 2.Grovvy語法可以不已分號結尾. 3.單引號,裡面的內容嚴格的對應java中的String,不對$符號進行轉義. 4.雙引號“ ”的內容中如果有$號的話,會先對錶達式先求值. 5.三個引號中的字元串支持隨意的換行. 定義變數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...