【爬蟲實例3】非同步爬取大量數據

-Advertisement-

1、導入模塊 import requests import csv from concurrent.futures import ThreadPoolExecutor 2、先獲取第一個頁面的內容分析得到該頁面的數據是從getPriceData.html頁面獲取,並保存在csv文件中得到url地址 ...

1、導入模塊

import requests
import csv
from concurrent.futures import ThreadPoolExecutor

2、先獲取第一個頁面的內容

分析得到該頁面的數據是從getPriceData.html頁面獲取,並保存在csv文件中

得到url地址後,提取第一個頁面內容

def download(url, num):
    resp = requests.post(url).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
   


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    download(url)
    print('success')

** 此為第一個頁面信息提取:**

3、獲取更多的信息

分析頁面數據顯示規律,請求地址時頁面攜帶頁碼和需要顯示數據的條數,一共17362頁,每頁20條數據

設置100個線程提取17362頁數據,同時每次請求時傳入頁碼

def download(url, num):
    data = {
        "limit": 20,
        "current": num
    }
    resp = requests.post(url, data=data).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
    print(f'{num}頁提取完成')


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    # 設置100個線程
    with ThreadPoolExecutor(100) as t:
        for i in range(1, 17363):
            t.submit(download(url, i))
    print('success')

4、完整代碼

# 1、提取單頁面

import requests
import csv
from concurrent.futures import ThreadPoolExecutor

f = open("data.csv", mode="w", encoding="utf-8")
csvwrite = csv.writer(f)


def download(url, num):
    data = {
        "limit": 20,
        "current": num
    }
    resp = requests.post(url, data=data).json()
    for i in resp['list']:
        temp = [i['prodName'], i['lowPrice'], i['highPrice'], i['avgPrice'], i['place'], i['unitInfo'], i['pubDate']]
        csvwrite.writerow(temp)
    print(f'{num}頁提取完成')


if __name__ == "__main__":
    url = 'http://www.xinfadi.com.cn/getPriceData.html'
    # 設置100個線程
    with ThreadPoolExecutor(100) as t:
        for i in range(1, 17363):
            t.submit(download(url, i))
    print('success')

以下為第1頁~第199頁數據:

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

SwitchResX Mac(mac屏幕解析度調整工具)

mac屏幕解析度如何調整？switchresx mac版可以為您提供控制顯示器解析度所需的工具和功能。您可以管理從MacBook Retina顯示器和Cinema Displays到電視機和投影儀的任何解析度。而且switchresx應用程式能夠根據您當前使用的應用程式自動更改Mac的顯示或顯示分辨 ...
Hive存儲格式之RCFile詳解，RCFile的過去現在和未來

我在整理Hive的存儲格式和壓縮格式，本來打算一篇發出來，結果其中一小節就有很多內容，於是打算寫成Hive存儲格式和壓縮格式系列。本節主要講一下Hive存儲格式最早的典型的列式存儲格式RCFile。綜述 RCFile（Record Columnar File）文件格式是FaceBook開源的一種 ...
JavaScript快速入門-01-環境搭建

1 環境搭建搭建JavaScript開發環境有很多種組合，本文中採用Visual Studio Code和Node.js的組合，詳細如下所示： 1.1 Node.js環境搭建 1.1.1 下載Node.js 不管是基於Windows還是Linux，都需要下載相應的安裝包，到Node.js官網根據系 ...
前端須知的 Cookie 知識

文章已收錄到我的 GitHub 中，歡迎 star cookie 是什麼和使用場景 cookie 是伺服器端保存在瀏覽器的一小段文本信息，瀏覽器每次向伺服器端發出請求，都會附帶上這段信息（不是所有都帶上，具體的下文會介紹）。使用場景：對話管理：保存登錄、購物車等需要記錄的信息個性化：保存用戶的 ...
解決使用 Eruda 綁定 dom 未在指定位置顯示問題

前言開發項目中，使用到 Eruda 列印控制台信息顯示文檔：https://github.com/liriliri/eruda 安裝 Eruda npm install eruda --save 引入 import eruda from "eruda"; 常使用方法顯示 eruda.show( ...
IOS OpenGL ES GPUImage 色彩減淡混合 GPUImageColorDodgeBlendFilter

目錄一.簡介二.效果演示三.源碼下載四.猜你喜歡零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場零基礎 O ...
《Effective Java》第54條：返回零長度的數組或者集合，而不是null

1.什麼是自定義分頁器當我們需要在前端頁面展示的數據太多的時候，我們總不能將數據展示在一頁上面吧！這時，我們就需要自定義一個分頁器，將數據分成特定的頁數進行展示，每一頁展示固定條數的數據！ 2.為什麼要用自定義分頁器如上所說：為了將數據分成多頁進行展示，分別閱讀，方便查詢！ 3.如何使用自定義分 ...
Django-rest-framework開發api介面

django-rest-framework開發api介面 (1) 創建django項目drfdemo1並且創建一個名為app的應用 django-admin startproject drfdemo1 python manage.py startapp app (2) 安裝django-rest-f ...