Python爬蟲：實現爬取、下載網站數據的幾種方法

-Advertisement-

使用腳本進行下載的需求很常見，可以是常規文件、web頁面、Amazon S3和其他資源。Python 提供了很多模塊從 web 下載文件。下麵介紹一、使用 requests requests 模塊是模仿網頁請求的形式從一個URL下載文件示例代碼： import requests url = 'x ...

使用腳本進行下載的需求很常見，可以是常規文件、web頁面、Amazon S3和其他資源。Python 提供了很多模塊從 web 下載文件。下麵介紹

一、使用 requests

requests 模塊是模仿網頁請求的形式從一個URL下載文件

示例代碼：

import requests

url = 'xxxxxxxx'  # 目標下載鏈接
r = requests.get(url)  # 發送請求
# 保存
with open ('r.txt', 'rb') as f:
    f.write(r.content)
    f.close

二、使用 wget

安裝 wget 庫

pip install wget

示例代碼

import wget

url = 'https://pic.cnblogs.com/avatar/1197773/20170712160655.png'  # 目標路由，下載的資源是圖片
path = 'D:/x.png'  # 保存的路徑
wget.download(url, path)  # 下載

三、下載重定向資源

有些 URL 會被重定向到另一個 URL，後者是真正的下載鏈接。很多軟體的下載其實都是這樣的形式。URL看起來如下

https://readthedocs.org/projects/python-guide/downloads/pdf/latest

重定向的 URL 也可以用 requests 庫進行下載，只需加一個參數就可以

import requests

url = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest'

# allow_redirect參數True表示允許重定向
r = requests.get(url, allow_redirect=True)
with open('r.txt', 'wb') as f:
    f.write(r)
    f.close()

四、大文件分塊下載

有些文件非常的大，如果我們直接下載，可能會因為事件原因或者網路原因造成下載失敗，這時候我可以使用分塊下載的形式進行下載。

requests 支持分塊下載，只需要將 stream 設為True 即可

import requests

url = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest'

# stream參數True表示分塊下載
r = requests.get(url, stream=True)
with open('r.txt', 'wb') as f:
    for ch in r:
        f.write(r)
    f.close()

五、並行下載

多線程、多進程併發下載，大大提高下載速度

import requests
from multiprocessing.poll import Pool

# 定義下載函數
def url_response(url):
    path, url = url
    r = requests.get(url, stream=True)
    with open(path, 'wb') as f:
        for ch in r:
            f.write(ch)
        f.close()

urls = ['aaa', 'bbb', 'ccc']  # 假設有好多個下載鏈接

# 排隊下載的方式
for x in urls:
    url_response(x)

# 並行下載的方式
ThreadPool(3).imap_unordered(url_response, urls)

六、下載中加入進度條

使用進度條更直觀的查看下載進度，這裡使用 clint 模塊實現進度條功能

pip install clint

下載

import requests
from clint.textui import progess

url = 'xxxxxxxxxxx'
r = requests.get(url, stream=True)
with open('x.txt', 'wb') as f
    total_length = int(r.headers.get('content-length'))
    for ch in progress.bar(r.iter_content(chunk_size=2391975, expected)size=(total_length/1024)+1)):
        if ch:
            f.write(ch)
    f.close()

七、使用 urllib 模塊下載

urllib庫是Python的標準庫，因此不需要安裝它。

下載代碼

urllib.request.urlretrieve(URL, PATH)

八、通過代理下載

因為一些眾所周知的原因我們下載國外的資源會非常的慢，這時候可以使用代理的方式進行下載

requests 模塊使用代理

import requests

# 定義代理，假設本機上有個梯子的服務，代理埠是2258
proxy = {'http': 'http://127.0.0.1:2258'} 

url = 'xxxxxx'
r = requests.get(url, proxies=proxy )
.......

urllib 模塊使用代理

import urllib.request
#Python小白學習交流群：153708845
url = 'xxxxxxxxxx'
proxy = urllib.request.ProxyHandler({'http': '127.0.0.1'})
open_proxy = urllib.request.build_opener(proxy )  # 打開代理
urllib.request.urlretrieve(url)

九、使用 urllib3

urllib3 是 urllib 模塊的改進版本。使用pip下載並安裝

pip install urllib3

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

c#中適配器模式詳解

從接觸領域驅動設計的初學階段，到實現一個舊系統改造到DDD模型，再到按DDD規範落地的3個的項目。對於領域驅動模型設計研發，從開始的各種疑惑到吸收各種先進的理念，目前在技術實施這一塊已經基本比較成熟。在既往經驗中總結了一些在開發中遇到的技術問題和解決方案進行分享。 ...
【misc】[HNCTF 2022 Week1]calc_jail_beginner_level1(JAIL) --沙箱逃逸，python模板註入

目錄事務的四大特性？資料庫的三大範式事務隔離級別有哪些？生產環境資料庫一般用的什麼隔離級別呢？編碼和字元集的關係 utf8和utf8mb4的區別什麼是索引？索引的優缺點？索引的作用？什麼情況下需要建索引？什麼情況下不建索引？索引的數據結構 Hash索引和B+樹索引的區別？為什 ...
【AntDesign】Docker部署

docker部署是主流的部署方式，極大的方便了開發部署環境，保持了環境的統一，也是實現自動化部署的前提。 1 項目的目錄結構 dist: 使用build打包命令，生成的打包目錄 npm run build : 打包項目命令 docker: 存放docker容器需要修改的配置目錄，比如 nginx配置 ...
【Java基礎】Java容器相關知識小結

目錄0. 前言1. Collection介面1.1. List介面1.1.1. ArrayList1.1.2. LinkedList1.1.3. Vector1.1.4. Stack1.2. Set介面1.2.1. HashSet1.2.2. LinkedHashSet1.2.3. TreeSet1 ...
Python 資料庫應用教程：安裝 MySQL 及使用 MySQL Connector

Python可以用於資料庫應用程式。其中最流行的資料庫之一是MySQL。 MySQL資料庫為了能夠在本教程中嘗試代碼示例，您應該在電腦上安裝MySQL。您可以在 MySQL官方網站下載MySQL資料庫。安裝MySQL驅動程式 Python需要一個MySQL驅動程式來訪問MySQL資料庫。 ...
最新idea激活碼（適用於idea2023、idea2022、idea2021及以下版本，最新永久的idea激活碼）

Go 介面：nil介面為什麼不等於nil？本文主要內容:深入瞭解介面類型的運行時表示層。目錄Go 介面：nil介面為什麼不等於nil？一、Go 介面的地位二、介面的靜態特性與動態特性2.1 介面的靜態特性與動態特性介紹2.2 “動靜皆備”的特性的好處三、nil error 值 != nil四、接 ...
1-visio studio2019使用

1、visio studio2019安裝及使用 1）下載地址：https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/ 2）選擇社區版進行下載 3）安裝環境：win10-X64 ①勾選使用C++桌面開發 ②除預設選項外，勾選適用於 ...
Java jackson常用註解彙總

提起 jackson，在日常使用中，由於涉及到各種序列化和反序列化的處理，就不能不提註解，瞭解註解的常用方式可以極大地方便我們處理序列化，今天分享一些在使用 jackson 中涉及到的註解。目錄1.@JsonProperty - 欄位命名2.@JsonPropertyOrder - 欄位序列化順 ...