Python爬取視頻(其實是一篇福利)

-Advertisement-

窗外下著小雨，作為單身程式員的我逛著逛著發現一篇好東西，來自知乎你都用 Python 來做什麼？的第一個高亮答案。到上面去看了看，地址都是明文的，得，趕緊開始吧。下載流式文件，requests庫中請求的stream設為True就可以啦，文檔在此。先找一個視頻地址試驗一下：遭遇當頭一棒：這 ...

窗外下著小雨，作為單身程式員的我逛著逛著發現一篇好東西，來自知乎你都用 Python 來做什麼？的第一個高亮答案。

到上面去看了看，地址都是明文的，得，趕緊開始吧。

下載流式文件，requests庫中請求的stream設為True就可以啦，文檔在此。

先找一個視頻地址試驗一下：

# -*- coding: utf-8 -*-
import requests

def download_file(url, path):
    with requests.get(url, stream=True) as r:
        chunk_size = 1024
        content_size = int(r.headers['content-length'])
        print '下載開始'
        with open(path, "wb") as f:
            for chunk in r.iter_content(chunk_size=chunk_size):
                f.write(chunk)


if __name__ == '__main__':
    url = '就在原帖...'
    path = '想存哪都行'
    download_file(url, path)

遭遇當頭一棒：

AttributeError: __exit__

這文檔也會騙人的麽！

看樣子是沒有實現上下文需要的__exit__方法。既然只是為了保證要讓r最後close以釋放連接池，那就使用contextlib的closing特性好了：

# -*- coding: utf-8 -*-
import requests
from contextlib import closing

def download_file(url, path):
    with closing(requests.get(url, stream=True)) as r:
        chunk_size = 1024
        content_size = int(r.headers['content-length'])
        print '下載開始'
        with open(path, "wb") as f:
            for chunk in r.iter_content(chunk_size=chunk_size):
                f.write(chunk)

程式正常運行了，不過我盯著這文件，怎麼大小不見變啊，到底是完成了多少了呢？還是要讓下好的內容及時存進硬碟，還能省點記憶體是不是：

# -*- coding: utf-8 -*-
import requests
from contextlib import closing
import os

def download_file(url, path):
    with closing(requests.get(url, stream=True)) as r:
        chunk_size = 1024
        content_size = int(r.headers['content-length'])
        print '下載開始'
        with open(path, "wb") as f:
            for chunk in r.iter_content(chunk_size=chunk_size):
                f.write(chunk)
                f.flush()
                os.fsync(f.fileno())

文件以肉眼可見的速度在增大，真心疼我的硬碟，還是最後一次寫入硬碟吧，程式中記個數就好了：

def download_file(url, path):
    with closing(requests.get(url, stream=True)) as r:
        chunk_size = 1024
        content_size = int(r.headers['content-length'])
        print '下載開始'
        with open(path, "wb") as f:
            n = 1
            for chunk in r.iter_content(chunk_size=chunk_size):
                loaded = n*1024.0/content_size
                f.write(chunk)
                print '已下載{0:%}'.format(loaded)
                n += 1

結果就很直觀了：

已下載2.579129%
已下載2.581255%
已下載2.583382%
已下載2.585508%

心懷遠大理想的我怎麼會只滿足於這一個呢，寫個類一起使用吧：

# -*- coding: utf-8 -*-
import requests
from contextlib import closing
import time

def download_file(url, path):
    with closing(requests.get(url, stream=True)) as r:
        chunk_size = 1024*10
        content_size = int(r.headers['content-length'])
        print '下載開始'
        with open(path, "wb") as f:
            p = ProgressData(size = content_size, unit='Kb', block=chunk_size)
            for chunk in r.iter_content(chunk_size=chunk_size):
                f.write(chunk)
                p.output()


class ProgressData(object):

    def __init__(self, block,size, unit, file_name='', ):
        self.file_name = file_name
        self.block = block/1000.0
        self.size = size/1000.0
        self.unit = unit
        self.count = 0
        self.start = time.time()
    def output(self):
        self.end = time.time()
        self.count += 1
        speed = self.block/(self.end-self.start) if (self.end-self.start)>0 else 0
        self.start = time.time()
        loaded = self.count*self.block
        progress = round(loaded/self.size, 4)
        if loaded >= self.size:
            print u'%s下載完成\r\n'%self.file_name
        else:
            print u'{0}下載進度{1:.2f}{2}/{3:.2f}{4} 下載速度{5:.2%} {6:.2f}{7}/s'.\
                  format(self.file_name, loaded, self.unit,\
                  self.size, self.unit, progress, speed, self.unit)
            print '%50s'%('/'*int((1-progress)*50))

運行：

下載開始
下載進度10.24Kb/120174.05Kb 0.01% 下載速度4.75Kb/s 
///////////////////////////////////////////////// 
下載進度20.48Kb/120174.05Kb 0.02% 下載速度32.93Kb/s 
/////////////////////////////////////////////////

看上去舒服多了。

下麵要做的就是多線程同時下載了，主線程生產url放入隊列，下載線程獲取url：

# -*- coding: utf-8 -*-
import requests
from contextlib import closing
import time
import Queue
import hashlib
import threading
import os


def download_file(url, path):
    with closing(requests.get(url, stream=True)) as r:
        chunk_size = 1024*10
        content_size = int(r.headers['content-length'])
        if os.path.exists(path) and os.path.getsize(path)>=content_size:
            print '已下載'
            return
        print '下載開始'
        with open(path, "wb") as f:
            p = ProgressData(size = content_size, unit='Kb', block=chunk_size, file_name=path)
            for chunk in r.iter_content(chunk_size=chunk_size):
                f.write(chunk)
                p.output()


class ProgressData(object):

    def __init__(self, block,size, unit, file_name='', ):
        self.file_name = file_name
        self.block = block/1000.0
        self.size = size/1000.0
        self.unit = unit
        self.count = 0
        self.start = time.time()
    def output(self):
        self.end = time.time()
        self.count += 1
        speed = self.block/(self.end-self.start) if (self.end-self.start)>0 else 0
        self.start = time.time()
        loaded = self.count*self.block
        progress = round(loaded/self.size, 4)
        if loaded >= self.size:
            print u'%s下載完成\r\n'%self.file_name
        else:
            print u'{0}下載進度{1:.2f}{2}/{3:.2f}{4} {5:.2%} 下載速度{6:.2f}{7}/s'.\
                  format(self.file_name, loaded, self.unit,\
                  self.size, self.unit, progress, speed, self.unit)
            print '%50s'%('/'*int((1-progress)*50))


queue = Queue.Queue()


def run():
    while True:
        url = queue.get(timeout=100)
        if url is None:
            print u'全下完啦'
            break
        h = hashlib.md5()
        h.update(url)
        name = h.hexdigest()
        path = 'e:/download/' + name + '.mp4'
        download_file(url, path)


def get_url():
    queue.put(None)


if __name__ == '__main__':
    get_url()
    for i in xrange(4):
        t = threading.Thread(target=run)
        t.daemon = True
        t.start()

加了重覆下載的判斷，至於怎麼源源不斷的生產url，諸位摸索吧，保重身體！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

中小型研發團隊架構實踐三要點

中小型研發團隊很多，而社區在中小型研發團隊架構實踐方面的探討卻很少。中小型研發團隊特別是 50 至 200 人的研發團隊，在早期的業務探索階段，更多關註業務邏輯，快速迭代以驗證商業模式，很少去關註技術架構。這時如果繼續按照原有的架構及研發模式，會出現大量的問題，再也無法玩下去了。能不能有一套可直接 ...
OLAP與數據倉庫------《Designing Data-Intensive Applications》讀書筆記4

由於第三章的內容比較多，這裡我們拆分成兩篇讀書筆記來記錄。上一章我們聊了聊如何資料庫是如何實現存儲和檢索的，今天這篇我們繼續來看看OLTP與OLAP存儲引擎的區別與聯繫。 1.OLTP與OLAP 聯機事務處理過程（ O n L ine T ransaction P rocessing）也就是我們通常 ...
(五)：C++分散式實時應用框架——微服務架構的演進

OCS(online charging system，線上計費系統)在進行雲化改造的過程中，從實用主義角度出發，微服務架構並不是我們的目標。雖然我們也對系統進行了容器化改造(Docker)，並根據業務進程的功能將系統分成了好幾類的容器，但這一切多是出於對系統中的某些處理節點進行動態擴縮容的需要，跟微... ...
JDBC、mybatis、hibernate連接資料庫

JDBC連接資料庫五步驟: 一、載入驅動 Class.forName(“com.mysql.jdbc.Driver”); 二、建立連接 Connection conn = DriverManager.getConnection(“jdbc:mysql://localhost:8080/資料庫名”,” ...
分散式事務介紹

公司創立之初，一個web服務和一個資料庫實例即可滿足戶需求。隨著業務量的增長，性能問題就會越來越突出。架構於是變成了多個web服務，和一個讀寫分離的資料庫群( 主多從)，這種架構或許也能撐上千萬的用戶。但隨著進一步發展，會發現業務複雜度越來越高，耦合也比較嚴重，而且資料庫也成了性能瓶頸。這時就不 ...
Java學習筆記15（面向對象八：匿名對象、內部類）

匿名對象：是指創建對象的時候，只有創建對象的語句，卻沒有把對象地址值賦給某個變數創建一個普通對象： Person p = new Person(); 創建一個匿名對象： new Person(); 註意： 1.匿名對象只能使用一次 2.匿名對象可以作為參數傳遞 3.匿名對象可以當作方法的返回值 ...
.Net轉Java.04.踩到switch的坑

今天線上有個NullPointerException 的異常，我翻了一下代碼，拋異常的竟然是switch語句我有種不祥的預感，本地做了實驗結果是 Java的switch如果傳入null值，會拋出 java.lang.NullPointerException 的異常看下麵的代碼，不要指望會跳到d ...
Spring Boot實戰：Restful API的構建

本文講解瞭如果通過Spring boot來實現前後端的交互，首先演示了傳統的數據交互方式，然後重點講解如何設計一個Restful的API，並通過Spring boot來實現相關的API。 ...