python爬取視頻網站m3u8視頻，下載.ts尾碼文件，合併成整視頻

-Advertisement-

最近發現一些網站，可以解析各大視頻網站的vip。仔細想了想，這也算是爬蟲呀，爬的是視頻數據。首先選取一個視頻網站，我選的是影視大全，然後選擇上映不久的電影 “一齣好戲” 。分析頁面我用的是chrome瀏覽器，F12進入查看。選擇NetWork的Doc，發現主體部分的數據是從這個網站獲取的。 ...

最近發現一些網站，可以解析各大視頻網站的vip。仔細想了想，這也算是爬蟲呀，爬的是視頻數據。

首先選取一個視頻網站，我選的是影視大全，然後選擇上映不久的電影 “一齣好戲” 。

分析頁面

我用的是chrome瀏覽器，F12進入查看。選擇NetWork的Doc，發現主體部分的數據是從這個網站獲取的。

在地址欄輸入這個鏈接，跳轉到了視頻來源的播放頁面。

當然，在這個頁面就可以直接觀看視頻了，但是我們要把視頻下載下來。

尋找視頻文件

仍然是之前那個頁面，在Other中，我們發現了一些奇怪的東西。

查一下，m3u8是個啥東西。

m3u8是蘋果公司推出一種視頻播放標準，是m3u的一種，不過編碼方式是utf-8，是一種文件檢索格式，將視頻切割成一小段一小段的ts格式的視頻文件，然後存在伺服器中（現在為了減少I/o訪問次數，一般存在伺服器的記憶體中），通過m3u8解析出來路徑，然後去請求。

這下就清楚了，這就是我們要找的東西。

點擊Response，查看這個.m3u8的文件。觀察發現，.ts尾碼的文件地址是有規律的。我們只需要下載所有的.ts尾碼文件，然後把它們整合成一個文件即可。

合併.ts文件

命令行：“copy /b F:\f\*.ts E:\f\new.ts”。

執行該命令後，F:\f目錄下的全部TS文件就被合併成一個new.ts文件了（你原來的那堆文件仍然存在）。

這裡使用copy命令的文件合併功能進行ts文件的合併，copy後面的 /b 參數表示把文件按二進位格式來合併，如果不加這個參數，則會把目標當成文本文件來合併，併在文件內添加不必要的標記，這會導致播放出錯，所以必須加 /b 參數。

編寫腳本，下載.ts文件

from urllib import request
import urllib
from time import sleep
import socket

class CatchVideo(object):
    def __init__(self):
        self.headers = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"
        self.url = ""

    def set_url(self, i):
        if i < 1000:
            self.url = "https://cdn.letv-cdn.com/20180811/YLDUgCD6/1000kb/hls/DtrOg2412%03d.ts" % i
        else:
            self.url = "https://cdn.letv-cdn.com/20180811/YLDUgCD6/1000kb/hls/DtrOg2412%04d.ts" % i

    # 獲取並下載ts文件
    def dl_ts(self, i):
        rq = request.Request(self.url)
        rq.add_header('User-Agent', self.headers)
        response = request.urlopen(rq)
        resread = response.read()
        with open(str(i)+".ts", "wb") as f:
            f.write(resread)
        response.close()# 關閉urlopen方法，防止被ban

    def start_work(self):
        for i in range(0, 1563+1):
            self.set_url(i)
            try:
                self.dl_ts(i)
                print(str(i) + ".ts  success")
                sleep(1)
            except urllib.error.URLError as e:
                print(e.reason)
                break
            except socket.timeout as e2:
                print(e2.reason)
                self.dl_ts(i)


if __name__ == '__main__':
    catch_video = CatchVideo()
    socket.setdefaulttimeout(20)
    catch_video.start_work()

運行過程中，出現了兩次報錯，分別是：

urllib.error.URLError ：[WinError 10054] 遠程主機強迫關閉了一個現有的連接
socket.timeout read讀取超時

解決辦法：

　　1.增加response.close，關閉urlopen方法。

　　2.增加time.sleep，有一秒緩衝時間

　　3.設置socket.setdefaulttimeout，給socket預留緩衝時間

還存在問題

實際運行過程中，腳本執行效率略低。之後會加入多線程，繼續改進，增加運行效率。

參考博客：

https://blog.csdn.net/a33445621/article/details/80377424

https://blog.csdn.net/illegalname/article/details/77164521

更新代碼，加入多進程

修改了start_work方法和主進程：

    def start_work(self, i):
        self.set_url(i)
        try:
            self.dl_ts(i)
            print(str(i) + ".ts  success")
            sleep(1)
        except urllib.error.URLError as e:
            print(e.reason)
            self.dl_ts(i)
        except socket.timeout as e2:
            print(e2.reason)
            self.dl_ts(i)


if __name__ == '__main__':
    catch_video = CatchVideo()
    socket.setdefaulttimeout(20)# 設置socket層超時時間20秒
    I = 0
    while I < 1563+1:
        # 5個進程併發運行
        p_l = [Process(target=catch_video.start_work, args=(i,)) for i in range(I, I+5)]
        for p in p_l:
            p.start()
        for p in p_l:
            p.join()
        I = I + 5

這裡設置了5個進程同時運行，太多遠程主機會拒絕請求。

OK,這樣就能很快下載了。隔了幾天終於想起來還有個電影沒看，哈哈 ^_^

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java設計模式之工廠模式（簡單工廠模式，工廠方法模式，抽象工廠模式）

工廠模式出現的原因在java中，創建一個對象最簡單的方法就是使用new關鍵字。但在一些複雜的業務邏輯中，創建一個對象不只需要new一行代碼就成了，可能需要一些列的初始化設置，或先創建一些輔助對象來創建這個對象。在這種場景中，如果需要多次創建這種對象，那每次都要寫很多代碼。工廠模式的產生就是為瞭解 ...
系統優化怎麼做-JVM優化之開篇

大家好，這裡是「聊聊系統優化」，併在下列地址同步更新博客園：http://www.cnblogs.com/changsong/ 知乎專欄：https://zhuanlan.zhihu.com/youhua 思否專欄：https://segmentfault.com/blog/youhua 全網私 ...
多數據源事務註解失效問題

問題描述: 由於工作需要,需要在spring中配置兩個數據源,有一天突然發現@Transactional註解失效環境框架: springmvc+spring+spring jdbcTemplate 資料庫: Oracle資料庫解決方法: 百度獲得三種可能原因及相應解決方案: 第一種 spring ...
Leetcode題目學習-66 plus one

題目：加一給定一個非負整數組成的非空數組，在該數的基礎上加一，返回一個新的數組。最高位數字存放在數組的首位，數組中每個元素只存儲一個數字。你可以假設除了整數 0 之外，這個整數不會以零開頭。變數註釋：思路：這一題主要是處理加一後所可能引發的進位操作 //只有carry > 0時，才 ...
Python 對象（type/object/class）作用域一等函數（慕課--Python高級，IO併發第二章）

在python中一共有兩種作用域：全局作用域和函數作用域全局作用域：在全局都有效，全局作用域在程式執行時創建，在程式執行結束時銷毀；所有函數以外的區域都是全局作用域；在全局作用域中定義的變數，都屬於全局變數，全局變數可以在程式的任意位置被訪問；函數作用域：函數作用域在函數調用時創建，在調用結束時銷 ...
【leetcode 簡單】第五十七題刪除鏈表中的節點

刪除鏈表中等於給定值 val 的所有節點。示例: 輸入: 1->2->6->3->4->5->6, val = 6 輸出: 1->2->3->4->5 /** * Definition for singly-linked list. * struct ListNode { * int val; * ...
【leetcode 簡單】第五十六題快樂數

編寫一個演算法來判斷一個數是不是“快樂數”。一個“快樂數”定義為：對於一個正整數，每一次將該數替換為它每個位置上的數字的平方和，然後重覆這個過程直到這個數變為 1，也可能是無限迴圈但始終變不到 1。如果可以變為 1，那麼這個數就是快樂數。 ...
伺服器(Linux) 安裝python3

1.python3和python2可以共存，不用刪自帶的python2 伺服器Linux下預設系統自帶python2.6的版本，這個版本被系統很多程式所依賴，所以不建議刪除。如果使用最新的Python3那麼我們知道編譯安裝源碼包和系統預設包之間是沒有任何影響的。 2.官網下載python3的源碼包 ...