python爬取視頻網站m3u8視頻,下載.ts尾碼文件,合併成整視頻

来源:https://www.cnblogs.com/gangler/archive/2018/08/21/9515246.html
-Advertisement-
Play Games

最近發現一些網站,可以解析各大視頻網站的vip。仔細想了想,這也算是爬蟲呀,爬的是視頻數據。 首先選取一個視頻網站,我選的是 影視大全 ,然後選擇上映不久的電影 “一齣好戲” 。 分析頁面 我用的是chrome瀏覽器,F12進入查看。選擇NetWork的Doc,發現主體部分的數據是從這個網站獲取的。 ...


最近發現一些網站,可以解析各大視頻網站的vip。仔細想了想,這也算是爬蟲呀,爬的是視頻數據。

 首先選取一個視頻網站,我選的是 影視大全 ,然後選擇上映不久的電影 “一齣好戲” 。

分析頁面

我用的是chrome瀏覽器,F12進入查看。選擇NetWork的Doc,發現主體部分的數據是從這個網站獲取的。

 

在地址欄輸入這個鏈接,跳轉到了視頻來源的播放頁面。

當然,在這個頁面就可以直接觀看視頻了,但是我們要把視頻下載下來。

尋找視頻文件

仍然是之前那個頁面,在Other中,我們發現了一些奇怪的東西。

查一下,m3u8是個啥東西。

m3u8是蘋果公司推出一種視頻播放標準,是m3u的一種,不過 編碼方式是utf-8,是一種文件檢索格式,將視頻切割成一小段一小段的ts格式的視頻文件,然後存在伺服器中(現在為了減少I/o訪問次數,一般存在伺服器的記憶體中),通過m3u8解析出來路徑,然後去請求。

這下就清楚了,這就是我們要找的東西。

點擊Response,查看這個.m3u8的文件。觀察發現,.ts尾碼的文件地址是有規律的。我們只需要下載所有的.ts尾碼文件,然後把它們整合成一個文件即可。

合併.ts文件

命令行:“copy /b  F:\f\*.ts  E:\f\new.ts”。

執行該命令後,F:\f目錄下的全部TS文件就被合併成一個new.ts文件了(你原來的那堆文件仍然存在)。

這裡使用copy命令的文件合併功能進行ts文件的合併,copy後面的 /b  參數表示把文件按二進位格式來合併,如果不加這個參數,則會把目標當成文本文件來合併,併在文件內添加不必要的標記,這會導致播放出錯,所以必須加 /b 參數。

編寫腳本,下載.ts文件

from urllib import request
import urllib
from time import sleep
import socket

class CatchVideo(object):
    def __init__(self):
        self.headers = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"
        self.url = ""

    def set_url(self, i):
        if i < 1000:
            self.url = "https://cdn.letv-cdn.com/20180811/YLDUgCD6/1000kb/hls/DtrOg2412%03d.ts" % i
        else:
            self.url = "https://cdn.letv-cdn.com/20180811/YLDUgCD6/1000kb/hls/DtrOg2412%04d.ts" % i

    # 獲取並下載ts文件
    def dl_ts(self, i):
        rq = request.Request(self.url)
        rq.add_header('User-Agent', self.headers)
        response = request.urlopen(rq)
        resread = response.read()
        with open(str(i)+".ts", "wb") as f:
            f.write(resread)
        response.close()# 關閉urlopen方法,防止被ban

    def start_work(self):
        for i in range(0, 1563+1):
            self.set_url(i)
            try:
                self.dl_ts(i)
                print(str(i) + ".ts  success")
                sleep(1)
            except urllib.error.URLError as e:
                print(e.reason)
                break
            except socket.timeout as e2:
                print(e2.reason)
                self.dl_ts(i)


if __name__ == '__main__':
    catch_video = CatchVideo()
    socket.setdefaulttimeout(20)
    catch_video.start_work()

 

運行過程中,出現了兩次報錯,分別是:

  • urllib.error.URLError :[WinError 10054]  遠程主機強迫關閉了一個現有的連接
  • socket.timeout     read讀取超時

解決辦法:

  1.增加response.close,關閉urlopen方法。

  2.增加time.sleep,有一秒緩衝時間

  3.設置socket.setdefaulttimeout,給socket預留緩衝時間

還存在問題

實際運行過程中,腳本執行效率略低。之後會加入多線程,繼續改進,增加運行效率。

 

 

參考博客:

 

https://blog.csdn.net/a33445621/article/details/80377424

https://blog.csdn.net/illegalname/article/details/77164521

 

 

更新代碼,加入多進程

修改了start_work方法和主進程:

    def start_work(self, i):
        self.set_url(i)
        try:
            self.dl_ts(i)
            print(str(i) + ".ts  success")
            sleep(1)
        except urllib.error.URLError as e:
            print(e.reason)
            self.dl_ts(i)
        except socket.timeout as e2:
            print(e2.reason)
            self.dl_ts(i)


if __name__ == '__main__':
    catch_video = CatchVideo()
    socket.setdefaulttimeout(20)# 設置socket層超時時間20秒
    I = 0
    while I < 1563+1:
        # 5個進程併發運行
        p_l = [Process(target=catch_video.start_work, args=(i,)) for i in range(I, I+5)]
        for p in p_l:
            p.start()
        for p in p_l:
            p.join()
        I = I + 5

 

 

這裡設置了5個進程同時運行,太多遠程主機會拒絕請求。

 

OK,這樣就能很快下載了。隔了幾天終於想起來還有個電影沒看,哈哈 ^_^

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 工廠模式出現的原因 在java中,創建一個對象最簡單的方法就是使用new關鍵字。但在一些複雜的業務邏輯中,創建一個對象不只需要new一行代碼就成了,可能需要一些列的初始化設置,或先創建一些輔助對象來創建這個對象。 在這種場景中,如果需要多次創建這種對象,那每次都要寫很多代碼。工廠模式的產生就是為瞭解 ...
  • 大家好,這裡是「聊聊系統優化 」,併在下列地址同步更新 博客園:http://www.cnblogs.com/changsong/ 知乎專欄:https://zhuanlan.zhihu.com/youhua 思否專欄:https://segmentfault.com/blog/youhua 全網私 ...
  • 問題描述: 由於工作需要,需要在spring中配置兩個數據源,有一天突然發現@Transactional註解失效 環境框架: springmvc+spring+spring jdbcTemplate 資料庫: Oracle資料庫 解決方法: 百度獲得三種可能原因及相應解決方案: 第一種 spring ...
  • 題目:加一 給定一個非負整數組成的非空數組,在該數的基礎上加一,返回一個新的數組。 最高位數字存放在數組的首位, 數組中每個元素只存儲一個數字。 你可以假設除了整數 0 之外,這個整數不會以零開頭。 變數註釋: 思路: 這一題主要是處理 加一 後所可能引發的進位操作 //只有carry > 0時,才 ...
  • 在python中一共有兩種作用域:全局作用域和函數作用域全局作用域:在全局都有效,全局作用域在程式執行時創建,在程式執行結束時銷毀;所有函數以外的區域都是全局作用域;在全局作用域中定義的變數,都屬於全局變數,全局變數可以在程式的任意位置被訪問; 函數作用域:函數作用域在函數調用時創建,在調用結束時銷 ...
  • 刪除鏈表中等於給定值 val 的所有節點。 示例: 輸入: 1->2->6->3->4->5->6, val = 6 輸出: 1->2->3->4->5 /** * Definition for singly-linked list. * struct ListNode { * int val; * ...
  • 編寫一個演算法來判斷一個數是不是“快樂數”。 一個“快樂數”定義為:對於一個正整數,每一次將該數替換為它每個位置上的數字的平方和,然後重覆這個過程直到這個數變為 1,也可能是無限迴圈但始終變不到 1。如果可以變為 1,那麼這個數就是快樂數。 ...
  • 1.python3和python2可以共存,不用刪自帶的python2 伺服器Linux下預設系統自帶python2.6的版本,這個版本被系統很多程式所依賴,所以不建議刪除。如果使用最新的Python3那麼我們知道編譯安裝源碼包和系統預設包之間是沒有任何影響的。 2.官網下載python3的源碼包 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...