python爬取視頻網站m3u8視頻,下載.ts尾碼文件,合併成整視頻

来源:https://www.cnblogs.com/gangler/archive/2018/08/21/9515246.html
-Advertisement-
Play Games

最近發現一些網站,可以解析各大視頻網站的vip。仔細想了想,這也算是爬蟲呀,爬的是視頻數據。 首先選取一個視頻網站,我選的是 影視大全 ,然後選擇上映不久的電影 “一齣好戲” 。 分析頁面 我用的是chrome瀏覽器,F12進入查看。選擇NetWork的Doc,發現主體部分的數據是從這個網站獲取的。 ...


最近發現一些網站,可以解析各大視頻網站的vip。仔細想了想,這也算是爬蟲呀,爬的是視頻數據。

 首先選取一個視頻網站,我選的是 影視大全 ,然後選擇上映不久的電影 “一齣好戲” 。

分析頁面

我用的是chrome瀏覽器,F12進入查看。選擇NetWork的Doc,發現主體部分的數據是從這個網站獲取的。

 

在地址欄輸入這個鏈接,跳轉到了視頻來源的播放頁面。

當然,在這個頁面就可以直接觀看視頻了,但是我們要把視頻下載下來。

尋找視頻文件

仍然是之前那個頁面,在Other中,我們發現了一些奇怪的東西。

查一下,m3u8是個啥東西。

m3u8是蘋果公司推出一種視頻播放標準,是m3u的一種,不過 編碼方式是utf-8,是一種文件檢索格式,將視頻切割成一小段一小段的ts格式的視頻文件,然後存在伺服器中(現在為了減少I/o訪問次數,一般存在伺服器的記憶體中),通過m3u8解析出來路徑,然後去請求。

這下就清楚了,這就是我們要找的東西。

點擊Response,查看這個.m3u8的文件。觀察發現,.ts尾碼的文件地址是有規律的。我們只需要下載所有的.ts尾碼文件,然後把它們整合成一個文件即可。

合併.ts文件

命令行:“copy /b  F:\f\*.ts  E:\f\new.ts”。

執行該命令後,F:\f目錄下的全部TS文件就被合併成一個new.ts文件了(你原來的那堆文件仍然存在)。

這裡使用copy命令的文件合併功能進行ts文件的合併,copy後面的 /b  參數表示把文件按二進位格式來合併,如果不加這個參數,則會把目標當成文本文件來合併,併在文件內添加不必要的標記,這會導致播放出錯,所以必須加 /b 參數。

編寫腳本,下載.ts文件

from urllib import request
import urllib
from time import sleep
import socket

class CatchVideo(object):
    def __init__(self):
        self.headers = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"
        self.url = ""

    def set_url(self, i):
        if i < 1000:
            self.url = "https://cdn.letv-cdn.com/20180811/YLDUgCD6/1000kb/hls/DtrOg2412%03d.ts" % i
        else:
            self.url = "https://cdn.letv-cdn.com/20180811/YLDUgCD6/1000kb/hls/DtrOg2412%04d.ts" % i

    # 獲取並下載ts文件
    def dl_ts(self, i):
        rq = request.Request(self.url)
        rq.add_header('User-Agent', self.headers)
        response = request.urlopen(rq)
        resread = response.read()
        with open(str(i)+".ts", "wb") as f:
            f.write(resread)
        response.close()# 關閉urlopen方法,防止被ban

    def start_work(self):
        for i in range(0, 1563+1):
            self.set_url(i)
            try:
                self.dl_ts(i)
                print(str(i) + ".ts  success")
                sleep(1)
            except urllib.error.URLError as e:
                print(e.reason)
                break
            except socket.timeout as e2:
                print(e2.reason)
                self.dl_ts(i)


if __name__ == '__main__':
    catch_video = CatchVideo()
    socket.setdefaulttimeout(20)
    catch_video.start_work()

 

運行過程中,出現了兩次報錯,分別是:

  • urllib.error.URLError :[WinError 10054]  遠程主機強迫關閉了一個現有的連接
  • socket.timeout     read讀取超時

解決辦法:

  1.增加response.close,關閉urlopen方法。

  2.增加time.sleep,有一秒緩衝時間

  3.設置socket.setdefaulttimeout,給socket預留緩衝時間

還存在問題

實際運行過程中,腳本執行效率略低。之後會加入多線程,繼續改進,增加運行效率。

 

 

參考博客:

 

https://blog.csdn.net/a33445621/article/details/80377424

https://blog.csdn.net/illegalname/article/details/77164521

 

 

更新代碼,加入多進程

修改了start_work方法和主進程:

    def start_work(self, i):
        self.set_url(i)
        try:
            self.dl_ts(i)
            print(str(i) + ".ts  success")
            sleep(1)
        except urllib.error.URLError as e:
            print(e.reason)
            self.dl_ts(i)
        except socket.timeout as e2:
            print(e2.reason)
            self.dl_ts(i)


if __name__ == '__main__':
    catch_video = CatchVideo()
    socket.setdefaulttimeout(20)# 設置socket層超時時間20秒
    I = 0
    while I < 1563+1:
        # 5個進程併發運行
        p_l = [Process(target=catch_video.start_work, args=(i,)) for i in range(I, I+5)]
        for p in p_l:
            p.start()
        for p in p_l:
            p.join()
        I = I + 5

 

 

這裡設置了5個進程同時運行,太多遠程主機會拒絕請求。

 

OK,這樣就能很快下載了。隔了幾天終於想起來還有個電影沒看,哈哈 ^_^

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 工廠模式出現的原因 在java中,創建一個對象最簡單的方法就是使用new關鍵字。但在一些複雜的業務邏輯中,創建一個對象不只需要new一行代碼就成了,可能需要一些列的初始化設置,或先創建一些輔助對象來創建這個對象。 在這種場景中,如果需要多次創建這種對象,那每次都要寫很多代碼。工廠模式的產生就是為瞭解 ...
  • 大家好,這裡是「聊聊系統優化 」,併在下列地址同步更新 博客園:http://www.cnblogs.com/changsong/ 知乎專欄:https://zhuanlan.zhihu.com/youhua 思否專欄:https://segmentfault.com/blog/youhua 全網私 ...
  • 問題描述: 由於工作需要,需要在spring中配置兩個數據源,有一天突然發現@Transactional註解失效 環境框架: springmvc+spring+spring jdbcTemplate 資料庫: Oracle資料庫 解決方法: 百度獲得三種可能原因及相應解決方案: 第一種 spring ...
  • 題目:加一 給定一個非負整數組成的非空數組,在該數的基礎上加一,返回一個新的數組。 最高位數字存放在數組的首位, 數組中每個元素只存儲一個數字。 你可以假設除了整數 0 之外,這個整數不會以零開頭。 變數註釋: 思路: 這一題主要是處理 加一 後所可能引發的進位操作 //只有carry > 0時,才 ...
  • 在python中一共有兩種作用域:全局作用域和函數作用域全局作用域:在全局都有效,全局作用域在程式執行時創建,在程式執行結束時銷毀;所有函數以外的區域都是全局作用域;在全局作用域中定義的變數,都屬於全局變數,全局變數可以在程式的任意位置被訪問; 函數作用域:函數作用域在函數調用時創建,在調用結束時銷 ...
  • 刪除鏈表中等於給定值 val 的所有節點。 示例: 輸入: 1->2->6->3->4->5->6, val = 6 輸出: 1->2->3->4->5 /** * Definition for singly-linked list. * struct ListNode { * int val; * ...
  • 編寫一個演算法來判斷一個數是不是“快樂數”。 一個“快樂數”定義為:對於一個正整數,每一次將該數替換為它每個位置上的數字的平方和,然後重覆這個過程直到這個數變為 1,也可能是無限迴圈但始終變不到 1。如果可以變為 1,那麼這個數就是快樂數。 ...
  • 1.python3和python2可以共存,不用刪自帶的python2 伺服器Linux下預設系統自帶python2.6的版本,這個版本被系統很多程式所依賴,所以不建議刪除。如果使用最新的Python3那麼我們知道編譯安裝源碼包和系統預設包之間是沒有任何影響的。 2.官網下載python3的源碼包 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...