[原創]使用python對視頻/音頻文件進行詳細信息採集,併進行去重操作

来源:https://www.cnblogs.com/fengbo1113/archive/2019/01/05/10225920.html
-Advertisement-
Play Games

[原創]使用python對視頻/音頻文件進行詳細信息採集,併進行去重操作 轉載請註明出處 一.關於為什麼用pymediainfo以及pymediainfo的安裝 使用python對視頻/音頻文件進行詳細信息採集,併進行去重操作的核心是使用pymediainfo這個庫 之前本人一直在試著用moviep ...


[原創]使用python對視頻/音頻文件進行詳細信息採集,併進行去重操作

轉載請註明出處

 

一.關於為什麼用pymediainfo以及pymediainfo的安裝

  使用python對視頻/音頻文件進行詳細信息採集,併進行去重操作的核心是使用pymediainfo這個庫

  之前本人一直在試著用moviepy庫中的VideoFileClip來獲取視頻/音頻文件的詳細信息,但效果不理想,一直報錯根本無法解決.

  直到本人發現了pymediainfo這個庫,問題才得到解決(pymediainfo可以獲取極其詳細的音頻/視頻文件的具體信息).

  pymediainfo的安裝:(參考https://www.jianshu.com/p/4c115bd82774)

    1.pip install pymediainfo  或者 python -m pip install pymediainfo

    2.然後到官網下載該程式,(官網地址: https://pypi.org/project/pymediainfo/),安裝到指定文件夾

    3.特別重要的一步:到你安裝pymediainfo的文件夾中找到MediaInfo.dll這個文件,把它複製到你Python的根目錄下(不複製程式會報無法打開xx程式的錯!)

 

二.視頻/音頻去重的簡單邏輯:

  如果兩個視頻/音頻文件的大小完全一致,而且時長也完全一致,則該兩個文件極有可能是重覆的.

 

三.代碼實現:

  下麵代碼你只需要把

    file_dir = r"D:\Movie\180919"  
    dire_dir = r'D:\Movie\BBB'

   更改成你自己的絕對路徑就可以了(file_dir是你視頻/音頻文件的目錄, dire_dir是將重覆視頻文件移動至的目錄,程式結束後file_dir目錄中的重覆文件會被移動到dire_dir)

  註意:file_dir路徑里只能放音頻,視頻文件,放入其他文件可能會報錯(本人只考慮了file_dir中只有視頻/音頻文件的情況)

  程式功能:8G記憶體IE7處理器能處理11000個,大約2000G的視頻/音頻文件去重工作,花費時間30~40分鐘(程式執行with open操作後會巨卡5-10分鐘)

 1 import os
 2 import shutil
 3 
 4 from pymediainfo import MediaInfo
 5 
 6 
 7 file_dir = r"D:\Movie\180919"                # 定義文件目錄(需要自己添加文件的絕對路徑)
 8 dire_dir = r'D:\Movie\BBB'                    # 目標路徑,將可能重覆的文件移動至此(需要自己添加文件的絕對路徑)
 9 video_sumlist = []                            # 全音/視頻文件列表(絕對路徑)
10 video_detail_list = []                        # 全音/視頻文件詳細信息列表
11 video_info_list = []                          # 只記錄需要的關鍵信息
12 count = 0                                     # 用於記錄已處理的文件數量
13 
14 def get_all_file(f_dir): # 獲取文件名稱與文件大小,以方便使用MediaInfo庫遍歷獲取視頻/音頻文件的超詳細信息
15     for root, dirs, files in os.walk(f_dir, topdown=True): # root就是"D:\Movie\180919", dirs 為[], files為全部文件列表
16         for name in files:
17             video_sumlist.append(os.path.join(root, name))
18 
19 get_all_file(file_dir)
20 # print(video_sumlist)
21 
22 for i in video_sumlist: # 獲取視頻/音頻文件的詳細信息並存儲到video_detail_list中
23     media_info = MediaInfo.parse(i)
24     data = media_info.to_data()
25     video_detail_list.append(data)
26     count+=1
27     print("執行完第%d條數據...,視頻名稱為:%s"%(count, data["tracks"][0]["other_file_name"]))
28 
29 
30 with open(r"./video_detail.py", "w", encoding='utf-8') as f: # 因為遍歷上萬文件太費時,需要將視頻/音頻信息存儲在文件中,以減少程式執行時間
31     print("開始執行寫入操作...")
32     f.write(str(video_detail_list))
33 
34 with open(r"./video_detail.py", "r", encoding='utf-8') as f: # 將存儲在file文件中的信息讀取到vfile中
35     print("開始執行讀取操作...")
36     vfile = eval(f.read())
37 print(type(vfile))
38 
39 for elem in vfile: # 簡化文件信息的列表格式: [{文件名: {"t_size": t_size, "v_duration": v_duration}}, {{文件名: {"t_size": t_size, "v_duration": v_duration}}]
40     # print('v_size: ', elem["tracks"][0]["file_size"])
41     # print('v_duration: ', elem["tracks"][0]["duration"])
42     try:
43         if elem["tracks"][0]["file_name"] != 'desktop.ini':
44             video_info_list.append({(elem["tracks"][0]["other_file_name"][0]+"."+elem["tracks"][0]["file_extension"]):\
45              {"v_size": elem["tracks"][0]["file_size"], "v_duration": elem["tracks"][0]["duration"]}})
46         else:
47             print("找到了隱藏文件desktop.ini, 它沒有'duration'這個鍵值對,需要跳過...")
48     except KeyError:
49         print("找到一個隱藏文件,該文件名為: ", elem["tracks"][0]["file_name"])
50 print(video_info_list)
51 print(video_info_list[0].keys())       # dict_keys(['海闊天空.mp4'])
52 print(type(video_info_list[0].keys())) # <class 'dict_keys'>
53 
54 start_index = 0
55 tomove_list = []
56 while start_index < (len(video_info_list)-1):
57     find_index = start_index + 1
58     # print("start_index = ", start_index, "find_index = ", find_index)
59     # print(list(video_info_list[start_index].values()))
60     # print(list(video_info_list[start_index].values())[0]["v_size"])
61     # print(list(video_info_list[start_index].values())[0]["v_duration"])
62     sample0 = [list(video_info_list[start_index].values())[0]["v_size"], list(video_info_list[start_index].values())[0]["v_duration"]]
63     while find_index < len(video_info_list):
64         if sample0[0] == list(video_info_list[find_index].values())[0]["v_size"] and \
65         sample0[1] == list(video_info_list[find_index].values())[0]["v_duration"]:
66             tomove_list.append(find_index)
67             find_index += 1
68         else:
69             find_index += 1
70 
71     # 外層迴圈開始:
72     if tomove_list != []:
73         tomove_list.reverse()
74         print("to move list after reverse: ", tomove_list)
75         for tomove_item in tomove_list:
76             shutil.move(os.path.join(file_dir ,list(video_info_list[tomove_item].keys())[0]), dire_dir)
77             video_info_list.pop(tomove_item) # 非常重要,保證video_info_list與實際音頻/視頻數據一致
78             print("已經移除文件的編號為: ", tomove_item)
79     start_index += 1
80     tomove_list = []

完~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 哎,自從有了女朋友,自己的業餘時間少了好多,連博客都忘了更新了,差點忘了一個月! 但是好在,沒有忘記寫代碼,而且還解決了一個困擾好久的問題(其實是解決了一半,就在最後一個函數里,因為藍圖比較複雜所以還沒弄清) 今晚剛見了她媽回來,可能這次要來真的了! 今年可能會結婚,也可能會要孩子吧! 公司的項目也 ...
  • Java中實現內部類 內部類相信大家都用過很多次了,就不說它是怎麼用的了。 內部類 1.成員內部類 需要註意的是, 當成員內部類擁有和外部類同名的成員變數或這方法時, 預設情況下訪問的是內部類的成員, 如要訪問外部類的同名成員, 需要使用以下形式: 內部類是依附外部類而存在的, 也就是說要創建成員內 ...
  • 題意 "題目鏈接" Sol 由於階乘的數量增長非常迅速,而$k$又非常小,那麼顯然最後的序列只有最後幾位會發生改變。 前面的位置都是$i = a[i]$。那麼前面的可以直接數位dp/爆搜,後面的部分是經典問題,可以用逆康托展開計算。 cpp include define Pair pair defi ...
  • 分別用while迴圈和for迴圈來玩轉猜數字游戲 1.對於限定猜數字次數 (1)while迴圈 number = 56 count = 0while count < 3: guess_number = int(input("guess number:")) if guess_number == nu ...
  • CMD終端關於pip報錯,scrapy報錯的一種處理方法 如果在終端輸入pip,或scrapy,報如下錯誤: Fatal error in launcher: Unable to create process using '"' 這通常是因為你的電腦裝了兩個版本的python(python2.x和p ...
  • 一、Scala程式的開始->HelloScala 這裡的操作如同java的helloworld程式,直接放代碼! 在命令行操作中輸入命令: scalac HelloScala.scala scala HelloScala 二、Scala的數據類型 Scala與java相同,有八種基本數據類型: By ...
  • Python開發IDE:pycharm ,eclipse 快捷鍵:Ctrl+?整體註釋 一·運算符 +(加) -(減) *(乘) /(除) **(冪) %(餘) //(商) 判斷某個東西是否在某個東西裡邊 in not in 結果:布爾值 ==(等於) >(大於) <(小於) >=(大於等於) <= ...
  • Python的基本數據類型有數字(Number),字元串(string),列表(List)、集合(Set),元組(Tuple)和字典(Dictionary)。 數字:1.包括了整型、浮點型和布爾型,還加入了複數(int、float、bool、complex); 2.若是想知道它具體是什麼類型,可以調 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...