怎麼用Python爬取抖音小視頻? 資深程式員都這樣爬取的(附源碼)

来源:https://www.cnblogs.com/pythonfm/archive/2018/05/27/9097792.html
-Advertisement-
Play Games

簡介 抖音,是一款可以拍短視頻的音樂創意短視頻社交軟體,該軟體於2016年9月上線,是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟體選擇歌曲,拍攝15秒的音樂短視頻,形成自己的作品。此APP已在Android各大應用商店和APP Store均有上線。 今天咱們就用Python爬取抖音視頻 ...


簡介

抖音,是一款可以拍短視頻的音樂創意短視頻社交軟體,該軟體於2016年9月上線,是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟體選擇歌曲,拍攝15秒的音樂短視頻,形成自己的作品。此APP已在Android各大應用商店和APP Store均有上線。

今天咱們就用Python爬取抖音視頻

準備:

環境:Python3.6+Windows

IDE:你開行就好,喜歡用哪個就用哪個

模塊:

1 from splinter.driver.webdriver.chrome import Options, Chrome
2 from splinter.browser import Browser
3 from contextlib import closing
4 import requests, json, time, re, os, sys, time
5 from bs4 import BeautifulSoup

獲得視頻播放地址

  • 查詢的用戶ID

  • 視頻名字列表

  • 視頻鏈接列表

  • 用戶昵稱

 1     def get_video_urls(self, user_id):
 2 
 3 +        video_names = []
 4 +        video_urls = []
 5 +        unique_id = ''
 6 +        while unique_id != user_id:
 7 +            search_url = 'https://api.amemv.com/aweme/v1/discover/search/?cursor=0&keyword=%s&count=10&type=1&retry_type=no_retry&iid=17900846586&device_id=34692364855&ac=wifi&channel=xiaomi&aid=1128&app_name=aweme&version_code=162&version_name=1.6.2&device_platform=android&ssmix=a&device_type=MI+5&device_brand=Xiaomi&os_api=24&os_version=7.0&uuid=861945034132187&openudid=dc451556fc0eeadb&manifest_version_code=162&resolution=1080*1920&dpi=480&update_version_code=1622' % user_id
 8 +            req = requests.get(url = search_url, verify = False)
 9 +            html = json.loads(req.text)
10 +            aweme_count = html['user_list'][0]['user_info']['aweme_count']
11 +            uid = html['user_list'][0]['user_info']['uid']
12 +            nickname = html['user_list'][0]['user_info']['nickname']
13 +            unique_id = html['user_list'][0]['user_info']['unique_id']
14 +        user_url = 'https://www.douyin.com/aweme/v1/aweme/post/?user_id=%s&max_cursor=0&count=%s' % (uid, aweme_count)
15 +        req = requests.get(url = user_url, verify = False)
16 +        html = json.loads(req.text)
17 +        i = 1
18 +        for each in html['aweme_list']:
19 +            share_desc = each['share_info']['share_desc']
20 +            if '抖音-原創音樂短視頻社區' == share_desc:
21 +                video_names.append(str(i) + '.mp4')
22 +                i += 1
23 +            else:
24 +                video_names.append(share_desc + '.mp4')
25 +            video_urls.append(each['share_info']['share_url'])
26 +
27 +        return video_names, video_urls, nickname

獲得帶水印的視頻播放地址

  • video_url:帶水印的視頻播放地址

  • download_url: 帶水印的視頻下載地址

1     def get_download_url(self, video_url):
2 
3 +        req = requests.get(url = video_url, verify = False)
4 +        bf = BeautifulSoup(req.text, 'lxml')
5 +        script = bf.find_all('script')[-1]
6 +        video_url_js = re.findall('var data = \[(.+)\];', str(script))[0]
7 +        video_html = json.loads(video_url_js)
8 +        download_url = video_html['video']['play_addr']['url_list'][0]
9 +        return download_url

視頻下載

  • video_url: 帶水印的視頻地址

  • video_name: 視頻名

  • watermark_flag: 是否下載不帶水印的視頻

 1     def video_downloader(self, video_url, video_name, watermark_flag=True):
 2 +        """
 3 +        視頻下載
 4 +        Parameters:
 5 +            video_url: 帶水印的視頻地址
 6 +            video_name: 視頻名
 7 +            watermark_flag: 是否下載不帶水印的視頻
 8 +        Returns:
 9 +10 +        """
11 +        size = 0
12 +        if watermark_flag == True:
13 +            video_url = self.remove_watermark(video_url)
14 +        else:
15 +            video_url = self.get_download_url(video_url)
16 +        with closing(requests.get(video_url, stream=True, verify = False)) as response:
17 +            chunk_size = 1024
18 +            content_size = int(response.headers['content-length']) 
19 +            if response.status_code == 200:
20 +                sys.stdout.write('  [文件大小]:%0.2f MB\n' % (content_size / chunk_size / 1024))
21 +
22 +                with open(video_name, "wb") as file:  
23 +                    for data in response.iter_content(chunk_size = chunk_size):
24 +                        file.write(data)
25 +                        size += len(data)
26 +                        file.flush()
27 +
28 +                        sys.stdout.write('  [下載進度]:%.2f%%' % float(size / content_size * 100) + '\r')
29 +                        sys.stdout.flush()

獲得無水印的視頻播放地址

 1     def remove_watermark(self, video_url):
 2 +        """
 3 +        獲得無水印的視頻播放地址
 4 +        Parameters:
 5 +            video_url: 帶水印的視頻地址
 6 +        Returns:
 7 +            無水印的視頻下載地址
 8 +        """
 9 +        self.driver.visit('http://douyin.iiilab.com/')
10 +        self.driver.find_by_tag('input').fill(video_url)
11 +        self.driver.find_by_xpath('//button[@class="btn btn-default"]').click()
12 +        html = self.driver.find_by_xpath('//div[@class="thumbnail"]/div/p')[0].html
13 +        bf = BeautifulSoup(html, 'lxml')
14 +        return bf.find('a').get('href')

下載視頻

 1     def run(self):
 2 +        """
 3 +        運行函數
 4 +        Parameters:
 5 +            None
 6 +        Returns:
 7 +            None
 8 +        """
 9 +        self.hello()
10 +        user_id = input('請輸入ID(例如40103580):')
11 +        video_names, video_urls, nickname = self.get_video_urls(user_id)
12 +        if nickname not in os.listdir():
13 +            os.mkdir(nickname)
14 +        print('視頻下載中:共有%d個作品!\n' % len(video_urls))
15 +        for num in range(len(video_urls)):
16 +            print('  解析第%d個視頻鏈接 [%s] 中,請稍後!\n' % (num+1, video_urls[num]))
17 +            if '\\' in video_names[num]:
18 +                video_name = video_names[num].replace('\\', '')
19 +            elif '/' in video_names[num]:
20 +                video_name = video_names[num].replace('/', '')
21 +            else:
22 +                video_name = video_names[num]
23 +            self.video_downloader(video_urls[num], os.path.join(nickname, video_name))
24 +            print('\n')
25 +
26 +        print('下載完成!')

全部代碼

  1 +# -*- coding:utf-8 -*-
  2 
  3 +Python學習交流群:125240963
  4 +Python學習交流群:125240963
  5 +Python學習交流群:125240963
  6 
  7 +from splinter.driver.webdriver.chrome import Options, Chrome
  8 +from splinter.browser import Browser
  9 +from contextlib import closing
 10 +import requests, json, time, re, os, sys, time
 11 +from bs4 import BeautifulSoup
 12 +
 13  class DouYin(object):
 14     def __init__(self, width = 500, height = 300):
 15 +        """
 16 +        抖音App視頻下載
 17 +        """
 18 +        # 無頭瀏覽器
 19 +        chrome_options = Options()
 20 +        chrome_options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"')
 21 +        self.driver = Browser(driver_name='chrome', executable_path='D:/chromedriver', options=chrome_options, headless=True)
 22 +
 23     def get_video_urls(self, user_id):
 24 +        """
 25 +        獲得視頻播放地址
 26 +        Parameters:
 27 +            user_id:查詢的用戶ID
 28 +        Returns:
 29 +            video_names: 視頻名字列表
 30 +            video_urls: 視頻鏈接列表
 31 +            nickname: 用戶昵稱
 32 +        """
 33 +        video_names = []
 34 +        video_urls = []
 35 +        unique_id = ''
 36 +        while unique_id != user_id:
 37 +            search_url = 'https://api.amemv.com/aweme/v1/discover/search/?cursor=0&keyword=%s&count=10&type=1&retry_type=no_retry&iid=17900846586&device_id=34692364855&ac=wifi&channel=xiaomi&aid=1128&app_name=aweme&version_code=162&version_name=1.6.2&device_platform=android&ssmix=a&device_type=MI+5&device_brand=Xiaomi&os_api=24&os_version=7.0&uuid=861945034132187&openudid=dc451556fc0eeadb&manifest_version_code=162&resolution=1080*1920&dpi=480&update_version_code=1622' % user_id
 38 +            req = requests.get(url = search_url, verify = False)
 39 +            html = json.loads(req.text)
 40 +            aweme_count = html['user_list'][0]['user_info']['aweme_count']
 41 +            uid = html['user_list'][0]['user_info']['uid']
 42 +            nickname = html['user_list'][0]['user_info']['nickname']
 43 +            unique_id = html['user_list'][0]['user_info']['unique_id']
 44 +        user_url = 'https://www.douyin.com/aweme/v1/aweme/post/?user_id=%s&max_cursor=0&count=%s' % (uid, aweme_count)
 45 +        req = requests.get(url = user_url, verify = False)
 46 +        html = json.loads(req.text)
 47 +        i = 1
 48 +        for each in html['aweme_list']:
 49 +            share_desc = each['share_info']['share_desc']
 50 +            if '抖音-原創音樂短視頻社區' == share_desc:
 51 +                video_names.append(str(i) + '.mp4')
 52 +                i += 1
 53 +            else:
 54 +                video_names.append(share_desc + '.mp4')
 55 +            video_urls.append(each['share_info']['share_url'])
 56 +
 57 +        return video_names, video_urls, nickname
 58 +
 59     def get_download_url(self, video_url):
 60 +        """
 61 +        獲得帶水印的視頻播放地址
 62 +        Parameters:
 63 +            video_url:帶水印的視頻播放地址
 64 +        Returns:
 65 +            download_url: 帶水印的視頻下載地址
 66 +        """
 67 +        req = requests.get(url = video_url, verify = False)
 68 +        bf = BeautifulSoup(req.text, 'lxml')
 69 +        script = bf.find_all('script')[-1]
 70 +        video_url_js = re.findall('var data = \[(.+)\];', str(script))[0]
 71 +        video_html = json.loads(video_url_js)
 72 +        download_url = video_html['video']['play_addr']['url_list'][0]
 73 +        return download_url
 74 +
 75     def video_downloader(self, video_url, video_name, watermark_flag=True):
 76 +        """
 77 +        視頻下載
 78 +        Parameters:
 79 +            video_url: 帶水印的視頻地址
 80 +            video_name: 視頻名
 81 +            watermark_flag: 是否下載不帶水印的視頻
 82 +        Returns:
 83 +            無
 84 +        """
 85 +        size = 0
 86 +        if watermark_flag == True:
 87 +            video_url = self.remove_watermark(video_url)
 88 +        else:
 89 +            video_url = self.get_download_url(video_url)
 90 +        with closing(requests.get(video_url, stream=True, verify = False)) as response:
 91 +            chunk_size = 1024
 92 +            content_size = int(response.headers['content-length']) 
 93 +            if response.status_code == 200:
 94 +                sys.stdout.write('  [文件大小]:%0.2f MB\n' % (content_size / chunk_size / 1024))
 95 +
 96 +                with open(video_name, "wb") as file:  
 97 +                    for data in response.iter_content(chunk_size = chunk_size):
 98 +                        file.write(data)
 99 +                        size += len(data)
100 +                        file.flush()
101 +
102 +                        sys.stdout.write('  [下載進度]:%.2f%%' % float(size / content_size * 100) + '\r')
103 +                        sys.stdout.flush()
104 +
105 +
106     def remove_watermark(self, video_url):
107 +        """
108 +        獲得無水印的視頻播放地址
109 +        Parameters:
110 +            video_url: 帶水印的視頻地址
111 +        Returns:
112 +            無水印的視頻下載地址
113 +        """
114 +        self.driver.visit('http://douyin.iiilab.com/')
115 +        self.driver.find_by_tag('input').fill(video_url)
116 +        self.driver.find_by_xpath('//button[@class="btn btn-default"]').click()
117 +        html = self.driver.find_by_xpath('//div[@class="thumbnail"]/div/p')[0].html
118 +        bf = BeautifulSoup(html, 'lxml')
119 +        return bf.find('a').get('href')
120 +
121     def run(self):
122 +        """
123 +        運行函數
124 +        Parameters:
125 +            None
126 +        Returns:
127 +            None
128 +        """
129 +        self.hello()
130 +        user_id = input('請輸入ID(例如40103580):')
131 +        video_names, video_urls, nickname = self.get_video_urls(user_id)
132 +        if nickname not in os.listdir():
133 +            os.mkdir(nickname)
134 +        print('視頻下載中:共有%d個作品!\n' % len(video_urls))
135 +        for num in range(len(video_urls)):
136 +            print('  解析第%d個視頻鏈接 [%s] 中,請稍後!\n' % (num+1, video_urls[num]))
137 +            if '\\' in video_names[num]:
138 +                video_name = video_names[num].replace('\\', '')
139 +            elif '/' in video_names[num]:
140 +                video_name = video_names[num].replace('/', '')
141 +            else:
142 +                video_name = video_names[num]
143 +            self.video_downloader(video_urls[num], os.path.join(nickname, video_name))
144 +            print('\n')
145 +
146 +        print('下載完成!')
147 +
148     def hello(self):
149 +        """
150 +        列印歡迎界面
151 +        Parameters:
152 +            None
153 +        Returns:
154 +            None
155 +        """
156 +        print('*' * 100)
157 +        print('\t\t\t\t抖音App視頻下載小助手')
158 +        print('\t\t作者:Python學習交流群:125240963')
159 +        print('*' * 100)
160 +
161 +
162 +if __name__ == '__main__':
163 +    douyin = DouYin()
164 +    douyin.run()

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 我們或多或少都有過,或者見過將賦值表達式參與運算的情況。這通常會伴隨著一些意想不到的問題。今天我就見到了一段奇怪的代碼: 乍一看,似乎答案很明朗,按照順序運算之後,a的值是3,b的值是5.有經驗的程式員肯定會一眼看出,這裡的計算過程是一個未定義行為(Undefined behavior).在這裡簡單 ...
  • 這裡的內容僅僅是本人閱讀《Python高性能編程》後總結的一些知識,用於自己更好的瞭解Python機制。本人現在並不從事計算密集型工作:人工智慧、數據分析等。僅僅只是出於好奇而去閱讀這本書。很多人因為Python不能同時使用多顆CPU(全局解釋器鎖GIL),而覺得它不能實現高性能。書中有很多介紹避開 ...
  • 例1: 輸出結果: 例2: 輸出結果: ...
  • 1.建立普通的Javaweb項目,導入項目所必須的jar包。 2.配置web.xml文件。 3.在src下建立struts.xml。 4.在實體包下配置 實體名.hbm.xml 5.在src下建立applicationContext.xml。 6.在src下建立資料庫的相關配置信息db.proper ...
  • 實現步驟: 1、創建用戶登錄提交界面 2、創建處理用戶登錄請求servlet組件Main 3、創建代表登錄成功響應的servlet的組件LoginSuccess 4、創建代表登錄失敗響應的servlet組件LoginFail 【1代碼login.html】 【2程式Main.java】 【3程式Lo ...
  • Python作為一種解釋型語言,由於使用了全局解釋鎖(GIL)的原因,其代碼不能同時在多核CPU上併發的運行。這也導致在Python中使用多線程編程並不能實現併發,我們得使用其他的方法在Python中實現併發編程。 一、全局解釋鎖(GIL) Python中不能通過使用多線程實現併發編程主要是因為全局 ...
  • 使用繼承時,基類必須保證存在預設構造器(無參構造器),子類在實例化時,會首先自動調用隱式調用父類的無參構造器,允許子類與父類的構造器列表不一致,子類使用有參構造器實例化對象時,最好顯式調用父類構造器,防止出錯。 ...
  • 每一個class位元組碼文件都唯一對應一個類或介面,class文件中記錄中類或介面的基本信息,但反之不成立,不是每一個類或介面都有一個唯一對應的位元組碼文件,首先類或介面的位元組碼可以不以文件的方式存儲,可以直接從記憶體中生成位元組碼,而不產生.class文件,動態代理的原理就是直接記憶體中生成位元組碼流,根據加 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...