抖音網頁版高清視頻抓取教程selenium

-Advertisement-

廢話不多說，直接上代碼 from selenium import webdriver from selenium.webdriver import ChromeOptions import time import re from selenium.webdriver.support import e ...

廢話不多說，直接上代碼

from selenium import webdriver
from selenium.webdriver import ChromeOptions
import time
import re
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
import uuid
import os
import requests


option = ChromeOptions()
option.add_argument(
    'user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36"'
)
option.add_experimental_option('excludeSwitches', ['enable-automation'])  #防止系統檢測到自動化工具
option.add_experimental_option('useAutomationExtension', False)
browser = webdriver.Chrome(options=option)
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
   'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
})

browser.maximize_window()#頁面最大化

def douyincrawler(keyword):
    url = 'https://www.douyin.com/search/'+keyword+'?publish_time=0&sort_type=0&source=switch_tab&type=video'
    browser.get(url)
    browser.find_element_by_xpath('//*[@id="qdblhsHs"]/button').click()  #點擊登陸用抖音手機app掃碼登陸
    time.sleep(15)  #設置等待時間掃碼登陸

    for x in range(5):#自動下拉
        time.sleep(5)
        js_bottom = "var q=document.documentElement.scrollTop=10000"
        browser.execute_script(js_bottom)
        if '服務出現異常' in browser.page_source:   #刷新頁面
            browser.refresh()
        if '服務異常，重新' in browser.page_source:
            browser.find_element_by_xpath('//*[@id="dark"]/div[2]/div/div[3]/div[2]/div/div/span').click()  #點擊載入

    detail_url_lists = browser.find_elements_by_xpath('//*[@id="dark"]/div[2]/div/div[3]/div[2]/ul/li/div/div/a[1]')# 獲取頁面所有詳情url
    print('共計偵查到{}個視頻數據'.format(len(detail_url_lists)))
    for i in detail_url_lists:
        try:
            browser.execute_script("arguments[0].click();", i)   #防止頁面有該元素卻無法點擊問題出現
            ws = browser.window_handles      #獲取所有視窗
            browser.switch_to.window(ws[1])  #切換新句柄
            WebDriverWait(browser, 10).until(EC.presence_of_element_located((
                By.XPATH, '//*[@id="root"]/div/div[2]/div/div/div[1]/div[1]/div[2]/div/div[1]/div/div[2]/div[2]/xg-video-container/video'
            )))  #顯示等待視頻標簽出現
            video_url = 'https:' + re.findall(r'<source class="" src="(.*?)"', browser.page_source)[0]   # 正則獲取視頻鏈接
            savevideo(video_url)
            browser.close()                  #關閉當前視窗
            browser.switch_to.window(ws[0])  #切回主頁面這一步很關鍵
        except Exception as e:
            print(e)



def savevideo(video_url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36",
    }
    video_dir = r'C:\Users\lvye\Desktop\dou_yin\video'
    video_full_path = os.path.join(video_dir,str(uuid.uuid4()) + '.mp4')
    response = requests.get(url=video_url,headers=headers)
    with open(video_full_path,'wb')as f:
        f.write(response.content)
    print('已下載：{}'.format(video_url))




if __name__ == '__main__':
    douyincrawler('街拍美女')

成果展示：

註：該代碼只做技術分享，不可用於違法犯罪

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java反射詳解篇--一篇入魂

1.反射概述 Java程式在運行時操作類中的屬性和方法的機制，稱為反射機制。一個關鍵點：運行時一般我們在開發程式時，都知道自己具體用了什麼類，直接創建使用即可。但當你寫一些通用的功能時沒辦法在編寫時知道具體的類型，並且程式跑起來還會有多種類型的可能，則需要在運行時動態的去調用某個類的屬性和方法， ...
面試連環炮系列（二十六）：什麼情況下JVM頻繁發生full GC

什麼情況下JVM頻繁發生full GC；在實際項目什麼代碼導致full GC；線上怎麼排查是哪個程式導致的ful GC ...
歷史，JVM，JRE，JDK

歷史 1990年，美國Sun公司的“Stealth計劃”（後來改名為“Green計劃”）目標設置在家用電器等小型系統的程式語言，準備應用在電視機、電話、鬧鐘、烤麵包機等家用電器的控制和通信 1996年5月23日，JDK1.0開始發行（前期Java的版本只有兩個） 2005年6月，Java One大會 ...
Python如何把腳本編譯成可執行exe文件

學Python那麼久了，才知道自己不會把腳本編譯成可執行exe文件。這是昨天以為小伙伴告訴我的，為了幫她解決這個問題，我今天特意寫了這一篇文章。相信肯定不止我的小伙伴不會，也許某個角落也藏著一個你。首先，通過Python Fire可以快速便捷地生成命令行工具（參見《Python Fire的速成教程 ...
用戶登錄註冊案例---加猜數字小游戲（集合版）

分析： A:有哪些類呢?用戶類測試類 B:每個類有哪些東西呢? 用戶類：成員變數：用戶名，密碼構造方法：無參構造成員方法：getXxx()/setXxx() 登錄，註冊假如用戶類的內容比較對，將來維護起來就比較麻煩，為了更清晰的分類，我們就把用戶又劃分成了兩類用戶基本描述類成員變數：用戶 ...
Badger簡單使用

badger 是 dgraph 開源的 LSMTree 的 KV 引擎，它相比 leveldb 有 KV 分離、事務、併發合併等增強，是 go 生態中比較生產級的存儲引擎了。 ...
Python的類和繼承

一、類的封裝：封裝將類的信息隱藏在類內部,不允許外部直接修改該類的變數,只能通過該類提供的方法來實現對隱藏信息的操作和訪問 class Boss(): # 類的公共屬性 level=1 # 類的初始化(構造方法)，在類實例化時自動調用。 def __init__(self,name,hp,sp,a ...
SpringBoot啟動過程執行某個方法

又到了每日分享Python小技巧的時候了，今天給大家分享如何實現視頻、音樂、圖片下載自由的教程吧，我自己覺得灰常好用，所以把它分享給大家，因為好東西需要大家一起學。 1、實戰效果 •接下來下冰冰圖片 you-get https://inews.gtimg.com/newsapp_bt/0/13122 ...