抖音網頁版高清視頻抓取教程selenium

来源:https://www.cnblogs.com/lvye001/archive/2022/03/25/16054931.html
-Advertisement-
Play Games

廢話不多說,直接上代碼 from selenium import webdriver from selenium.webdriver import ChromeOptions import time import re from selenium.webdriver.support import e ...


廢話不多說,直接上代碼

from selenium import webdriver
from selenium.webdriver import ChromeOptions
import time
import re
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
import uuid
import os
import requests


option = ChromeOptions()
option.add_argument(
    'user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36"'
)
option.add_experimental_option('excludeSwitches', ['enable-automation'])  #防止系統檢測到自動化工具
option.add_experimental_option('useAutomationExtension', False)
browser = webdriver.Chrome(options=option)
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
   'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
})

browser.maximize_window()#頁面最大化

def douyincrawler(keyword):
    url = 'https://www.douyin.com/search/'+keyword+'?publish_time=0&sort_type=0&source=switch_tab&type=video'
    browser.get(url)
    browser.find_element_by_xpath('//*[@id="qdblhsHs"]/button').click()  #點擊登陸用抖音手機app掃碼登陸
    time.sleep(15)  #設置等待時間掃碼登陸

    for x in range(5):#自動下拉
        time.sleep(5)
        js_bottom = "var q=document.documentElement.scrollTop=10000"
        browser.execute_script(js_bottom)
        if '服務出現異常' in browser.page_source:   #刷新頁面
            browser.refresh()
        if '服務異常,重新' in browser.page_source:
            browser.find_element_by_xpath('//*[@id="dark"]/div[2]/div/div[3]/div[2]/div/div/span').click()  #點擊載入

    detail_url_lists = browser.find_elements_by_xpath('//*[@id="dark"]/div[2]/div/div[3]/div[2]/ul/li/div/div/a[1]')# 獲取頁面所有詳情url
    print('共計偵查到{}個視頻數據'.format(len(detail_url_lists)))
    for i in detail_url_lists:
        try:
            browser.execute_script("arguments[0].click();", i)   #防止頁面有該元素卻無法點擊問題出現
            ws = browser.window_handles      #獲取所有視窗
            browser.switch_to.window(ws[1])  #切換新句柄
            WebDriverWait(browser, 10).until(EC.presence_of_element_located((
                By.XPATH, '//*[@id="root"]/div/div[2]/div/div/div[1]/div[1]/div[2]/div/div[1]/div/div[2]/div[2]/xg-video-container/video'
            )))  #顯示等待視頻標簽出現
            video_url = 'https:' + re.findall(r'<source class="" src="(.*?)"', browser.page_source)[0]   # 正則獲取視頻鏈接
            savevideo(video_url)
            browser.close()                  #關閉當前視窗
            browser.switch_to.window(ws[0])  #切回主頁面這一步很關鍵
        except Exception as e:
            print(e)



def savevideo(video_url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36",
    }
    video_dir = r'C:\Users\lvye\Desktop\dou_yin\video'
    video_full_path = os.path.join(video_dir,str(uuid.uuid4()) + '.mp4')
    response = requests.get(url=video_url,headers=headers)
    with open(video_full_path,'wb')as f:
        f.write(response.content)
    print('已下載:{}'.format(video_url))




if __name__ == '__main__':
    douyincrawler('街拍美女')

成果展示:

 

註:該代碼只做技術分享,不可用於違法犯罪

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.反射概述 Java程式在運行時操作類中的屬性和方法的機制,稱為反射機制。 一個關鍵點:運行時 一般我們在開發程式時,都知道自己具體用了什麼類,直接創建使用即可。但當你寫一些通用的功能時沒辦法在編寫時知道具體的類型,並且程式跑起來還會有多種類型的可能,則需要在運行時動態的去調用某個類的屬性和方法, ...
  • 什麼情況下JVM頻繁發生full GC; 在實際項目什麼代碼導致full GC;線上怎麼排查是哪個程式導致的ful GC ...
  • 歷史 1990年,美國Sun公司的“Stealth計劃”(後來改名為“Green計劃”)目標設置在家用電器等小型系統的程式語言,準備應用在電視機、電話、鬧鐘、烤麵包機等家用電器的控制和通信 1996年5月23日,JDK1.0開始發行(前期Java的版本只有兩個) 2005年6月,Java One大會 ...
  • 學Python那麼久了,才知道自己不會把腳本編譯成可執行exe文件。這是昨天以為小伙伴告訴我的,為了幫她解決這個問題,我今天特意寫了這一篇文章。相信肯定不止我的小伙伴不會,也許某個角落也藏著一個你。 首先,通過Python Fire可以快速便捷地生成命令行工具(參見《Python Fire的速成教程 ...
  • 分析: A:有哪些類呢?用戶類 測試類 B:每個類有哪些東西呢? 用戶類: 成員變數:用戶名,密碼 構造方法:無參構造成員方法:getXxx()/setXxx() 登錄,註冊 假如用戶類的內容比較對,將來維護起來就比較麻煩,為了更清晰的分類,我們就把用戶又劃分成了兩類 用戶基本描述類 成員變數:用戶 ...
  • badger 是 dgraph 開源的 LSMTree 的 KV 引擎,它相比 leveldb 有 KV 分離、事務、併發合併等增強,是 go 生態中比較生產級的存儲引擎了。 ...
  • 一、類的封裝: 封裝將類的信息隱藏在類內部,不允許外部直接修改該類的變數,只能通過該類提供的方法來實現對隱藏信息的操作和訪問 class Boss(): # 類的公共屬性 level=1 # 類的初始化(構造方法),在類實例化時自動調用。 def __init__(self,name,hp,sp,a ...
  • 又到了每日分享Python小技巧的時候了,今天給大家分享如何實現視頻、音樂、圖片下載自由的教程吧,我自己覺得灰常好用,所以把它分享給大家,因為好東西需要大家一起學。 1、實戰效果 •接下來下冰冰圖片 you-get https://inews.gtimg.com/newsapp_bt/0/13122 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...