挑戰每分鐘爬取100個視頻，只要網速夠快，反爬就追不到我

-Advertisement-

前言好看視頻大部分是精品短視頻！相同的介面返回不同的視頻給用戶今天就帶大家把系統推薦的視頻給爬取下來！知識點 1、動態數據抓包演示 2、json數據解析方法 3、視頻數據保存環境介紹 python 3.6 pycharm requests json 爬蟲的一般思路 1、分析目標網頁，確定爬取 ...

前言

好看視頻大部分是精品短視頻！相同的介面返回不同的視頻給用戶

今天就帶大家把系統推薦的視頻給爬取下來！

知識點

1、動態數據抓包演示

2、json數據解析方法

3、視頻數據保存

環境介紹

python 3.6

pycharm

requests

json

爬蟲的一般思路

1、分析目標網頁，確定爬取的url路徑，headers參數

2、發送請求 -- requests 模擬瀏覽器發送請求，獲取響應數據

3、解析數據

4、保存數據 -- 保存在目標文件夾中

步驟

1、導入工具

import requests
import time
import pprint

2、確定爬取的url路徑，headers參數

# 獲取時間戳
"""
    時間戳是指格林威治時間1970年01月01日00時00分00秒(北京時間1970年01月01日08時00分00秒)起至現在的總毫秒數。
    秒級時間戳，10位
    毫秒級時間戳，13位
    微秒級時間戳，16位
"""

time_one = str(int(time.time() * 1000))
# print(time_one)
base_url = 'https://haokan.baidu.com/videoui/api/videorec?tab=gaoxiao&act=pcFeed&pd=pc&num=20&shuaxin_id=' + time_one
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36',
    'cookie': 'BIDUPSID=ABD6DB65092EB1ECFA3DB139E3DCDE8D; PSTM=1575868363; BAIDUID=ABD6DB65092EB1ECE63825000D8C97DB:FG=1; BDUSS=U1c0hpalFvb2ZLclIwY0tHSnA2T0ZLbjV3NDcyQmhkQ2FsV2VPbmptS1U1QzllRVFBQUFBJCQAAAAAAAAAAAEAAAD9hL2nuti-~M~oMzEzNjQxOQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJRXCF6UVwheZn; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; PC_TAB_LOG=haokan_website_page; Hm_lvt_4aadd610dfd2f5972f1efee2653a2bc5=1578978739,1578979115; BAIDU_SSP_lcr=https://www.hao123.com/link/https/?key=http%3A%2F%2Fv.baidu.com%2F&&monkey=m-coolsites-row0&c=B22D86A598C084B684993C4C1472E65C; BDRCVFR[PaHiFN6tims]=9xWipS8B-FspA7EnHc1QhPEUf; delPer=0; PSINO=6; H_PS_PSSID=; Hm_lpvt_4aadd610dfd2f5972f1efee2653a2bc5=1578982791; reptileData=%7B%22data%22%3A%22ff38fdbd98456480e9c9c7834cbfeaa39236e14520ac985b719893846080819083f656303845fdcba03de7a67af409104bd1b7bccbc028b467f251922334608c1b34b919ef391c146a5ad41b8099df302ec0d32f3a55b4271300112ff8e8f12a1cde132ecaf78f8df8d9c97ddd9abefa4d7a4d8bdd641c156c016dba346150a8%22%2C%22key_id%22%3A%2230%22%2C%22sign%22%3A%226430f36d%22%7D'
    }

3、發送請求 -- requests 模擬瀏覽器發送請求，獲取響應數據

response = requests.get(base_url, headers=headers)
data = response.json()
# pprint.pprint(data)

4、解析數據

data_list = data['data']['response']['videos']  # --列表
# print(data_list)

# 遍歷列表
for data in data_list:
    video_name = data['title'] + '.rmvb'  # 視頻文件名
    video_url = data['play_url']  # 視頻的url地址
    # print(video_name, video_url)
    # print(type(video_name))

    # 再次發送請求
    print('正在下載：', video_name)
    video_data = requests.get(video_url, headers=headers).content

5、保存數據 -- 保存在目標文件夾中

 with open('video\\' + video_name, 'wb') as f:
        f.write(video_data)
        print('下載完成。。。\n')

運行代碼，效果如下圖

好了，這樣視頻就可以慢慢的下載了

歡迎點擊右上角關註小編，除了分享技術文章之外還有很多福利，私信學習資料可以領取包括不限於Python實戰演練、PDF電子文檔、面試集錦、學習資料等。

不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包！包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python哈希表和解析式

[TOC] 哈嘍，大家好！距離上一篇文章近1個半月了，不是我拖呀~，剛好這個月遇到了工作調整，再加上要照顧10個月的孩子，實屬不易，所以就這麼長時間沒來更新了。這不，我每天碼一點點，'滴水成河'，努力完成了這篇文章。 1. 封裝和解構 1.1 封裝說明：等號(=)右邊有多個數值僅通過逗號分割，就 ...
怎麼反爬蟲爬取網站信息

我們在爬取網站的時候，都會遵守 robots 協議，在爬取數據的過程中，儘量不對伺服器造成壓力。但並不是所有人都這樣，網路上仍然會有大量的惡意爬蟲。對於網路維護者來說，爬蟲的肆意橫行不僅給伺服器造成極大的壓力，還意味著自己的網站資料泄露，甚至是自己刻意隱藏在網站的隱私的內容也會泄露，這也就是反爬蟲技 ...
@Resource、@Autowired等幾個註解的區別

1、@Resource註解和@Autowired的區別 @Autowired註解：是按類型裝配依賴對象，預設情況下它要求依賴對象必須存在，如果允許null值，可以設置它required屬性為false。 @Resource註解：和@Autowired一樣，也可以標註在欄位或屬性的setter方法上， ...
Spring Boot 入門（十三）：集成Hasor的Dataway模塊，幹掉後臺，自動配置介面

spring boot集成hasor下的dataway，幹掉後臺，自動配置介面，實現0代碼搭建介面 ...
第一個爬蟲和測試

一、完善球賽程式，測試球賽程式。將代碼末尾稍作改動即可，若代碼正確，則運行，否則輸出Error。 from random import random #列印程式介紹信息 def printIntro(): print("19信計2班23號鄧若言") print("這個程式模擬兩個選手A和B的乒乓球 ...
異常、多線程、集合類、泛型

"TOC" 異常基本概念異常是在運行時期發生的不正常情況。異常類在java中用類的形式對不正常情況進行了描述和封裝對象，描述不正常的情況的類。異常就是java通過面向對象的思想將問題封裝成了對象.用異常類對其進行描述. 異常體系不同的問題用不同的類進行具體的描述。比如角標越界。空指針 ...
這一份MySQL書單，可以幫你搞定90%以上的面試題！

如果想看更多技術好書，可以關註微信公眾號【程式員書單】作者黃小斜，目前是阿裡Java工程師，業餘時間廣泛讀書，在公眾號里除了分享程式員必讀的技術書籍之外，也會推薦很多關於個人成長、投資理財等方面的書籍。你煩惱的每個問題，書中都有答案。在這裡，我們將為你推薦幫助程式員以及互聯網從業者自我提升的各 ...
你真的以為電腦網路不重要嗎，這份書單幫你搞定相關面試題！

公眾號【程式員書單】作者黃小斜，目前是阿裡Java工程師，業餘時間廣泛讀書，在公眾號里除了分享程式員必讀的技術書籍之外，也會推薦很多關於個人成長、投資理財等方面的書籍。你煩惱的每個問題，書中都有答案。在這裡，我們將為你推薦幫助程式員以及互聯網從業者自我提升的各類好書、優質學習資源和工具，每周p ...