十五行Python代碼實現批量下載好看的視頻，嘎嘎好看

-Advertisement-

話說人生苦短，我用Python。如果學python不是為了下載這些視頻，那將毫無意義！啊呸，老色批咳咳，我們開始正題，聲明一下，雖然某平臺幾十位老師被抓了，但是咱們不爬那些視頻哈。一、事前前奏首先沒裝Python、pycharm的鐵子先自己安裝一下，我就不寫安裝了。然後就是模塊了，還是爬 ...

话说人生苦短，我用Python。

如果学python不是为了下载这些视频，那将毫无意义！

啊呸，老色批

咳咳，我们开始正题，声明一下，虽然某平台几十位老师被抓了，但是咱们不爬那些视频哈。

一、事前前奏

首先没装Python、pycharm的铁子先自己安装一下，我就不写安装了。

然后就是模块了，还是爬虫老大件 requests ，直接 pip 安装即可，requests 是数据请求模块。

win+r 打开运行框输入 cmd 按回车，在弹出来的命令提示符窗口输入 pip install requests 回车即可安装成功。

安装失败原因
1、 pip 不是内部命令，解决方法（设置环境变量）
2、出现大量报红 (read time out) ，解决方法（因为是网络链接超时, 需要切换镜像源）
3、cmd里面显示已经安装过了，或者安装成功了，但是在pycharm里面还是无法导入，解决方法（可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好，或者你pycharm里面python解释器没有设置好）

镜像源

清华：https://pypi.tuna.tsinghua.edu.cn/simple
阿里云：https://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学：https://pypi.hustunique.com/
山东理工大学：https://pypi.sdutlinux.org/
豆瓣：https://pypi.douban.com/simple/

# Python学习交流群：815624229

安装方式

例如

pip3 install -i https://pypi.doubanio.com/simple/ 模块名

如何配置pycharm里面的python解释器?

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
点击齿轮, 选择add。
添加python安装路径

pycharm如何安装插件?

选择file(文件) >>> setting(设置) >>> Plugins(插件)
点击 Marketplace 输入想要安装的插件名字，比如：翻译插件输入 translation，汉化插件输入 Chinese
选择相应的插件点击 install(安装) 即可
安装成功之后是会弹出重启pycharm的选项，点击确定，重启即可生效。

二、正文

前奏完了，我们直接进入主题…

地址我把关键的删掉了，第一个 v.6 第二个 haokan.baidu

1、思路流程

我们怎么去实现一个pa虫案例?

每个网站数据结构都是不一样的，需要自己重新去分析去抓包，但pa虫基本就这个流程。

1、数据来源分析

首先确定自己的目标地址以及目标数据来源，确定url地址；
通过开发者工具进行抓包分析；

2、代码实现过程

发送请求，对于刚刚分析得到url地址发送请求；
获取数据，获取服务器返回 response数据；
解析数据，提取我们想要内容，视频播放url地址以及视频标题；
保存数据，保存本地文件夹；

2、代码展示

首先导入模块

import requests
import re

re是正则表达是模块，内置的，不用安装。只要安装 requests 就好了。

发送请求

对于刚刚分析得到url地址发送请求

I. 请求url网址 [理解为电话号码]；
II. 请求方式；
III. headers伪装需要加什么参数、请求头、字典数据类型、键值对形式；

for page in range(26, 29):
    print(f'====================================正在采集第{page}页数据内容====================================')
    url = f'https://minivideo/getMiniVideoList.php?act=recommend&page={page}&pagesize=25'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)

<Response [200]> 返回response响应对象 200 状态码表示请求成功。

获取数据

获取服务器返回response数据

response.text 获取响应体文本数据           字符串数据类型
response.json() 获取响应体json字典数据     字典数据类型

如果返回数据是一个完整 json 数据格式，可以直接获取 response.json() 为了方便之后提取内容。
字典取值更方便，可以直接根据键值对提取数据内容，根据冒号左边的内容，提取冒号右边的内容。

先取 content 再取list ，返回的就是列表数据。

print(response.text)
print(response.json()['content']['list'])

这个返回的列表就包含了视频的数据信息，后面的地址我就没截图了，我怕~

解析数据

提取我们想要内容、视频播放url地址以及视频标题。

for index in response.json()['content']['list'][14:]:
    title = index['title']
    play_url = index['playurl']  # 快速复制 ctrl + D
    new_title = re.sub(r'[\/:*?"|<>]', '', title)
    print(title, play_url)

保存数据

video_content = requests.get(url=play_url).content
with open('video\\' + new_title + '.mp4', mode='wb') as f:
    f.write(video_content)
print('视频保存完成: ', title, play_url)

补充

json获取数据

import requests
import re
import json
url = 'https://com/web/search/api?pn=4&rn=10&type=video&query=%E7%BE%8E%E5%A5%B3'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'
}
json_data = requests.get(url=url, headers=headers).json()
for index in json_data['data']['list']:
    index_url = index['url']
    html_data = requests.get(url=index_url, headers=headers).text
    video_info = re.findall('window.__PRELOADED_STATE__ = (.*?);.*?document', html_data)[0]
    json_data_1 = json.loads(video_info)
    title = json_data_1['curVideoMeta']['title']
    video_url = json_data_1['curVideoMeta']['clarityUrl'][-1]['url']
    print(title, video_url)

3、结果展示

在这里插入图片描述
兄弟们，今天的分享就到这里，记得点赞收藏！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Spring Security實現統一登錄與許可權控制

1 項目介紹最開始是一個單體應用，所有功能模塊都寫在一個項目里，後來覺得項目越來越大，於是決定把一些功能拆分出去，形成一個一個獨立的微服務，於是就有個問題了，登錄、退出、許可權控制這些東西怎麼辦呢？總不能每個服務都複製一套吧，最好的方式是將認證與鑒權也單獨抽離出來作為公共的服務，業務系統只專心做業務 ...
【JavaWeb-Ajax】筆記彙總 --- 全局刷新和局部刷新；ajax 中使用 XMLHttpRequest 對象（四步）；json 的使用

非同步請求特點：某一個時刻，瀏覽器可以委托多個非同步請求對象發送請求，無需等待請求處理完成 ...
泛型類的概述和使用--泛型方法的概述和使用---泛型介面的概述和使用---泛型高級（通配符）

泛型類：把泛型定義在類上 package Day16; //泛型類：把泛型定義在類上 public class ObjectDemo<T> { //把泛型定義在類上調用時只能調用和添加本類型的數據 private T obj; public void setObj(T obj) { this.ob ...
Spring 學習筆記

Spring 框架是由於軟體開發的複雜性而創建的。Spring 使用的是基本的 JavaBean 來完成以前只可能由 EJB 完成的事情。 ...
某文庫的文檔一直要氪金才能下載，還好我會Python，輕鬆實現白嫖！

基本開發環境💨 Python 3.6 Pycharm 相關模塊的使用💨 import os import requests import time import re import json from docx import Document from docx.shared import Cm ...
我寫的 Python 代碼，同事都說好

原文鏈接：我寫的 Python 代碼，同事都說好人生苦短，我用 Python。程式員的追求就是不寫代碼，早日財務自由。不對，一不小心把實話說出來了，應該是將代碼寫得簡潔，優雅。 Python 程式員的追求則是 Pythonic，正好在 Python 這門語言中，「隱藏」了特別多方法，可以使代碼 ...
程式語言與編程實踐5-> Java實操2 | 第二周作業及思路講解 | 基礎知識強化考察

Java的第二周作業的思考總結，涉及的只是有static代碼塊的輸出次序，面向對象的編程實戰，字元串的拼接等java基本的關鍵的內容。 ...
有了jmespath，處理python中的json數據就變成了一種享受...

枚舉對於一些簡單的題目，我們或許不需要用什麼太巧妙的方法，只需要把所有的可能性列舉出來，然後逐一試驗就可以了。方法通過事先把各種可能發生的事情都列舉一遍，為後面求解提供結果。常見類型枚舉排列枚舉子集遞歸基本思想通過不斷調用自己，把一個複雜問題層層轉化為規模更小的相似問題。補充 n ...