前言 嗨嘍,大家好!這裡是魔王吶~ 環境使用: Python 3.8 解釋器<運行代碼> Pycharm 編輯器 <寫代碼> 模塊使用]: requests >>> 數據請求 第三方模塊 pip install requests <工具> re <正則表達式模塊> 如果安裝python第三方模塊: ...
前言
嗨嘍,大家好!這裡是魔王吶~
環境使用:
-
Python 3.8 解釋器<運行代碼>
-
Pycharm 編輯器 <寫代碼>
模塊使用]:
- requests >>> 數據請求 第三方模塊 pip install requests <工具>
- re <正則表達式模塊>
如果安裝python第三方模塊:
- win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
- 在pycharm中點擊Terminal(終端) 輸入安裝命令
如何配置pycharm裡面的python解釋器?
- 選擇file(文件) >>> setting(設置) >>> Project(項目) >>> python interpreter(python解釋器)
- 點擊齒輪, 選擇add
- 添加python安裝路徑
pycharm如何安裝插件?
- 選擇file(文件) >>> setting(設置) >>> Plugins(插件)
- 點擊 Marketplace 輸入想要安裝的插件名字 比如:翻譯插件 輸入 translation / 漢化插件 輸入 Chinese
- 選擇相應的插件點擊 install(安裝) 即可
- 安裝成功之後 是會彈出 重啟pycharm的選項 點擊確定, 重啟即可生效
基本思路流程:
一. 分析數據來源
找尋網址上面視頻數據來自於哪裡
開發者工具進行抓包..
- 滑鼠右鍵點擊檢查 或者 F12打開開發者工具
- 刷新網頁
- 找尋視頻數據...<通過media里找尋視頻url地址>
- 找視頻url地址來於那個數據包 >>> 通過視頻url地址中一段參數進行搜索, 建議是搜.mp4前面這段內容...
二, 代碼實現過程: 對於某些網站 可能需要多次請求,
- 發送請求, 對於找到視頻數據包發送請求
- 獲取數據, 獲取伺服器返迴響應數據
- 解析數據, 提取我們想要數據內容 視頻url地址 視頻標題
.... - 保存數據, 保存視頻數據到本地文件夾
多個視頻採集 <視頻數據包url地址變化規律>
代碼
# 導入模塊
import requests import requests # 數據請求模塊 import pprint # 格式化輸出模塊 import re
for page in range(2, 6): print(f'正在採集第{page}頁的數據內容') link = f'https://v.huya.com/g/all?set_id=51&order=hot&page={page}' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36' } html_data = requests.get(url=link, headers=headers).text # print(html_data) # 使用re正則表達式提取數據 從什麼地方去獲取什麼數據 # <li data-vid="(\d+)"><a href=".*?" 加了括弧是我們想要數據內容 \d+ 匹配多個數字 .*? 可以匹配任意字元(除了換行符\n) video_id_list = re.findall('<li data-vid="(\d+)"><a href=".*?"', html_data) print(video_id_list) for video_id in video_id_list: url = f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=1654949607282' # 偽裝python代碼 在開發者工具里複製 user-agent 用戶代理 表示瀏覽器基本身份表示 # headers請求頭, 可以python代碼偽裝成瀏覽器對於url地址發送請求 <作用防止被識別出來是爬蟲程式> # cookie 用戶信息, 常用於檢測是否登陸賬號 <無論登陸與否 都有一個cookie> # headers = { # 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36' # } # 通過requests模塊裡面get請求方法對於url地址發送請求, 並且攜帶上headers請求頭偽裝, 最後用自定義變數response接受返回數據 response = requests.get(url=url, headers=headers) # print(response.json()) # <Response [200]> 200表示請求成功 response.json() 返回數據一定是完整json數據格式 # pprint.pprint(response.json()) # 解析數據 字典取值 根據鍵值對取值 {'鍵': '值', '鍵1': '值1'} 根據冒號左邊的內容<鍵>, 提取冒號右邊的內容<值> title = response.json()['data']['moment']['title'] title = re.sub(r'[\/:*?"<>|\n\r\t]', '', title) video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url'] print(title) print(video_url)
# 保存數據 需要對於視頻播放地址, 發送請求獲取數據內容 video_content = requests.get(url=video_url, headers=headers).content with open('video\\' + title +video_id + '.mp4', mode='wb') as f: # as 重命名為 f f.write(video_content) # f = open('video\\' + title + '.mp4', mode='wb') # f.write(video_content) # f.close()
尾語
成功沒有快車道,幸福沒有高速路。
所有的成功,都來自不倦地努力和奔跑,所有的幸福都來自平凡的奮鬥和堅持
——勵志語錄
本文章就寫完啦~感興趣的小伙伴可以複製代碼去試試
你們的支持是我最大的動力!!記得三連哦~