python爬蟲利器,you-get,讓天下沒有難爬的網頁

来源:https://www.cnblogs.com/duxingdalao/archive/2019/05/20/10892117.html
-Advertisement-
Play Games

今天給大家介紹一款爬蟲利器,小白也可以拿來即用的利器:you-get。You-Get 是一個 Python 編寫的命令行下載器 ...


今天給大家介紹一款爬蟲利器,小白也可以拿來即用的利器:you-get。

You-Get 是一個 Python 編寫的命令行下載器,用於從 Web 下載媒體內容(視頻,音頻,圖像)。這個程式在 GitHub 上已有 2 萬多的 Star。

you-get 能做什麼?

  • 從熱門網站下載視頻/音頻,例如 YouTube,bilibili,鬥魚等等。

  • 在媒體播放器中或者瀏覽器中播放視頻,沒有廣告。

  • 通過抓取網頁下載圖片。

  • 下載任意非 HTML 內容,即二進位文件。

you-get 安裝:

首先確保你安裝了 Python 環境,然後可以通過 pip 命令安裝 you-get。

pip install you-get

you-get 升級

可以通過以下方式升級 you-get。

pip install --upgrade you-get

設置下載文件的路徑和名稱

使用 --output-dir/ -o 選項設置路徑,和 --output-filename/ -O 設置下載文件的名稱。

微博上有個紀念澳門回歸的秒拍視頻,我設置好保存路徑和名稱後會直接下載保存。

you-get -o E:\youget -O macao http://n.miaopai.com/media/N4vmrRKzpcV5k80IbXlO8BuGCNm

這樣就會把視頻保存在你剛定義的目錄中,如果不添加路徑參數的話視頻會預設保存在你輸入命令時的當前路徑。

瀏覽器觀看視頻

如果您希望在瀏覽器中直接觀看視頻,而且是沒有廣告或評論部分,使用 -p 後面加上瀏覽器名稱,比如我加的是 chrome,視頻可以放大播放。

you-get -p chrome http://n.miaopai.com/media/N4vmrRKzpcV5k80IbXlO8BuGCNmwkFvf

 

學習python爬蟲過程中有不懂的可以加入我的python零基礎系統學習交流秋秋qun:前面是934,中間109,後面是170,與你分享Python企業當下人才需求及怎麼從零基礎學習Python,和學習什麼內容。相關學習視頻資料、開發工具都有分享

下載圖片

我要下載 pixabay 網站上一張單張圖片,使用如下命令:

you-get https://pixabay.com/en/landscape-volcano-central-java-3779159/

用這個命令會下載 3 張不同大小的圖片到你當前目錄下,1 張略縮圖,2 張高清大圖,可以根據自己需求選擇使用。

移動端

剛纔說的都是 Web 網頁,其實你還可以操作移動端、APP、H5,移動端的反爬措施一般比較少,感興趣的自己去試試吧。

支持的網站

目前支持的網站有 100 種之多,包括我們經常用的網易視頻、網易雲音樂、b 站、百度貼吧、豆瓣、鬥魚、優酷、抖音等等,還包括國外的 YouTube、Instagram、Facebook 等網站

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作為一個真正的前端工作者適配是一個老生常談的問題,那麼今天給大家總結一下在工作當中常用做適配的方式。 一、固定佈局(pc端)(靜態佈局) 以像素作為頁面的基本單位,不管設備和瀏覽器寬度,只設計一套尺寸 二、根據不同根據不同的解析度,載入不同的CSS樣式文件(可切換的固定佈局)自適應佈局 1、<scr ...
  • 簡歷第三天 簡歷的CSS文件 簡歷的html 今天效果圖 今天學習到的內容 ...
  • 為什麼選擇Vue 通過一個對比,展示 框架的優勢: 需求:根據請求後端介面返回的數據列表,渲染在頁面中。 傳統上我們使用 的`Ajax http`請求,獲取數據。判斷列表數據是否存在,如果不存在,顯示一條提示信息;如果存在,則顯示出來。 "DEMO 1 1 jQuery create list" j ...
  • 大家在使用D3.js中的力導向圖時,基本都會遇到動態增加節點及連線的需求,這裡記錄一下我的實現方式。 話不多說,先放代碼: 再看效果圖: 總結:從代碼上看實現這個功能邏輯還是挺簡單的,但是從顯示效果上看後增加的連線會覆蓋在原先的節點上,顯示效果不友好,下一篇會說明一下這個問題應該如何解決。 ...
  • Interator "集合"數據的結構主要有 、 、 and ,任何數據結構只要部署 Iterator 介面,就可完成遍歷操作 遍歷過程: 創建指針,指向當前數據結構起始位。(遍歷對象本質是一個指針對象)。 依次迴圈調用指針對象的 方法,對應指向數據結構成員,直至結束。 ` 每次調用 方法,返回對象 ...
  • 一、TodoList 1.1安裝依賴 安裝相關依賴: 1.2配置虛擬伺服器 【第一步:安裝依賴】 【第二步:json-server的伺服器啟動】 啟動需要json文件作為支撐,新建data.json文件做服務數據: 最終沒有使用webpack-dev-server模擬伺服器 配置webpack.co ...
  • 原文地址:https://www.cnblogs.com/wmyskxz/p/8820371.html 原文地址:https://www.cnblogs.com/wmyskxz/p/8820371.html 原文地址:https://www.cnblogs.com/wmyskxz/p/8820371 ...
  • " 模塊化開發(一)" ES6 詳解 ES6 的模塊自動採用嚴格模式,不管你有沒有在模塊頭部加上"use strict"。 頂層的this指向undefined,即不應該在頂層代碼使用this。 嚴格模式主要有以下限制: 1. 變數必須聲明後再使用 2. 函數的參數不能有同名屬性,否則報錯 3. 不 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...