Python中使用requests和parsel爬取喜馬拉雅電臺音頻

来源:https://www.cnblogs.com/badaoliumangqizhi/archive/2019/10/27/11749848.html
-Advertisement-
Play Games

場景 喜馬拉雅電臺: https://www.ximalaya.com/ 找到一步小說音頻,這裡以下麵為例 https://www.ximalaya.com/youshengshu/16411402/ 博客:https://blog.csdn.net/badao_liumang_qizhi關註公眾號 ...


場景

喜馬拉雅電臺:

https://www.ximalaya.com/

找到一步小說音頻,這裡以下麵為例

https://www.ximalaya.com/youshengshu/16411402/

博客:
https://blog.csdn.net/badao_liumang_qizhi
關註公眾號
霸道的程式猿
獲取編程相關電子書、教程推送與免費下載。

實現

找到下載地址

使用谷歌瀏覽器打開上面網址,按F12打開調試,點擊播放按鈕後,然後找到Network下的Media下的Headers下的RequestURL,然後選中在新視窗中打開

 

 

 

打開之後就可以點擊三個點出來之後的下載按鈕,便可以下載

 

 

 

使用代碼下載

打開PyCharm,新建一個Python項目

導入requests庫,然後為了防止其反扒機制,找到瀏覽器上Headers下的Requests Headers下的User-Agent,複製出來。

 

 

 

#能發送http請求的庫
import requests

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36' 
}
media_url
= 'http://audio.cos.xmcdn.com/group47/M0A/34/EA/wKgKm1tHj6GwgeWBAFehkfjyvKI181.m4a' response = requests.get(media_url,headers = headers); with open('badao.mp4',mode='wb') as f: f.write(response.content)

 

下載成功之後

 

 

 

下載地址獲取

上面只是獲取一個音頻的下載地址,怎樣獲取每一集的下載地址

還是剛纔的調試頁面,我們點擊放大鏡樣的搜索按鈕,出來搜索框之後,輸入剛纔下載地址的文件名

 

 

 

點擊第一個返回json數據的介面url,找到其Headers下的RequestURL。

 

 

 

然後在新視窗打開

 

 

 

可以看到是通過這個API返回的Json數據中的下載地址。

那麼這個API需要傳遞什麼參數。通過其Headers底部的請求參數可以看到需要一個id參數和pytype參數。

 

 

 

通過對比每一集的介面的請求參數得知,pytype是固定的,id是每一集對應的鏈接中的id相對應的。

 

 

 

所以要是迴圈下載多集的話,需要在目錄頁面獲取超鏈接的href屬性中對應的id。

 

 

 

這裡我們定義一個請求下載地址json數據的方法

defmedia_api(track_id):
api_url=f'https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1'; response = requests.get(api_url,headers = headers) print(response.json()) media_api(98791745)

 

運行下列印json數據

 

 

 

提取下載地址

那麼就需要根據傳遞的id參數通過這個介面返回json數據,並從json數據中提取src對應的url數據

def media_api(track_id):   
api_url=f'https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1'; response = requests.get(api_url,headers = headers) #print(response.json()) #json返回字典類型 提取使用[] data_json = response.json() src = data_json['data']['src'] return src media_api(98791745)

 

這樣就能根據id獲取每一集的下載地址,然後再將下載地址傳遞給上面第一步下載的方法中進行下載即可。

接下來就是怎樣獲取每一集的id。

parsel解析網頁獲取id

首先需要導入parsel模塊

import parsel

 

如果沒有安裝則需要安裝

pip install parsel

 

 

我們來到其目錄頁

 

 

在Elemnts下可以看到每一集是一個a標簽,我們獲取a標簽的href屬性中的最後面的id。

我們再定義一個方法,此方法能根據頁面的url獲取當前頁的所有集的id。

def get_total_page(page_url):
    #請求頁面
    response = requests.get(page_url,headers = headers)
    print(response.text)
    #獲取頁面html的內容
    sel = parsel.Selector(response.text)
    print(sel)
    #通過css選擇器找到a標簽   .sound-list代表 class屬性為sound-list 然後下麵的ul 下的li 下的a
    sound_list = sel.css('.sound-list ul li a')
    print(sound_list)
    #只有前30個是頁面鏈接 截取前30個
    for sound in sound_list[:30]:
        #extract_first()將對象中的文字提取出來
        #獲取a標簽的href屬性的內容
        media_url = sound.css('a::attr(href)').extract_first()
        #/youshengshu/16411402/98791745 --只去最後面的id
        media_url = media_url.split('/')[-1]
        # 獲取a標簽的title屬性的內容
        media_name = sound.css('a::attr(title)').extract_first()
        #用yield將整個迴圈的內容返回
        yield media_url,media_name

 

 

下載一頁的音頻

我們在main方法中調用獲取當前頁所有的集的id和名字,然後迴圈將拿到的id去請求api獲取下載的地址,然後將下載地址傳遞給下載的方法去下載

 

if __name__ == '__main__':
    meidas = get_total_page('https://www.ximalaya.com/youshengshu/16411402/')
    for media_id,media_name in meidas:
        #print(media_url, media_name)
        media_url = media_api(media_id)
        download_meida(media_url, media_name)

 

運行程式將一頁下載完

 

 

下載所有頁

我們點擊第二頁看到url中追加了一個p2,依次類推,p+相應的頁數。

這樣就可以將頁面url改造成傳參的

if __name__ == '__main__':
    #迴圈頁數下載 range代表下載的頁數範圍
    for page in range(2,3):
        meidas = get_total_page(f'https://www.ximalaya.com/youshengshu/16411402/p{page}')
        for media_id,media_name in meidas:
            #print(media_url, media_name)
            media_url = media_api(media_id)
            download_meida(media_url, media_name)

那麼在range中就可以輸入要下載的頁數的範圍。

如果輸入(1,31)就是下載所有的30頁,這裡只下載第二頁,所以range是(2,3)

代碼下載

關註公眾號:

霸道的程式猿

回覆:

爬取喜馬拉雅

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 強制類型轉換: 字元轉數值 parseInt();從左向右一次轉換,能轉則轉,不能轉停止;如果第一位就不能轉,直接NaN;不識別小數點。 parseFloat();等同於parseInt,同時可以識別小數點 Math.round();嚴格轉換,不允許出現任何非數字的字元,否則NaN;取最接近的整數 ...
  • final 是Java 中重要關鍵字之一,可以應用於類、方法以及變數上。這篇文章中將講解什麼是 final 關鍵字?將變數、方法和類聲明為 final 代表了什麼?使用 final 的好處是什麼? final 關鍵字是什麼? final 在 Java 中是一個保留的關鍵字,可以聲明成員變數、方法、類 ...
  • 消費者驅動的契約Consumer Driven Contracts (CDC)A contract between a consuming service and a providing service, stating what the consumer wants from a providin... ...
  • 恢復內容開始 介面一個比抽象類更抽象的類我們稱它為介面1、介面中只能寫抽象方法:2、介面的語法: 訪問修飾符 interface 介面的名稱{ 只能寫抽象的方法}3、介面中只能有抽象的方法,在我們java1.8之後abstract可以省略但是它還是一個抽象方法4、介面中沒有構造函數5、介面中的變數: ...
  • 今天,我就來講一下動態代理的設計模式。 動態代理的意義在於生成一個代理對象,來代理真實對象,從而控制真實對象的訪問。操作動態代理需要兩個步驟:一、代理對象和真實對象建立代理關係。二、實現代理對象的代理邏輯方法。 在Java中,有很多的動態代理技術。如:JDK、CGLIB、Javassist、ASM, ...
  • 背景 上一文我們講到瞭如何去搭建註冊中心,這一次我們講述如何使用nacos作為註冊中心 spring cloud alibaba basis 創建基礎依賴 首先我們創建一個spring cloud alibaba basis 基礎依賴 工程裡面制定我們要用到的公用的版本 spring boot 版本 ...
  • gitlab就相當於我們自己內網搭建的git服務,相當於公司內的github。 拉取鏡像docker pull gitlab/gitlab-ce 創建宿主機的數據目錄mkdir -p /mnt/gitlab/etcmkdir -p /mnt/gitlab/logmkdir -p /mnt/gitla ...
  • 我們知道,在Eureka中,可以使用如下方法使Eureka主動下線,那麼本篇文章就來分析一下子這個下線的流程 主要做了這麼幾件事: 1. 解除狀態監聽器 2. 取消心跳、刷新線程 3. 向服務端發起下線通知 4. 停止各個監聽器 服務端接受下線消息 下線消息的處理在 類中 先看具體的下線邏輯,與租約 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...