【爬蟲實戰項目】Python爬蟲批量下載網易雲音樂飆升榜並保存本地(附源碼)

来源:https://www.cnblogs.com/guzichuan/archive/2022/12/30/17014070.html
-Advertisement-
Play Games

前言 今天給大家介紹的是Python爬蟲批量下載音樂飆升榜並保存本地,在這裡給需要的小伙伴們代碼,並且給出一點小心得。 首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對音樂飆升榜進行 ...


前言

今天給大家介紹的是Python爬蟲批量下載音樂飆升榜並保存本地,在這裡給需要的小伙伴們代碼,並且給出一點小心得。

首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對音樂飆升榜進行爬取。

在每次進行爬蟲代碼的編寫之前,我們的第一步也是最重要的一步就是分析我們的網頁。

通過分析我們發現在爬取過程中速度比較慢,所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。

音樂

開發工具

Python版本: 3.6

相關模塊:

requests模塊

time模塊

parsel模塊

re模塊

time模塊

環境搭建

安裝Python並添加到環境變數,pip安裝需要的相關模塊即可。

文中完整代碼及文件,評論留言獲取

數據來源查詢分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具,查看我們想要的音樂飆升榜在哪裡
這裡我們需要頁面數據就可以了

源代碼結構

代碼實現

url = 'https://www.kugou.com/yy/html/rank.html'
# 請求頭: 把python代碼偽裝成瀏覽器對伺服器發送請求,  服務接收到請求,確認無誤 會返回一個響應體數據 (response)
# user-agent : 瀏覽器基本信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    'Cookie': '你的Cookie'
}
response = requests.get(url=url, headers=headers)
# 獲取響應體文本數據 response.text
# print(response.text)
# 返回是字元串
# 解析數據 提取每個榜單url地址  css選擇器 主要根據標簽的屬性內容提取數據
# 需要把獲取到 response.tex 文本數據 轉換成 selector 解析對象
selector = parsel.Selector(response.text)
#  attr() 屬性選擇器  選擇a標簽裡面的href屬性
#  getall() 獲取所有A標簽裡面的內容 返回的是列表
#  get() 獲取一個a標簽裡面的內容 返回的是字元串
# 直接取標簽文本數據 text
href = selector.css('.pc_rank_sidebar li a::attr(href)').getall()
href = href[15:] # 列表切片
for index in href:
    response_2 = requests.get(url=index, headers=headers)
    # 正則表達式裡面 () 精確匹配  提取的內容
    # .*? 通配符 可以匹配任意字元返回是列表
    # \d 匹配一個數字 \d+ 匹配多個數字
    Hash_list = re.findall('"Hash":"(.*?)"', response_2.text)
    id_list = re.findall('"album_id":(\d+),', response_2.text)
    zip_data = zip(Hash_list, id_list)
    for link in zip_data:
        time.sleep(1)
        now_time = int(time.time() *1000)
        hash = link[0]
        music_id = link[1]
        link_url = 'https://wwwapi.kugou.com/yy/index.php'
        # get請求的url 問號後面的參數 都是屬於 請求參數
        # params 請求參數
        # ? 非貪婪匹配  貪婪匹配  . 匹配任意一個字元(除了\n) * 匹配前字元 一個或者多個
        params = {
            'r': 'play/getdata',
            # 'callback': 'jQuery1910035165171305796106_1624450739070',
            'hash': hash,
            'dfid': '4WPBq03cK0E03W1gW53TM7Vs',
            'mid': '562939428ef6d5d8272814a5058a411b',
            'platid': '4',
            'album_id': music_id,
            '_': now_time,
        }
        response_3 = requests.get(url=link_url, params=params, headers=headers)

獲取Cookie

Cookie獲取

效果展示

效果展示2

最後

今天的分享到這裡就結束了 ,感興趣的朋友也可以去試試哈

對文章有問題的,或者有其他關於python的問題,可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話,可以關註一下我,或者給文章點贊(/≧▽≦)/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • jdk安裝 下載jdk 由於現在主流就是jdk1.8,所以這裡就下載jdk1.8進行演示。官方下載地址:https://www.oracle.com/java/technologies/downloads/#java8-windows。 官方下載需要註冊oracle賬號,國內下載有可能速度慢,若不想 ...
  • 題目來源 400. 第 N 位數字 題目詳情 給你一個整數 n ,請你在無限的整數序列 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ...] 中找出並返回第 n 位上的數字。 示例 1: 輸入: n = 3 輸出: 3 示例 2: 輸入: n = 11 輸出: 0 解釋: ...
  • #增強for迴圈 增強for迴圈 (也稱for each迴圈) 是迭代器遍歷方法的一個“簡化版”,是JDK1.5以後出來的一個高級for迴圈,專門用來遍曆數組和集合。 普通for迴圈 int[] num = {1,2,3,4,5,6}; for(int i = 0 ; i<num.length ; ...
  • RocketMQ 優異的性能表現,必然繞不開其優秀的存儲模型 。 這篇文章,筆者按照自己的理解 , 嘗試分析 RocketMQ 的存儲模型,希望對大家有所啟發。 1 整體概覽 首先溫習下 RocketMQ 架構。 整體架構中包含四種角色 : Producer :消息發佈的角色,Producer 通過 ...
  • JZ74 和為S的連續正數序列 題目 小明很喜歡數學,有一天他在做數學作業時,要求計算出9~16的和,他馬上就寫出了正確答案是100。 但是他並不滿足於此,他在想究竟有多少種連續的正數序列的和為100(至少包括兩個數)。 沒多久,他就得到另一組連續正數和為100的序列:18,19,20,21,22。 ...
  • 1. C++常量表達式 constexpr 是 C++ 11 標準新引入的關鍵字,在學習其具體用法和功能之前,我們需要先搞清楚 C++ 常量表達式的含義。 所謂常量表達式,指的就是由多個(≥1)常量組成的表達式。換句話說,如果表達式中的成員都是常量,那麼該表達式就是一個常量表達式。這也意味著,常量表 ...
  • 眾所周知,非同步併發編程可以幫助程式更好地處理阻塞操作,比如網路 IO 操作或文件 IO 操作,避免因等待這些操作完成而導致程式卡住的情況。雲存儲文件傳輸場景正好包含網路 IO 操作和文件 IO 操作,比如業內相對著名的七牛雲存儲,官方sdk的預設阻塞傳輸模式雖然差強人意,但未免有些循規蹈矩,不夠銳意 ...
  • Docker-compose是什麼?能幹嘛?解決了哪些痛點? 是什麼? Docker-compose是Docker官方推出 的一個工具軟體,可以管理多個Docker容器組成的一個應用。你需要編寫一個一個YAML格式的配置文件:docker-compose.yml。寫好多個容器之間的調用關係。然後,只 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...