【爬蟲實戰項目】Python爬蟲批量下載網易雲音樂飆升榜並保存本地(附源碼)

来源:https://www.cnblogs.com/guzichuan/archive/2022/12/30/17014070.html
-Advertisement-
Play Games

前言 今天給大家介紹的是Python爬蟲批量下載音樂飆升榜並保存本地,在這裡給需要的小伙伴們代碼,並且給出一點小心得。 首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對音樂飆升榜進行 ...


前言

今天給大家介紹的是Python爬蟲批量下載音樂飆升榜並保存本地,在這裡給需要的小伙伴們代碼,並且給出一點小心得。

首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對音樂飆升榜進行爬取。

在每次進行爬蟲代碼的編寫之前,我們的第一步也是最重要的一步就是分析我們的網頁。

通過分析我們發現在爬取過程中速度比較慢,所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。

音樂

開發工具

Python版本: 3.6

相關模塊:

requests模塊

time模塊

parsel模塊

re模塊

time模塊

環境搭建

安裝Python並添加到環境變數,pip安裝需要的相關模塊即可。

文中完整代碼及文件,評論留言獲取

數據來源查詢分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具,查看我們想要的音樂飆升榜在哪裡
這裡我們需要頁面數據就可以了

源代碼結構

代碼實現

url = 'https://www.kugou.com/yy/html/rank.html'
# 請求頭: 把python代碼偽裝成瀏覽器對伺服器發送請求,  服務接收到請求,確認無誤 會返回一個響應體數據 (response)
# user-agent : 瀏覽器基本信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    'Cookie': '你的Cookie'
}
response = requests.get(url=url, headers=headers)
# 獲取響應體文本數據 response.text
# print(response.text)
# 返回是字元串
# 解析數據 提取每個榜單url地址  css選擇器 主要根據標簽的屬性內容提取數據
# 需要把獲取到 response.tex 文本數據 轉換成 selector 解析對象
selector = parsel.Selector(response.text)
#  attr() 屬性選擇器  選擇a標簽裡面的href屬性
#  getall() 獲取所有A標簽裡面的內容 返回的是列表
#  get() 獲取一個a標簽裡面的內容 返回的是字元串
# 直接取標簽文本數據 text
href = selector.css('.pc_rank_sidebar li a::attr(href)').getall()
href = href[15:] # 列表切片
for index in href:
    response_2 = requests.get(url=index, headers=headers)
    # 正則表達式裡面 () 精確匹配  提取的內容
    # .*? 通配符 可以匹配任意字元返回是列表
    # \d 匹配一個數字 \d+ 匹配多個數字
    Hash_list = re.findall('"Hash":"(.*?)"', response_2.text)
    id_list = re.findall('"album_id":(\d+),', response_2.text)
    zip_data = zip(Hash_list, id_list)
    for link in zip_data:
        time.sleep(1)
        now_time = int(time.time() *1000)
        hash = link[0]
        music_id = link[1]
        link_url = 'https://wwwapi.kugou.com/yy/index.php'
        # get請求的url 問號後面的參數 都是屬於 請求參數
        # params 請求參數
        # ? 非貪婪匹配  貪婪匹配  . 匹配任意一個字元(除了\n) * 匹配前字元 一個或者多個
        params = {
            'r': 'play/getdata',
            # 'callback': 'jQuery1910035165171305796106_1624450739070',
            'hash': hash,
            'dfid': '4WPBq03cK0E03W1gW53TM7Vs',
            'mid': '562939428ef6d5d8272814a5058a411b',
            'platid': '4',
            'album_id': music_id,
            '_': now_time,
        }
        response_3 = requests.get(url=link_url, params=params, headers=headers)

獲取Cookie

Cookie獲取

效果展示

效果展示2

最後

今天的分享到這裡就結束了 ,感興趣的朋友也可以去試試哈

對文章有問題的,或者有其他關於python的問題,可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話,可以關註一下我,或者給文章點贊(/≧▽≦)/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • jdk安裝 下載jdk 由於現在主流就是jdk1.8,所以這裡就下載jdk1.8進行演示。官方下載地址:https://www.oracle.com/java/technologies/downloads/#java8-windows。 官方下載需要註冊oracle賬號,國內下載有可能速度慢,若不想 ...
  • 題目來源 400. 第 N 位數字 題目詳情 給你一個整數 n ,請你在無限的整數序列 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ...] 中找出並返回第 n 位上的數字。 示例 1: 輸入: n = 3 輸出: 3 示例 2: 輸入: n = 11 輸出: 0 解釋: ...
  • #增強for迴圈 增強for迴圈 (也稱for each迴圈) 是迭代器遍歷方法的一個“簡化版”,是JDK1.5以後出來的一個高級for迴圈,專門用來遍曆數組和集合。 普通for迴圈 int[] num = {1,2,3,4,5,6}; for(int i = 0 ; i<num.length ; ...
  • RocketMQ 優異的性能表現,必然繞不開其優秀的存儲模型 。 這篇文章,筆者按照自己的理解 , 嘗試分析 RocketMQ 的存儲模型,希望對大家有所啟發。 1 整體概覽 首先溫習下 RocketMQ 架構。 整體架構中包含四種角色 : Producer :消息發佈的角色,Producer 通過 ...
  • JZ74 和為S的連續正數序列 題目 小明很喜歡數學,有一天他在做數學作業時,要求計算出9~16的和,他馬上就寫出了正確答案是100。 但是他並不滿足於此,他在想究竟有多少種連續的正數序列的和為100(至少包括兩個數)。 沒多久,他就得到另一組連續正數和為100的序列:18,19,20,21,22。 ...
  • 1. C++常量表達式 constexpr 是 C++ 11 標準新引入的關鍵字,在學習其具體用法和功能之前,我們需要先搞清楚 C++ 常量表達式的含義。 所謂常量表達式,指的就是由多個(≥1)常量組成的表達式。換句話說,如果表達式中的成員都是常量,那麼該表達式就是一個常量表達式。這也意味著,常量表 ...
  • 眾所周知,非同步併發編程可以幫助程式更好地處理阻塞操作,比如網路 IO 操作或文件 IO 操作,避免因等待這些操作完成而導致程式卡住的情況。雲存儲文件傳輸場景正好包含網路 IO 操作和文件 IO 操作,比如業內相對著名的七牛雲存儲,官方sdk的預設阻塞傳輸模式雖然差強人意,但未免有些循規蹈矩,不夠銳意 ...
  • Docker-compose是什麼?能幹嘛?解決了哪些痛點? 是什麼? Docker-compose是Docker官方推出 的一個工具軟體,可以管理多個Docker容器組成的一個應用。你需要編寫一個一個YAML格式的配置文件:docker-compose.yml。寫好多個容器之間的調用關係。然後,只 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...