【爬蟲實戰項目】Python爬蟲批量下載網易雲音樂飆升榜並保存本地（附源碼）

-Advertisement-

前言今天給大家介紹的是Python爬蟲批量下載音樂飆升榜並保存本地，在這裡給需要的小伙伴們代碼，並且給出一點小心得。首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本數據爬取的人會很多，所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對音樂飆升榜進行 ...

前言

今天給大家介紹的是Python爬蟲批量下載音樂飆升榜並保存本地，在這裡給需要的小伙伴們代碼，並且給出一點小心得。

首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲，基本的是加請求頭，但是這樣的純文本數據爬取的人會很多，所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對音樂飆升榜進行爬取。

在每次進行爬蟲代碼的編寫之前，我們的第一步也是最重要的一步就是分析我們的網頁。

通過分析我們發現在爬取過程中速度比較慢，所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。

開發工具

Python版本： 3.6

相關模塊：

requests模塊

time模塊

parsel模塊

re模塊

time模塊

環境搭建

安裝Python並添加到環境變數，pip安裝需要的相關模塊即可。

文中完整代碼及文件，評論留言獲取

數據來源查詢分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具，查看我們想要的音樂飆升榜在哪裡
這裡我們需要頁面數據就可以了

源代碼結構

代碼實現

url = 'https://www.kugou.com/yy/html/rank.html'
# 請求頭: 把python代碼偽裝成瀏覽器對伺服器發送請求,  服務接收到請求,確認無誤 會返回一個響應體數據 (response)
# user-agent : 瀏覽器基本信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
    'Cookie': '你的Cookie'
}
response = requests.get(url=url, headers=headers)
# 獲取響應體文本數據 response.text
# print(response.text)
# 返回是字元串
# 解析數據 提取每個榜單url地址  css選擇器 主要根據標簽的屬性內容提取數據
# 需要把獲取到 response.tex 文本數據 轉換成 selector 解析對象
selector = parsel.Selector(response.text)
#  attr() 屬性選擇器  選擇a標簽裡面的href屬性
#  getall() 獲取所有A標簽裡面的內容 返回的是列表
#  get() 獲取一個a標簽裡面的內容 返回的是字元串
# 直接取標簽文本數據 text
href = selector.css('.pc_rank_sidebar li a::attr(href)').getall()
href = href[15:] # 列表切片
for index in href:
    response_2 = requests.get(url=index, headers=headers)
    # 正則表達式裡面 () 精確匹配  提取的內容
    # .*? 通配符 可以匹配任意字元返回是列表
    # \d 匹配一個數字 \d+ 匹配多個數字
    Hash_list = re.findall('"Hash":"(.*?)"', response_2.text)
    id_list = re.findall('"album_id":(\d+),', response_2.text)
    zip_data = zip(Hash_list, id_list)
    for link in zip_data:
        time.sleep(1)
        now_time = int(time.time() *1000)
        hash = link[0]
        music_id = link[1]
        link_url = 'https://wwwapi.kugou.com/yy/index.php'
        # get請求的url 問號後面的參數 都是屬於 請求參數
        # params 請求參數
        # ? 非貪婪匹配  貪婪匹配  . 匹配任意一個字元(除了\n) * 匹配前字元 一個或者多個
        params = {
            'r': 'play/getdata',
            # 'callback': 'jQuery1910035165171305796106_1624450739070',
            'hash': hash,
            'dfid': '4WPBq03cK0E03W1gW53TM7Vs',
            'mid': '562939428ef6d5d8272814a5058a411b',
            'platid': '4',
            'album_id': music_id,
            '_': now_time,
        }
        response_3 = requests.get(url=link_url, params=params, headers=headers)

獲取Cookie

Cookie獲取

效果展示

效果展示2

最後

今天的分享到這裡就結束了，感興趣的朋友也可以去試試哈

對文章有問題的，或者有其他關於python的問題，可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話，可以關註一下我，或者給文章點贊(/≧▽≦)/

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Windows下jdk安裝與卸載-超詳細的圖文教程

jdk安裝下載jdk 由於現在主流就是jdk1.8，所以這裡就下載jdk1.8進行演示。官方下載地址：https://www.oracle.com/java/technologies/downloads/#java8-windows。官方下載需要註冊oracle賬號，國內下載有可能速度慢，若不想 ...
LeetCode-400. 第N位數字

題目來源 400. 第 N 位數字題目詳情給你一個整數 n ，請你在無限的整數序列 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ...] 中找出並返回第 n 位上的數字。示例 1：輸入： n = 3 輸出： 3 示例 2：輸入： n = 11 輸出： 0 解釋： ...
複習Stream流，函數式介面，方法引用

#增強for迴圈增強for迴圈 (也稱for each迴圈) 是迭代器遍歷方法的一個“簡化版”，是JDK1.5以後出來的一個高級for迴圈，專門用來遍曆數組和集合。普通for迴圈 int[] num = {1,2,3,4,5,6}; for(int i = 0 ; i<num.length ; ...
終於弄明白了 RocketMQ 的存儲模型

RocketMQ 優異的性能表現，必然繞不開其優秀的存儲模型。這篇文章，筆者按照自己的理解 , 嘗試分析 RocketMQ 的存儲模型，希望對大家有所啟發。 1 整體概覽首先溫習下 RocketMQ 架構。整體架構中包含四種角色 : Producer ：消息發佈的角色，Producer 通過 ...
Python教程：如何創建多線程？

JZ74 和為S的連續正數序列題目小明很喜歡數學,有一天他在做數學作業時,要求計算出9~16的和,他馬上就寫出了正確答案是100。但是他並不滿足於此,他在想究竟有多少種連續的正數序列的和為100(至少包括兩個數)。沒多久,他就得到另一組連續正數和為100的序列:18,19,20,21,22。 ...
C++11：constexpr關鍵字

1. C++常量表達式 constexpr 是 C++ 11 標準新引入的關鍵字，在學習其具體用法和功能之前，我們需要先搞清楚 C++ 常量表達式的含義。所謂常量表達式，指的就是由多個（≥1）常量組成的表達式。換句話說，如果表達式中的成員都是常量，那麼該表達式就是一個常量表達式。這也意味著，常量表 ...
乾坤大挪移,如何將同步阻塞(sync)三方庫包轉換為非同步非阻塞(async)模式？Python3.10實現。

眾所周知，非同步併發編程可以幫助程式更好地處理阻塞操作，比如網路 IO 操作或文件 IO 操作，避免因等待這些操作完成而導致程式卡住的情況。雲存儲文件傳輸場景正好包含網路 IO 操作和文件 IO 操作，比如業內相對著名的七牛雲存儲，官方sdk的預設阻塞傳輸模式雖然差強人意，但未免有些循規蹈矩，不夠銳意 ...
一、對稱加密（DES加密）

Docker-compose是什麼？能幹嘛？解決了哪些痛點? 是什麼？ Docker-compose是Docker官方推出的一個工具軟體，可以管理多個Docker容器組成的一個應用。你需要編寫一個一個YAML格式的配置文件：docker-compose.yml。寫好多個容器之間的調用關係。然後，只 ...