手把手教你使用Python抓取QQ音樂數據(第二彈)

来源:https://www.cnblogs.com/dcpeng/archive/2020/06/26/13195378.html
-Advertisement-
Play Games

【一、項目目標】 通過Python爬取QQ音樂數據(一)我們實現了獲取 QQ 音樂指定歌手單曲排行指定頁數的歌曲的歌名、專輯名、播放鏈接。 此次我們在之前的基礎上獲取QQ音樂指定歌曲的歌詞及前15個精彩評論。 【二、需要的庫】 主要涉及的庫有:requests、json、html 【三、項目實現】 ...


【一、項目目標】

通過Python爬取QQ音樂數據(一)我們實現了獲取 QQ 音樂指定歌手單曲排行指定頁數的歌曲的歌名、專輯名、播放鏈接。

此次我們在之前的基礎上獲取QQ音樂指定歌曲的歌詞及前15個精彩評論。

【二、需要的庫】

主要涉及的庫有:requests、json、html

【三、項目實現】

1.以歌曲“泡沫”為例,查看該界面的XHR

2.通過對XHR的Size進行排序,逐個查看(參考英文含義),我們看到第一個紅框內是歌曲評論,第二個框內是歌詞!

3.分別查看這兩條數據Headers裡面Parms參數。

4.發現這幾個參數可能會代表不同的歌曲,那到底是哪個呢,我們在代開另一首歌對比一下。

5.發現只有這個topid不同,其他都一樣,這就代表topid代表不同歌曲的id,同理我們看一下歌詞。

6、確定下來:musicid= topid = 歌曲的id,接下來我們的任務是找到這個id。

7.返回以下界面,也就是我們上一個項目的主戰場。

參考上一個項目,很容易找到“id”的值就是我們要尋找的id。

所以思路確定下來:先通過input()輸入歌名生成url_1找到該歌曲的“id”參數,再生成url_2獲取歌詞和評論。

8.代碼實現:獲取歌曲id,如下所示:

import requests,html,json

url_1 = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'

headers = {

'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

/# 標記了請求從什麼設備,什麼瀏覽器上發出

}

i = input('請輸入需要查詢歌詞的歌曲名稱:')

params = {'ct': '24', 'qqmusic_ver': '1298', 'new_json': '1', 'remoteplace': 'txt.yqq.song', 'searchid': '71600317520820180', 't': '0', 'aggr': '1', 'cr': '1', 'catZhida': '1', 'lossless': '0', 'flag_qc': '0', 'p': '1', 'n': '10', 'w': i, 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'utf-8', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0'}

res_music = requests.get(url_1,headers=headers,params=params)

/# 發起請求

json_music = res_music.json()

id = json_music['data']['song']['list'][0]['id']

print(id)

9.代碼實現:獲取歌詞

實現方法如下:

url_2 = 'https://c.y.qq.com/lyric/fcgi-bin/fcg_query_lyric_yqq.fcg'

headers = {

'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

/# 標記了請求從什麼設備,什麼瀏覽器上發出

}

params = {

'nobase64':'1',

'musicid':id, /#用上面獲取到的id

'-':'jsonp1',

'g_tk':'5381',

'loginUin':'0',

'hostUin':'0',

'format':'json',

'inCharset':'utf8',

'outCharset':'utf-8',

'notice':'0',

'platform':'yqq.json',

'needNewCode':'0',

}

res_music = requests.get(url_2,headers=headers,params=params)

/# 發起請求

js = res_music.json()

lyric = js['lyric']

lyric_html = html.unescape(lyric) /#用了轉義字元html.unescape方法

/# print(lyric_html)

f1 = open(i+'歌詞.txt','a',encoding='utf-8')

f1.writelines(lyric_html)

f1.close() /#存儲到txt中

input('下載成功,按回車鍵退出!')

  1. 代碼實現:獲取評論。

url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'

headers = {

'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

/# 標記了請求從什麼設備,什麼瀏覽器上發出

}

params = {'g_tk_new_20200303': '5381', 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'GB2312', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0', 'cid': '205360772', 'reqtype': '2', 'biztype': '1', 'topid': id, 'cmd': '8', 'needmusiccrit': '0', 'pagenum': '0', 'pagesize': '25', 'lasthotcommentid': '', 'domain': 'qq.com', 'ct': '24', 'cv': '10101010'}

res_music = requests.get(url_3,headers=headers,params=params)

/# 發起請求

js = res_music.json()

comments = js['hot_comment']['commentlist']

f2 = open(i+'評論.txt','a',encoding='utf-8') /#存儲到txt中

for i in comments:

comment = i['rootcommentcontent'] + '\n——————————————————————————————————\n'

f2.writelines(comment)

/# print(comment)

f2.close()

input('下載成功,按回車鍵退出!')

  1. 封裝函數

11.結果展示

【四、總結】

1.項目二比項目一稍複雜一點,多了一步獲取歌曲id的步驟;

2.通過XHR爬取數據一般要使用json,格式為:

res =requests.get(url)

json =res.json()

list = json[‘’][‘’]…

3.學習了轉義字元html.unescape方法;

4.保存到txt還可以用 with open() as的方法;

5.Python爬取QQ音樂數據(第三彈)將為大家帶來如何爬取更多評論,並生成詞雲圖(wordcloud)。

6.需要本文源碼的話,請在公眾號後臺回覆“QQ音樂”四個字進行獲取。

看完本文有收穫?請轉發分享給更多的人

IT共用之家

入群請在微信後臺回覆【入群】


想學習更多Python網路爬蟲與數據挖掘知識,可前往專業網站:http://pdcfighting.com/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 所有操作需要在root用戶下本機測試案例系統信息:ubuntu安裝路徑:/usr/local/php8 解壓縮: wget https://downloads.php.net/~pollita/php-8.0.0alpha1.tar.gz tar -zxvf php-8.0.0alpha1.tar. ...
  • 最近看一些國外程式員的文章,瞭解一下國外的程式員都在研究什麼、使用什麼工具、如何工作、如何掙錢……發現收穫頗豐,瞭解到了不少特有的思維方式及有創意的技術平臺。 本篇是關於如何通過編碼掙錢的文章,作者提供了十種通過編碼掙錢的途徑。在翻譯的同時,也會附帶一些個人的看法。下麵是正文: 知道如何編寫代碼是一 ...
  • 又看到一篇關於方法論的文章,觀點還是不錯的。翻譯出來,分享給大家。如果有一項啟發了你,那恭喜你。以下為正文內容: 就像沒有兩片相同的雪花一樣,程式員也各有不同。每一片雪花都是由不同原子以獨特的結構構成。同樣,對於程式員來說無論學習的途徑如何相似,在開發技能和能力上都會有所不同。 即使具有不同天資水平 ...
  • Session--驗證碼案例(Java) 博客說明 文章所涉及的資料來自互聯網整理和個人總結,意在於個人學習和經驗彙總,如有什麼地方侵權,請聯繫本人刪除,謝謝! 案例 用戶輸入用戶名,密碼以及驗證碼。 如果用戶名和密碼輸入有誤,跳轉登錄頁面,提示:用戶名或密碼錯誤 如果驗證碼輸入有誤,跳轉登錄頁面, ...
  • 一、整體說明 tomcat需要完成兩件事情: 接受外部HTTP請求 載入servlet,並且把請求傳給Servlet進行處理。 整體可以抽象為如下: 二、整體代碼架構 在tomcat的代碼中抽象了以下三個類: Server類,代表tomcat實例 Connector類,代表HTTP監聽器(上圖中的H ...
  • 本篇文章分享看題目就知道是寫給初學者的,學的比較好的小伙伴也可以將自動演算法等一些知識給加進去,希望對大家有幫助! 好了,當我們所有的準備工作做好之後,我們就可以來編寫我們的C語言連連看游戲了! 其實這個游戲設計起來真的是很簡單的一種,本例用到的知識點主要有:數組,結構體,分支結構,圖形庫函數。 游戲 ...
  • a=['序號',1,2,3,4,5] b=['成本',20,45,12,34,67] import pandas c=pandas.Series(a) d=pandas.Series(b) e=pandas.DataFrame(list(zip(c,d))) print(e) 0 1 0 序號 成本 ...
  • HTTP 非同步風格伺服器 # http_server.php $http = new Swoole\Http\Server("0.0.0.0", 9501); // 設置伺服器運行參數 $serv->set(array( 'daemonize' => 1, // 作為守護進程運行,需同時設置log_ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...