爬蟲實例學習——爬取酷狗TOP500數據

-Advertisement-

酷狗網址：https://www.kugou.com/yy/rank/home/1-8888.html?from=rank 環境：eclipse+pydev 請求頭獲取方式：打開chrome瀏覽器，輸入chrome://version，添加時加上‘User-Agent’:即可（獲得信息應置於' '中 ...

酷狗網址：https://www.kugou.com/yy/rank/home/1-8888.html?from=rank

環境：eclipse+pydev

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import time
 4 
 5 headers ={
 6     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36 QIHU 360EE'
 7           }    #加入請求頭，偽裝成瀏覽器，以便更好抓取數據
 8 
 9 def get_info(url):           #定義獲取信息的函數
10     wb_data = requests.get(url,headers = headers)
11     soup = BeautifulSoup(wb_data.text,'lxml')
12     ranks = soup.select('span.pc_temp_num')                     #selet()方法見下麵圖示
13     titles = soup.select('#rankWrap > div.pc_temp_songlist > ul > li > a')  
14     times = soup.select('span.pc_temp_tips_r > span')
15     for rank,title,time in zip(ranks,titles,times):
16         data = {
17             'rank':rank.get_text().strip(),                #歌曲序號
18             'singer':title.get_text().split('-')[0],       #歌手名稱
19             'song':title.get_text().split('-')[1],         #歌曲名稱
20             'time':time.get_text().strip()                 #歌曲時長
21         }         
22         print (data)     
23         
24 if __name__ == '__main__':                #程式主入口
25     urls = ['https://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(str(i)) for i in range(1,24)]            #構建多頁url，500條結果需23組，每頁網頁22條
26     for url in urls:
27         get_info(url)
28         time.sleep(1)            #暫停程式，避免因提交網頁請求頻率過快而導致程式異常終止

請求頭獲取方式：打開chrome瀏覽器，輸入chrome://version，添加時加上‘User-Agent’:即可（獲得信息應置於' '中）。

select()使用方法:該方法類似於中國>廣東省>惠州市，從大到小，提取信息，可通過chrome複製得到，如圖示：

註意：將li:nth-of-child(1)改為li

運行結果：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

面向對象六大設計原則（轉載）

設計模式詳解（總綱）原文地址：https://www.cnblogs.com/zuoxiaolong/p/pattern1.html 作者：zuoxiaolong8810（左瀟龍），轉載請註明出處，特別說明：本博文來自博主原博客，為保證新博客中博文的完整性，特複製到此留存，如需轉載請註明新博客地址 ...
趁老王不在，和隔壁鄰居鬥鬥地主，比比大小

這幾天又空閑下來了，手癢癢，就想找隔壁鄰居玩一玩鬥地主，趁老王不在家，消遣下無聊的時光。現在但是每次在玩的時候，老是被鄰居的穿著干擾到，我就在想是不是可以用python來搞一搞這個鬥地主，然後讓我專註在鄰居身上，哦不，是鄰居的牌身上。 ...
Spring 後置處理器源碼

在《 "幾種自定義Spring生命周期的初始化和銷毀方法" 》最後一段描述了啟動 Spring 容器過程中，初始化和銷毀方法的執行時機，那麼在 Spring 中是如何做到的呢？註冊主配置類 Spring 使用指定主配置類，將其註冊到 BeanFactory。除了主配置類，還會將一些基礎的後置處理 ...
指針學習筆記1

一、指針變數定義 type *name; 這裡，’*’代表他是一個指針變數。二、指針賦值 int *p=nullptr; 這裡，nullptr就是空指針 int a=2; p=&a; ‘&’為取地址符（在scanf裡面經常用到）將a的地址傳給指針p，其中a必須為int類型。顯然，直接對p進行存取， ...
java 中“方法重載”和“方法重寫”的異同點

重載（overload）方法名：相同參數列表：不同返回值類型：無關修飾符：無關定義位置：同一個類中重寫（override）方法名：相同參數列表：相同返回值類型：相同修飾符：子類訪問許可權不小於父類定義位置：子類父類中 ...
python基礎學習筆記

1.Python中的編碼格式 a.ASCII碼 ASCII碼共有127個字元，包括數字，大小寫字母，和一些符號，比如常見的字元的ASCII碼表示有：A：65，z:132，ASCII碼是用一個位元組表示的，其主要的缺點就是因為在記憶體中只占一個位元組，所以無法被用來表示中文，只能表示一些單字元元素。針對不 ...
java 中四種訪問修飾符的簡單認知

四種訪問的修飾符分別是（private 預設 protected public) 此排序按照訪問許可權的大小（由小到大）測試1：本類中進行 show1 privateshow2 預設show3 protectedshow4 public 結果表明：在本類中，四種修飾符修飾的方法都可訪問。測試2： ...
python 遞歸-漢諾塔

# 漢諾塔 a = "A" b = "B" c = "C" def hano(a, b, c, n): if n == 1: print("{} --> {}".format(a, c)) if n == 2: print("{} --> {}".format(a, c)) print("{} --... ...