[toc] # 一、爬取目標 您好,我是[@馬哥python說](https://www.zhihu.com/people/13273183132),一名10年程式猿。 本次爬取的目標是: [微博熱搜榜](https://s.weibo.com/top/summary?cate=realtimeho ...
目錄
一、爬取目標
您好,我是@馬哥python說,一名10年程式猿。
本次爬取的目標是: 微博熱搜榜
分別爬取每條熱搜的:
熱搜標題、熱搜排名、熱搜類別、熱度、鏈接地址。
下麵,對頁面進行分析。
經過分析,此頁面沒有XHR鏈接通過,也就是說,沒有採用AJAX非同步技術。
所以,只能針對原頁面進行爬取。
二、編寫爬蟲代碼
2.1 前戲
首先,導入需要用到的庫:
import pandas as pd # 存入excel數據
import requests # 向頁面發送請求
from bs4 import BeautifulSoup as BS # 解析頁面
定義一個爬取目標地址:
# 目標地址
url = 'https://s.weibo.com/top/summary?cate=realtimehot'
定義一個請求頭:
# 請求頭
header = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
'Host': 's.weibo.com',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh-Hans;q=0.9',
'Accept-Encoding': 'gzip, deflate, br',
# 定期更換Cookie
'Cookie': '換成自己的Cookie值'
}
其中,Cookie需要換成自己的Cookie值。
2.2 獲取cookie
怎麼查看自己的Cookie?
Chrome瀏覽器,按F12打開開發者模式,按照以下步驟操作:
- 選擇網路:Network
- 選擇所有網路:All
- 選擇目標鏈接地址
- 選擇頭:Headers
- 選擇請求頭:Request Headers
- 查看cookie值
2.3 請求頁面
下麵,向頁面發送請求:
r = requests.get(url, headers=header) # 發送請求
2.4 解析頁面
接下來,解析返回的頁面:
soup = BS(r.text, 'html.parser')
```
![](https://img2023.cnblogs.com/blog/2864563/202307/2864563-20230711213330436-846402627.png)
根據頁面分析,每條熱搜都放在了標簽為section的、class值為list的數據里,裡面每條熱搜,又是一個a標簽。
所以,根據這個邏輯,解析頁面,以獲取鏈接地址為例:
```python
items = soup.find('section', {'class': 'list'})
for li in items.find_all('li'):
# 鏈接地址
href = li.find('a').get('href')
href_list.append('https://s.weibo.com' + href)
頁面其他元素,熱搜標題、排名、熱度、類別等獲取代碼,不再一一贅述。
2.5 轉換熱搜類別
其中,熱搜類別這個元素需要註意,在頁面上是一個個圖標,背後對應的是class值,是個英文字元串,需要轉換成對應的中文含義,定義以下函數進行轉換:
def trans_icon(v_str):
"""轉換熱搜類別"""
if v_str == 'icon_new':
return '新'
elif v_str == 'icon_hot':
return '熱'
elif v_str == 'icon_boil':
return '沸'
elif v_str == 'icon_recommend':
return '商'
else:
return '未知'
目前的轉換函數包括了"新"、"熱"、"沸"、"商"等類別。
我記得,微博熱搜類別,是有個"爆"的,就是熱度最高的那種,突然躥升的最熱的熱點,爆炸性的。但是現在沒有爆炸性新聞,所以我看不到"爆"背後的class值是什麼。
後續如果有爆炸性熱點,可以按照代碼的邏輯,加到這個轉換函數里來。
2.6 保存結果
依然採用我最順手的to_excel方式,存入爬取的數據:
df = pd.DataFrame( # 拼裝爬取到的數據為DataFrame
{
'熱搜標題': text_list,
'熱搜排名': order_list,
'熱搜類別': type_list,
'熱度': view_count_list,
'鏈接地址': href_list
}
)
df.to_excel('微博熱搜榜.xlsx', index=False) # 保存結果數據
至此,整個爬取過程完畢。
2.7 查看結果數據
查看一下,保存到excel里的數據:
其中,第一條是置頂熱搜,所以一共是 (1+50=51) 條數據。
演示視頻:https://www.zhihu.com/zvideo/1488901467788070912
三、獲取完整源碼
get完整代碼:【最新爬蟲案例】用Python爬取微博熱搜榜!
我是@馬哥python說,持續分享python源碼乾貨中!