【爬蟲案例】用Python爬取百度熱搜榜數據！

-Advertisement-

[toc] # 一、爬取目標您好，我是[@馬哥python說](https://www.zhihu.com/people/13273183132)，一名10年程式猿。本次爬取的目標是：[百度熱搜榜](https://top.baidu.com/board?tab=realtime) ![百度熱搜 ...

一、爬取目標
二、編寫爬蟲代碼
三、同步視頻講解
四、完整源碼

一、爬取目標

您好，我是@馬哥python說，一名10年程式猿。

本次爬取的目標是：百度熱搜榜
百度熱搜榜頁面

分別爬取每條熱搜的：

熱搜標題、熱搜排名、熱搜指數、描述、鏈接地址。

下麵，對頁面進行分析。
經過分析，此頁面有XHR鏈接，可以針對介面進行爬取。

打開Chrome瀏覽器，按F12進入開發者模式，依次點擊：

點擊Network，選擇網路
點擊XHR，選擇XHR請求
選擇目標鏈接地址
擊Preview，選擇預覽
查看返回數據

操作過程，如下圖所示：
開發者模式

二、編寫爬蟲代碼

首先，導入需要用到的庫：

import requests  # 發送請求
import pandas as pd  # 存入excel數據

定義一個百度熱搜榜介面地址：

# 百度熱搜榜地址
url = 'https://top.baidu.com/api/board?platform=wise&tab=realtime'

構造一個請求頭，偽裝爬蟲：

# 構造請求頭
header = {
	'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
	'Host': 'top.baidu.com',
	'Accept': 'application/json, text/plain, */*',
	'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'Accept-Encoding': 'gzip, deflate, br',
	'Referer': 'https://top.baidu.com/board?tab=novel',
}

向百度頁面發送requests請求：

# 發送請求
r = requests.get(url, header)

返回的數據是json格式的，直接用r.json()接收：

# 用json格式接收請求數據
json_data = r.json()

這裡，需要註意的是，頁面上有2種熱搜：

百度熱搜榜最上面一條是置頂熱搜，下麵從1到30是普通熱搜，介面返回的數據也是區分開的：

所以，爬蟲代碼需要分開處理邏輯：

置頂熱搜：

# 爬取置頂熱搜
top_content_list = json_data['data']['cards'][0]['topContent']

普通熱搜：

# 爬取普通熱搜
content_list = json_data['data']['cards'][0]['content']

然後再分別進行json解析，對應的欄位（標題、排名、熱搜指數、描述、鏈接地址）。
最後，保存結果數據到excel即可。

df = pd.DataFrame(  # 拼裝爬取到的數據為DataFrame
	{
		'熱搜標題': title_list,
		'熱搜排名': order_list,
		'熱搜指數': score_list,
		'描述': desc_list,
		'鏈接地址': url_list
	}
)
df.to_excel('百度熱搜榜.xlsx', index=False)  # 保存結果數據

最後，查看一下爬取到的數據：
結果數據

一共31條數據（1條置頂熱搜+30條普通熱搜）。
每條數據包含：熱搜標題、熱搜排名、熱搜指數、描述、鏈接地址。

三、同步視頻講解

講解視頻：https://www.zhihu.com/zvideo/1490668062617161728

四、完整源碼

get完整源碼：【爬蟲案例】用Python爬取百度熱搜榜數據！

我是@馬哥python說，持續分享python源碼乾貨中！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

vue2基礎入門vue2

# vue基礎 - vue項目搭建 - vue單文件組件 - mustach表達式 - vue指令 - methods方法 - filters過濾器 - computed計算屬性 - watch監聽器 - vue組件 - vue-router 路由 - vue生命周期 - vue組件通信 - slo ...
H5 WebGL實現水波特效

字元串的17種方法。。。。。。 length：返回字元串的長度。 const str = "Hello, World!"; console.log(str.length); // 輸出 13 charAt(index)：返回指定索引位置的字元。 const str = "Hello, World!" ...
vue3中父組件與組件之間參數傳遞，使用(defineProps/defineEmits)，涉及屬性傳遞，對象傳遞，數組傳遞，以及事件傳遞

## Vue3 中子父組件之間的通信 ### 一、父組件傳遞參數到子組件採用defineProps #### 傳遞屬性父組件: ```vue 這是父組件父組件像子組件傳遞參數傳遞屬性值 ``` 子組件: ```vue 這是子組件屬性值接收區父組件傳值接收區：字元型：{{ fatherMe ...
基於分步表單的實踐探索

>我們是[袋鼠雲數棧 UED 團隊](http://ued.dtstack.cn/)，致力於打造優秀的一站式數據中台產品。我們始終保持工匠精神，探索前端道路，為社區積累並傳播經驗價值。。 >本文作者：修能 ***以下內容充滿個人觀點。◡ ヽ(`Д´)ﾉ ┻━┻*** # 前言基於分佈表單的需求，在 ...
模板模式

#### 模板模式的定義其定義如下： Define the skeleton of an algorithm in an operation,deferring some steps to subclasses.Template Method lets subclasses redefine ce ...
服務端應用多級緩存架構方案

## 一：場景 20w的QPS的場景下，服務端架構應如何設計？ ## 二：常規解決方案可使用分散式緩存來抗，比如redis集群，6主6從，主提供讀寫，從作為備，不提供讀寫服務。1台平均抗3w併發，還可以抗住，如果QPS達到100w,通過增加redis集群中的機器數量，可以擴展緩存的容量和併發讀寫能 ...
【經典爬蟲案例】用Python爬取微博熱搜榜！

[toc] # 一、爬取目標您好，我是[@馬哥python說](https://www.zhihu.com/people/13273183132)，一名10年程式猿。本次爬取的目標是: [微博熱搜榜](https://s.weibo.com/top/summary?cate=realtimeho ...
python學習筆記：第七章面向對象

與java類似，python作為一種面向對象的編程語言，也可以創建自定義的對象和類。它的特性主要有：繼承，封裝，多態，方法，屬性，超類 # 1.變數的作用域 ```python c = 50 #全局變數，作用域為整個模塊，若被引用，可作用域整個包 def plus(x,y): c = x + y ...