【python爬蟲案例】爬取微博任意搜索關鍵詞的結果，以“唐山打人”為例

-Advertisement-

詳細講解python爬蟲代碼，爬微博搜索結果的博文數據。爬取欄位：頁碼、微博id、微博bid、微博作者、發佈時間、微博內容、轉發數、評論數、點贊數。爬蟲技術： 1、requests 發送請求 2、datetime 時間格式轉換 3、jsonpath 快速解析json數據 4、re 正則表達式提... ...

一、爬取目標
二、展示爬取結果
三、講解代碼
四、同步視頻
- 4.1 演示視頻
- 4.2 講解視頻

一、爬取目標

大家好，我是馬哥。

今天分享一期python爬蟲案例，爬取目標是新浪微博的微博數據，包含：

頁碼, 微博id, 微博bid, 微博作者, 發佈時間, 微博內容, 轉發數, 評論數, 點贊數

經過分析調研，發現微博有3種訪問方式，分別是：

PC端網頁：https://weibo.com/
移動端：https://weibo.cn/
手機端：https://m.weibo.cn/

最終決定，通過手機端爬取。

這裡，給大家分享一個爬蟲小技巧。當目標網站既存在PC網頁端，又有手機移動端，建議爬取移動端，原因是：移動端一般網頁結構簡單，並且反爬能力較弱，更方便爬蟲爬取。

二、展示爬取結果

我通過爬蟲代碼，爬取了“唐山打人”這個關鍵字下的前80頁微博，部分數據如下：爬取結果
一共635條數據，共80頁，差不多每頁不到10條的數據。

三、講解代碼

首先，導入需要用到的庫：

import os
import re  # 正則表達式提取文本
from jsonpath import jsonpath  # 解析json數據
import requests  # 發送請求
import pandas as pd  # 存取csv文件
import datetime  #

然後，定義一個轉換時間字元串的函數，因為爬取到的時間戳是GMT格式（類似這種：Fri Jun 17 22:21:48 +0800 2022）的，需要轉換成標準格式：

def trans_time(v_str):
	"""轉換GMT時間為標準格式"""
	GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
	timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
	ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
	return ret_time

定義一個請求頭，後面發送請求的時候帶上它，防止反爬：

# 請求頭
headers = {
	"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",
	"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
	"accept-encoding": "gzip, deflate, br",
}

打開chrome瀏覽器，按F12進入開發者模式，按照下圖操作，分析出目標請求地址：
根據分析結果，編寫請求代碼：

# 請求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 請求參數
params = {
	"containerid": "100103type=1&q={}".format(v_keyword),
	"page_type": "searchall",
	"page": page
}
# 發送請求
r = requests.get(url, headers=headers, params=params)

直接用json格式，接收返回的數據：

# 解析json數據
cards = r.json()["data"]["cards"]

下麵，通過jsonpath，快速解析出各個欄位數據。

科普知識：jsonpath是一種快速解析json數據的方法，語法規則有點像xpath，這裡就不展開講了，

詳細介紹，請見:

JsonPath完全介紹及詳細使用教程_Sunny蔬菜小檸的博客-CSDN博客_jsonpath

下麵展示部分欄位解析過程：

# 轉發數
reposts_count_list = jsonpath(cards, '$..mblog.reposts_count')
# 評論數
comments_count_list = jsonpath(cards, '$..mblog.comments_count')
# 點贊數
attitudes_count_list = jsonpath(cards, '$..mblog.attitudes_count')

把所有的欄位的list數據，拼裝成DataFrame格式數據：

# 把列表數據保存成DataFrame數據
df = pd.DataFrame(
	{
		'頁碼': [page] * len(id_list),
		'微博id': id_list,
		'微博bid': bid_list,
		'微博作者': author_list,
		'發佈時間': time_list,
		'微博內容': text2_list,
		'轉發數': reposts_count_list,
		'評論數': comments_count_list,
		'點贊數': attitudes_count_list,
	}
)

最後，通過to_csv，（記得加上參數 encoding='utf_8_sig'）把數據持久化存儲下來。
需要說明的是，微博數據爬取下來後，會存在少量重覆數據，所以，去重處理一下：

# 刪除重覆數據
df.drop_duplicates(subset=['微博bid'], inplace=True, keep='first')
# 再次保存csv文件
df.to_csv(v_weibo_file, index=False, encoding='utf_8_sig')
print('數據清洗完成')

最終，數據保存完畢。

四、同步視頻

4.1 演示視頻

https://www.zhihu.com/zvideo/1521809935360385024

4.2 講解視頻

https://www.zhihu.com/zvideo/1521898658362155008

我是馬哥，感謝您的閱讀。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux 安裝mysql8.X超詳細圖文教程

遠程連接ubuntu 提前準備：在Ubuntu中安裝好ssh 安裝步驟：1.安裝openssh-server 😒udo apt-get install openssh-server (過程中會確認是否希望繼續執行，按y就可) 2.查看是否安裝成功：ps -e |grep ssh 3. ...
SQL_DML_Multiple-table Delete 多表刪除的用法

1 學習參考 MySQL官方文檔 https://dev.mysql.com/doc/refman/8.0/en/delete.html 節選自 MySQL 8.0 Reference Manual_SQL Statements_Data Manipulation Statements_DELETE ...
《資料庫系統概論》知識點梳理

第一章緒論 1.1 資料庫系統概述 1.1.1 資料庫的4個基本概念數據：描述事物的符號記錄，數據的含義稱為數據的語義，二者是不可分的。資料庫：資料庫是長期存儲在電腦內、有組織的、可共用的大量數據的集合。資料庫數據基本特點：永久存儲、有組織、可共用。資料庫管理系統(DBMS)：是電腦的 ...
SpringBoot使用Redis教程(共5步)

SpringBoot使用Redis教程應用環境: 存放Token、.... 第一步: 添加Redis依賴 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-re ...
[前端小項目] 擴展卡片 Expanding Cards(50projects50days)

📄前言這個小項目源於github項目:✨50 projects 50 days, 這個項目包含了50個小型前端項目，適合學習了Html+Css+JavaScript但是還沒有學習框架的前端新手作為練習。這裡是原項目的代碼實現👉擴展卡片 Expanding Cards 📝分析 📍佈局卡片 ...
程式分析與優化 - 8 寄存器分配

本章是系列文章的第八章，用著色演算法進行寄存器的分配過程。本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理，如需轉載請註明出處。周榮華@燧原科技寄存器分配寄存器分配是為程式處理的值找到存儲位置的問題這些值可以存放到寄存器，也可以存放在記憶體中寄存器更快，但數量有限記憶體很多，但 ...
IOS OpenGL ES 圖像侵蝕邊緣色彩模糊 GPUImageRGBErosionFilter

目錄一.簡介二.效果演示三.源碼下載四.猜你喜歡零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場零基礎 O ...
數據清洗工具flashtext，效率直接提升了幾十倍數

背景：一般我們可以用HashMap做本地緩存，但是HashMap功能比較弱，不支持Key過期，不支持數據範圍查找等。故在此實現了一個簡易的本地緩存，取名叫fastmap。功能： 1.支持數據過期 2.支持等值查找 3.支持範圍查找 4.支持key排序實現思路： 1.等值查找採用HashMap2 ...