詳細講解python爬蟲代碼,爬微博搜索結果的博文數據。 爬取欄位: 頁碼、微博id、微博bid、微博作者、發佈時間、微博內容、轉發數、評論數、點贊數。 爬蟲技術: 1、requests 發送請求 2、datetime 時間格式轉換 3、jsonpath 快速解析json數據 4、re 正則表達式提... ...
目錄
一、爬取目標
大家好,我是馬哥。
今天分享一期python爬蟲案例,爬取目標是新浪微博的微博數據,包含:
頁碼, 微博id, 微博bid, 微博作者, 發佈時間, 微博內容, 轉發數, 評論數, 點贊數
經過分析調研,發現微博有3種訪問方式,分別是:
-
PC端網頁:https://weibo.com/
最終決定,通過手機端爬取。
這裡,給大家分享一個爬蟲小技巧。當目標網站既存在PC網頁端,又有手機移動端,建議爬取移動端,原因是:移動端一般網頁結構簡單,並且反爬能力較弱,更方便爬蟲爬取。
二、展示爬取結果
我通過爬蟲代碼,爬取了“唐山打人”這個關鍵字下的前80頁微博,部分數據如下:
一共635條數據,共80頁,差不多每頁不到10條的數據。
三、講解代碼
首先,導入需要用到的庫:
import os
import re # 正則表達式提取文本
from jsonpath import jsonpath # 解析json數據
import requests # 發送請求
import pandas as pd # 存取csv文件
import datetime #
然後,定義一個轉換時間字元串的函數,因為爬取到的時間戳是GMT格式(類似這種:Fri Jun 17 22:21:48 +0800 2022)的,需要轉換成標準格式:
def trans_time(v_str):
"""轉換GMT時間為標準格式"""
GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
return ret_time
定義一個請求頭,後面發送請求的時候帶上它,防止反爬:
# 請求頭
headers = {
"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",
"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"accept-encoding": "gzip, deflate, br",
}
打開chrome瀏覽器,按F12進入開發者模式,按照下圖操作,分析出目標請求地址:
根據分析結果,編寫請求代碼:
# 請求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 請求參數
params = {
"containerid": "100103type=1&q={}".format(v_keyword),
"page_type": "searchall",
"page": page
}
# 發送請求
r = requests.get(url, headers=headers, params=params)
直接用json格式,接收返回的數據:
# 解析json數據
cards = r.json()["data"]["cards"]
下麵,通過jsonpath,快速解析出各個欄位數據。
科普知識:jsonpath是一種快速解析json數據的方法,語法規則有點像xpath,這裡就不展開講了,
詳細介紹,請見:
下麵展示部分欄位解析過程:
# 轉發數
reposts_count_list = jsonpath(cards, '$..mblog.reposts_count')
# 評論數
comments_count_list = jsonpath(cards, '$..mblog.comments_count')
# 點贊數
attitudes_count_list = jsonpath(cards, '$..mblog.attitudes_count')
把所有的欄位的list數據,拼裝成DataFrame格式數據:
# 把列表數據保存成DataFrame數據
df = pd.DataFrame(
{
'頁碼': [page] * len(id_list),
'微博id': id_list,
'微博bid': bid_list,
'微博作者': author_list,
'發佈時間': time_list,
'微博內容': text2_list,
'轉發數': reposts_count_list,
'評論數': comments_count_list,
'點贊數': attitudes_count_list,
}
)
最後,通過to_csv,(記得加上參數 encoding='utf_8_sig')把數據持久化存儲下來。
需要說明的是,微博數據爬取下來後,會存在少量重覆數據,所以,去重處理一下:
# 刪除重覆數據
df.drop_duplicates(subset=['微博bid'], inplace=True, keep='first')
# 再次保存csv文件
df.to_csv(v_weibo_file, index=False, encoding='utf_8_sig')
print('數據清洗完成')
最終,數據保存完畢。
四、同步視頻
4.1 演示視頻
https://www.zhihu.com/zvideo/1521809935360385024
4.2 講解視頻
https://www.zhihu.com/zvideo/1521898658362155008
我是馬哥,感謝您的閱讀。