【python爬蟲案例】爬取微博任意搜索關鍵詞的結果,以“唐山打人”為例

来源:https://www.cnblogs.com/mashukui/archive/2022/06/26/16414027.html
-Advertisement-
Play Games

詳細講解python爬蟲代碼,爬微博搜索結果的博文數據。 爬取欄位: 頁碼、微博id、微博bid、微博作者、發佈時間、微博內容、轉發數、評論數、點贊數。 爬蟲技術: 1、requests 發送請求 2、datetime 時間格式轉換 3、jsonpath 快速解析json數據 4、re 正則表達式提... ...


目錄

一、爬取目標

大家好,我是馬哥

今天分享一期python爬蟲案例,爬取目標是新浪微博的微博數據,包含:

頁碼, 微博id, 微博bid, 微博作者, 發佈時間, 微博內容, 轉發數, 評論數, 點贊數

經過分析調研,發現微博有3種訪問方式,分別是:

  1. PC端網頁:https://weibo.com/

  2. 移動端:https://weibo.cn/

  3. 手機端:https://m.weibo.cn/

最終決定,通過手機端爬取。

這裡,給大家分享一個爬蟲小技巧。當目標網站既存在PC網頁端,又有手機移動端,建議爬取移動端,原因是:移動端一般網頁結構簡單,並且反爬能力較弱,更方便爬蟲爬取。

二、展示爬取結果

我通過爬蟲代碼,爬取了“唐山打人”這個關鍵字下的前80頁微博,部分數據如下:爬取結果
一共635條數據,共80頁,差不多每頁不到10條的數據。

三、講解代碼

首先,導入需要用到的庫:

import os
import re  # 正則表達式提取文本
from jsonpath import jsonpath  # 解析json數據
import requests  # 發送請求
import pandas as pd  # 存取csv文件
import datetime  # 

然後,定義一個轉換時間字元串的函數,因為爬取到的時間戳是GMT格式(類似這種:Fri Jun 17 22:21:48 +0800 2022)的,需要轉換成標準格式:

def trans_time(v_str):
	"""轉換GMT時間為標準格式"""
	GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
	timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
	ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
	return ret_time

定義一個請求頭,後面發送請求的時候帶上它,防止反爬:

# 請求頭
headers = {
	"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",
	"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
	"accept-encoding": "gzip, deflate, br",
}

打開chrome瀏覽器,按F12進入開發者模式,按照下圖操作,分析出目標請求地址:開發者模式
根據分析結果,編寫請求代碼:

# 請求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 請求參數
params = {
	"containerid": "100103type=1&q={}".format(v_keyword),
	"page_type": "searchall",
	"page": page
}
# 發送請求
r = requests.get(url, headers=headers, params=params)

直接用json格式,接收返回的數據:

# 解析json數據
cards = r.json()["data"]["cards"]

下麵,通過jsonpath,快速解析出各個欄位數據。

科普知識:jsonpath是一種快速解析json數據的方法,語法規則有點像xpath,這裡就不展開講了,

詳細介紹,請見:

JsonPath完全介紹及詳細使用教程_Sunny蔬菜小檸的博客-CSDN博客_jsonpath

下麵展示部分欄位解析過程:

# 轉發數
reposts_count_list = jsonpath(cards, '$..mblog.reposts_count')
# 評論數
comments_count_list = jsonpath(cards, '$..mblog.comments_count')
# 點贊數
attitudes_count_list = jsonpath(cards, '$..mblog.attitudes_count')

把所有的欄位的list數據,拼裝成DataFrame格式數據:

# 把列表數據保存成DataFrame數據
df = pd.DataFrame(
	{
		'頁碼': [page] * len(id_list),
		'微博id': id_list,
		'微博bid': bid_list,
		'微博作者': author_list,
		'發佈時間': time_list,
		'微博內容': text2_list,
		'轉發數': reposts_count_list,
		'評論數': comments_count_list,
		'點贊數': attitudes_count_list,
	}
)

最後,通過to_csv,(記得加上參數 encoding='utf_8_sig')把數據持久化存儲下來。
需要說明的是,微博數據爬取下來後,會存在少量重覆數據,所以,去重處理一下:

# 刪除重覆數據
df.drop_duplicates(subset=['微博bid'], inplace=True, keep='first')
# 再次保存csv文件
df.to_csv(v_weibo_file, index=False, encoding='utf_8_sig')
print('數據清洗完成')

最終,數據保存完畢。

四、同步視頻

4.1 演示視頻

https://www.zhihu.com/zvideo/1521809935360385024

4.2 講解視頻

https://www.zhihu.com/zvideo/1521898658362155008


我是馬哥,感謝您的閱讀。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 遠程連接ubuntu 提前準備: 在Ubuntu中安裝好ssh 安裝步驟:1.安裝openssh-server 😒udo apt-get install openssh-server ​ (過程中會確認是否希望繼續執行,按y就可) ​ 2.查看是否安裝成功:ps -e |grep ssh ​ 3. ...
  • 1 學習參考 MySQL官方文檔 https://dev.mysql.com/doc/refman/8.0/en/delete.html 節選自 MySQL 8.0 Reference Manual_SQL Statements_Data Manipulation Statements_DELETE ...
  • 第一章 緒論 1.1 資料庫系統概述 1.1.1 資料庫的4個基本概念 數據:描述事物的符號記錄,數據的含義稱為數據的語義,二者是不可分的。 資料庫:資料庫是長期存儲在電腦內、有組織的、可共用的大量數據的集合。 資料庫數據基本特點:永久存儲、有組織、可共用。 資料庫管理系統(DBMS):是電腦的 ...
  • SpringBoot使用Redis教程 應用環境: 存放Token、.... 第一步: 添加Redis依賴 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-re ...
  • 📄前言 這個小項目源於github項目:✨50 projects 50 days, 這個項目包含了50個小型前端項目,適合學習了Html+Css+JavaScript但是還沒有學習框架的前端新手作為練習。 這裡是原項目的代碼實現👉擴展卡片 Expanding Cards 📝分析 📍佈局 卡片 ...
  • 本章是系列文章的第八章,用著色演算法進行寄存器的分配過程。 本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技 寄存器分配 寄存器分配是為程式處理的值找到存儲位置的問題 這些值可以存放到寄存器,也可以存放在記憶體中 寄存器更快,但數量有限 記憶體很多,但 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 背景: 一般我們可以用HashMap做本地緩存,但是HashMap功能比較弱,不支持Key過期,不支持數據範圍查找等。故在此實現了一個簡易的本地緩存,取名叫fastmap。 功能: 1.支持數據過期 2.支持等值查找 3.支持範圍查找 4.支持key排序 實現思路: 1.等值查找採用HashMap2 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...