【爬蟲實戰】用python爬豆瓣電影《熱烈》短評

-Advertisement-

[toc] # 一、爬蟲對象-豆瓣電影短評您好！我是[@馬哥python說](https://www.cnblogs.com/mashukui/)，一名10年程式猿。今天分享一期爬蟲案例，爬取的目標是：豆瓣上任意一部電影的短評（註意：是短評，不是影評！），以《熱烈》這部電影為例： ![爬取目標] ...

一、爬蟲對象-豆瓣電影短評
二、爬取結果
三、爬蟲代碼講解
三、演示視頻
四、獲取完整源碼

一、爬蟲對象-豆瓣電影短評

您好！我是@馬哥python說，一名10年程式猿。

今天分享一期爬蟲案例，爬取的目標是：豆瓣上任意一部電影的短評（註意：是短評，不是影評！），以《熱烈》這部電影為例：
爬取目標

爬取以上6個關鍵欄位，含：

頁碼, 評論者昵稱, 評論星級, 評論時間, 評論者IP屬地, 有用數, 評論內容。

二、爬取結果

爬取結果截圖：
部分數據

三、爬蟲代碼講解

首先，導入需要用到的庫：

import requests
from bs4 import BeautifulSoup
import pandas as pd
import os
import random
from time import sleep

定義一個請求頭：

# 請求頭
h1 = {
	'Cookie': '換成自己的cookie',
	'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Encoding': 'gzip, deflate',
	'Host': 'movie.douban.com',
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
	'Accept-Language': 'zh-CN,zh-Hans;q=0.9',
	'Referer': 'https://movie.douban.com/subject/35267224/?from=showing',
	'Connection': 'keep-alive'
}

定義請求地址：（規律是：第1頁start是0，第2頁start是20，第3頁start是40，所以總結出：start=(page-1)*20）

# 請求地址
url = 'https://movie.douban.com/subject/{}/comments?start={}&limit=20&status=P&sort=new_score'.format(v_movie_id, (page - 1) * 20)

用requests發送請求：

# 發送請求
response = requests.get(url, headers=h1, verify=False)

用BeautifulSoup解析頁面數據：

# 解析頁面數據
soup = BeautifulSoup(response.text, 'html.parser')

定義一些空列表，用於存放數據：

user_name_list = []  # 評論者昵稱
star_list = []  # 評論星級
time_list = []  # 評論時間
ip_list = []  # 評論者ip屬地
vote_list = []  # 有用數
content_list = []  # 評論內容

以"評論內容"欄位為例：

for review in reviews:
	# 評論內容
	content = review.find('span', {'class': 'short'}).text
	content = content.replace(',', '，').replace(' ', '').replace('\n', '').replace('\t', '').replace('\r', '')
	content_list.append(content)

把所有欄位存放的列表數據組成Dataframe格式：

df = pd.DataFrame(
	{
		'頁碼': page,
		'評論者昵稱': user_name_list,
		'評論星級': star_list,
		'評論時間': time_list,
		'評論者IP屬地': ip_list,
		'有用數': vote_list,
		'評論內容': content_list,
	}
)

進一步保存到csv文件里：

# 保存到csv
df.to_csv(result_file, mode='a+', header=header, index=False, encoding='utf_8_sig')
print('文件保存成功：', result_file)

以上，核心邏輯講解完畢。

代碼中還含有：轉換星級函數、自動翻頁、文本清洗等功能，詳見文末完整源碼。

最後需要說明的是，豆瓣短評頁面上最多只能看到30頁，再往後翻頁面一直顯示載入中，所以該代碼最多只能爬取30頁短評。
最多30頁

三、演示視頻

演示視頻：【Python爬蟲實戰】爬取豆瓣電影短評，以《熱烈》為例

四、獲取完整源碼

愛學習的小伙伴，本次分析過程的完整python源碼及結果數據，我已打包好，並上傳至我的微信公眾號"老男孩的平凡之路"，後臺回覆"爬豆瓣短評"即可獲取。

點此直達：【爬蟲實戰】用python爬豆瓣電影《熱烈》短評

我是@馬哥python說，一名10年程式猿，持續分享python乾貨中！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Sermant類隔離架構：解決JavaAgent場景類衝突的實踐

Sermant是基於Java位元組碼增強技術的無代理服務網格，其利用Java位元組碼增強技術為宿主應用程式提供服務治理功能。 ...
linux c++ tcp

京東茅臺搶購腳本可以分為以下幾部分，具體實現步驟如下：登錄京東賬號首先需要登錄京東賬號。一個簡單的方式是使用Python的 selenium 庫。在使用 selenium 庫前，需要安裝 selenium 庫和對應的瀏覽器驅動。示例代碼如下所示： from selenium import we ...
Interpreter Pattern

# It can explain what ? 如下是解釋器要解釋的主體： - 加減乘除等運算，3+4/9+6*8 - 摩爾斯電碼 - 正則表達式 - El表達式 - OGNL表達式 - 小明是北京人 - 小紅是一名售貨員 - 部門領導下發一則通知 - ... # How explain ? 解釋器 ...
深入理解 Python and 邏輯運算符(踩坑)

# ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/98edff345fb44c9ca30237fa7958f6f8~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1920&h=1080&s=72 ...
Java 中的日期時間總結

大家好，我是 god23bin，在日常開發中，我們經常需要處理日期和時間，日期和時間可以說是一定會用到的，現在總結下 Java 中日期與時間的基本概念與一些常用的用法。 ...
Windows訪問Linux下的FTP伺服器（Centos和Uuntu）

centos7.9版本 1.下載FTP離線安裝包: http://rpmfind.net/linux/rpm2html/search.php?query=vsftpd(x86-64) 選擇最後一個 vsftpd-3.0.2-28.el7.x86_64.rpm 2.檢查是否已經安裝了vsftp rpm ...
文盤Rust——子命令提示，提高用戶體驗

上次我們聊到 CLI 的領域交互模式。在領域交互模式中，可能存在多層次的子命令。在使用過程中如果全評記憶的話，命令少還好，多了真心記不住。頻繁 --help 也是個很麻煩的事情。如果每次按 'tab' 鍵就可以提示或補齊命令是不是很方便呢。這一節我們就來說說 'autocommplete' 如何實現... ...
2.9 PE結構：重建導入表結構

脫殼修複是指在進行加殼保護後的二進位程式脫殼操作後，由於加殼操作的不同，有些程式的導入表可能會受到影響，導致脫殼後程式無法正常運行。因此，需要進行修複操作，將脫殼前的導入表覆蓋到脫殼後的程式中，以使程式恢復正常運行。一般情況下，導入表被分為IAT（Import Address Table，導入地址表... ...