【Python爬蟲項目實戰】Python爬蟲豆瓣Top250電影短評數據保存本地

-Advertisement-

前言今天給大家介紹的是Python爬蟲豆瓣Top250電影短評數據保存本地，在這裡給需要的小伙伴們幫助，並且給出一點小心得。開發工具 **Python版本：**3.6 相關模塊： requests模塊 parsel模塊 time模塊環境搭建安裝Python並添加到環境變數，pip安裝需要的相 ...

前言

今天給大家介紹的是Python爬蟲豆瓣Top250電影短評數據保存本地，在這裡給需要的小伙伴們幫助，並且給出一點小心得。

開發工具

Python版本：3.6

相關模塊：

requests模塊

parsel模塊

time模塊

環境搭建

安裝Python並添加到環境變數，pip安裝需要的相關模塊即可。

文中完整代碼及文件，評論留言獲取

數據來源查詢分析

瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具，查看我們想要的電影短評在哪裡
這裡我們需要頁面數據就可以了

頁面數據

代碼實現

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}

for page in range(1, 20):
    url = f'https://movie.douban.com/subject/35613853/comments?start={page*20}&limit=20&status=P&sort=new_score'
    data_html = requests.get(url=url, headers=headers).text
    selector = parsel.Selector(data_html)
    comment_list = selector.css('.comment-item')
    for comment in comment_list:
        short = comment.css('.short::text').get().strip()
        name = comment.css('.comment-info a::text').get().strip()
        time = comment.css('.comment-time::text').get().strip()
        vote_count = comment.css('.votes.vote-count::text').get().strip()
        print(short, name, time, vote_count)

最後

今天的分享到這裡就結束了，感興趣的朋友也可以去試試哈

對文章有問題的，或者有其他關於python的問題，可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話，可以關註一下我，或者給文章點贊(/≧▽≦)/

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

學習筆記——Mybatis逆向工程MBG；MyBatis逆向工程MBG使用步驟

2023-01-12 一、逆向工程 1、逆向工程資料庫中表影響程式中代碼（表影響java對象）。 MyBatis Generator:簡稱MGB，是一個專門為MyBatis框架使用定製的代碼生成器，可以快速的根據表生成對應的映射文件，介面，以及bean類。 2、正向工程應用程式中代碼影響資料庫表 ...
區間dp學習筆記

例題1：洛谷 P1775 我們可以設 dp[l][r] 為將區間 [l,r] 區間內的所有石子都合併成一堆時造成的最小代價。如何求出 dp[l][r] 呢？此時我們可以枚舉一個斷點 k，把 [l,r] 區間分成兩個區間：$[l,k]$ 和 [k+1,r]，很明顯，k ∈ [l,r-1] 現在就很容 ...
Rust語言的一點概念

指針：什麼是指針？表示數據存儲的地址語法：數據類型 *指針名被指針對象 *prt 是值 prt 是地址 int *prt = &xxx，聲明指針並保存地址 //引入頭文件 #include <stdio.h> void main(){ int num = 1; int num2 = 200; ...
通過Terraform創建GCP Pubsub

1 簡介 Terraform是管理許多平臺的基礎設施的工具，如AWS、GCP和Azure。這篇文章將講解如何通過Terraform來管理GCP Pub/Sub。創建GCP項目請參考：初始化一個GCP項目並用gcloud訪問操作 2 Terraform創建Pub/Sub 2.1 下載Terrafor ...
萬萬沒想到，go也能使用對象來操作資料庫了，網友直呼：健壯性有保證了

之前給大家介紹的Aorm庫，都用上了嗎？這可是迄今為止我見過的，go領域最好用的資料庫操作庫了。本期文章，我們來說Aorm的全對象操作，它可以使你的系統更健壯。 ...
順著這份Java面試地圖，國內一二線互聯網公司隨便進...

臨近春節，這幾天手頭沒什麼事情，花了點時間，將自己近兩年收集的面試真題，進行了一番深度歸納總結，整理出了這份面試大綱，基本上涵蓋了國內一二線互聯網公司的Java面試題(一、二、三面技術面試)。我這樣做的唯一目的是希望讓面試題本身有跡可循，不讓小伙伴們在準備面試的時候，不會被埋沒在茫茫題海中，面對眾... ...
如何構建基於 DDD 領域驅動的微服務？

儘管微服務中的“微”一詞表示服務的規模，但它並不是使用微服務的唯一標準。當團隊轉向基於微服務的架構時，他們旨在提高敏捷性以及自主且頻繁地部署功能。很難確定這種架構風格的簡單定義。我喜歡Adrian Cockcroft的關於微服務的簡短定義： “ 面向服務的體繫結構，它由鬆散耦合的、具有上下文邊界的元 ...
10.關於synchronized的一切，我都寫在這裡了

大家好，我是王有志。關註王有志，一起聊技術，聊游戲，從北漂生活談到國際風雲。之前我們已經通過3篇文章由淺到深的分析了synchronized的用法和原理： synchronized的基礎：synchronized都問啥？偏向鎖升級到輕量級鎖：從源碼揭秘偏向鎖的升級輕量級鎖升級到重量級鎖：什麼是 ...