使用python爬取豆瓣電影短評評論內容

-Advertisement-

需求：爬取豆瓣電影短評評論文本內容目標：將爬取的文本存入 excel 中爬蟲步驟： 1.拼接分頁網址，迴圈請求分頁數據，獲取HTML代碼 2.分析獲取到的HTML代碼，解析出所需要的數據，提取內容 3.存儲爬取到的數據準備工作： 1.開發工具 pycharm 2.模塊 requests、bs4 ...

需求：爬取豆瓣電影短評評論文本內容

目標：將爬取的文本存入 excel 中

爬蟲步驟：

1.拼接分頁網址，迴圈請求分頁數據，獲取HTML代碼

2.分析獲取到的HTML代碼，解析出所需要的數據，提取內容

3.存儲爬取到的數據

準備工作：

1.開發工具 pycharm

2.模塊 requests、bs4或 pyquery

爬蟲實際流程：

第一步：我們從豆瓣電影中選取一部電影（https://movie.douban.com/subject/35766491/），進入短評列表頁面（https://movie.douban.com/subject/35766491/comments?status=P）

UntitledImage

第二步：打開 f12開發者工具，我去取評論文本部分，查看網頁結構。

UntitledImage

目標評論文本部分對應的 class 類名為 comment，評論列表對應的類名為 comment-item

使用 pyquery 解析獲取列表數據，代碼如下：

form pyquery import PyQuery as pq
doc = pq(html)
comment_list = doc(‘.comment-item’).items()
For item in comment_list:
    comment = item(‘.comment’).text()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

萬字血書Vue-Vue進階

Vue進階生命周期組件運行的過程組件的生命周期是：組件從創建->運行（渲染）->銷毀的整個過程，是一個時間段如何監聽組件的不同時刻 vue框架為組件內置了不同時刻的生命周期函數，是他在關鍵時刻幫我們調用的一些特殊名稱的函數，生命周期函數會伴隨著組件的運行而自動調用。 created函數組件 ...
萬字血書Vue—Vue語法

模板語法插值語法 Mustache插值採用{{ }}，用於解析標簽體內容，將Vue實例中的數據插入DOM中 <h1>Hello {{name}}</h1> 指令語法指令用於解析標簽，是vue為開發者提供的一套模板語法，輔助開發者渲染頁面的基本結構。（指令是vue開發中最基礎、最常用、最簡單的知 ...
uni-app 實現輪播圖組件父容器背景色隨圖片主題色改變

uni-app 實現輪播圖組件父容器背景色隨圖片主題色改變實現思路 1、獲取輪播圖主題色，通過 canvas 獲取圖片主題色。 2、隨著輪播圖組件圖片的輪播，動態設置父容器背景色為圖片的主題色。實現代碼 <template> <view class="container"> <canvas ca ...
萬字血書Vue—走近Vue

Vue是什麼？ Vue是一套用於構建用戶界面的漸進式JavaScript框架構建用戶界面：用vue往html頁面中填充數據漸進式：Vue可以自底向上逐層的應用，從輕量小巧核心庫的簡單應用，到引入各式各樣插件的複雜應用。框架：一整套現成的解決方案，遵守框架的規範，學習框架，就是學習框架中的規定用 ...
前端設計模式——組合模式

組合模式（Composite Pattern）是一種結構型設計模式，它允許將對象組合成樹形結構，並且可以像操作單個對象一樣操作整個樹形結構。組合模式的核心思想是將對象組織成樹形結構，其中包含組合對象和葉子對象兩種類型。組合對象可以包含葉子對象或其他組合對象，從而形成一個樹形結構。組合模式可以應用 ...
ChatGPT 虛擬號碼：手機號碼，簡訊驗證碼接碼推薦

ChatGPT 虛擬號碼是什麼？如何使用虛擬號註冊 ChatGPT，用來收手機驗證碼呢？先瞭解它是什麼虛擬號碼是一種虛擬電話號碼，它可以用於接收和發送簡訊，但不會顯示真實的號碼。它可以用於保護用戶的隱私，也可以用於接收垃圾簡訊。 ChatGPT 虛擬號碼簡訊驗證碼接碼平臺有幾個網站提供與 ht ...
【java筆記】cn.hutool.core.io.IORuntimeException Not a file。。。

報錯信息如題， cn.hutool.core.io.IORuntimeException: Not a file.... 報錯位置 FileReader reader = new FileReader(path); 初步分析檢查下來發現，path實際對應的是一個文件夾，而不是文件。文件來源關鍵 ...
TP 判斷IP是否在國內

環境ThinkPHP+Redis 1.IP保存文件，文件名自定義，與後文對應 2.獲取IP信息腳本.sh文件 #!/bin/bash #variables ip_txt_path=/www/wwwroot/checkip/china_ip.txt; ip_url='http://ftp.apnic. ...