需求:爬取豆瓣電影短評評論文本內容 目標:將爬取的文本存入 excel 中 爬蟲步驟: 1.拼接分頁網址,迴圈請求分頁數據,獲取HTML代碼 2.分析獲取到的HTML代碼,解析出所需要的數據,提取內容 3.存儲爬取到的數據 準備工作: 1.開發工具 pycharm 2.模塊 requests、bs4 ...
需求:爬取豆瓣電影短評評論文本內容
目標:將爬取的文本存入 excel 中
爬蟲步驟:
1.拼接分頁網址,迴圈請求分頁數據,獲取HTML代碼
2.分析獲取到的HTML代碼,解析出所需要的數據,提取內容
3.存儲爬取到的數據
準備工作:
1.開發工具 pycharm
2.模塊 requests、bs4或 pyquery
爬蟲實際流程:
第一步:我們從豆瓣電影中選取一部電影(https://movie.douban.com/subject/35766491/),進入短評列表頁面(https://movie.douban.com/subject/35766491/comments?status=P)
第二步:打開 f12開發者工具,我去取評論文本部分,查看網頁結構。
目標評論文本部分對應的 class 類名為 comment,評論列表對應的類名為 comment-item
使用 pyquery 解析獲取列表數據,代碼如下:
form pyquery import PyQuery as pq
doc = pq(html)
comment_list = doc(‘.comment-item’).items()
For item in comment_list:
comment = item(‘.comment’).text()