前言 今天給大家介紹的是Python爬取Top100電影榜單數據保存csv文件,在這裡給需要的小伙伴們代碼,並且給出一點小心得。 首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對To ...
前言
今天給大家介紹的是Python爬取Top100電影榜單數據保存csv文件,在這裡給需要的小伙伴們代碼,並且給出一點小心得。
首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對Top100電影榜單數據進行爬取。
在每次進行爬蟲代碼的編寫之前,我們的第一步也是最重要的一步就是分析我們的網頁。
通過分析我們發現在爬取過程中速度比較慢,所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。
開發工具
Python版本: 3.6
相關模塊:
requests模塊
time模塊
parsel模塊
csv模塊
環境搭建
安裝Python並添加到環境變數,pip安裝需要的相關模塊即可。
文中完整代碼及文件,評論留言獲取
思路分析
瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具,查看我們想要的Top100電影榜單數據在哪裡
這裡我們需要頁面數據就可以了
代碼實現
for page in range(0, 101, 10):
time.sleep(2)
url = 'https://maoyan.com/board/4?offset={}'.format(page)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
'Cookie': '__mta=20345351.1670903159717.1670903413872.1670903436333.5; uuid_n_v=v1; uuid=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; _csrf=916b8446658bd722f56f2c092eaae35ea3cd3689ef950542e202b39ddfe7c91e; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1670903160; _lxsdk_cuid=1850996db5dc8-07670e36da28-26021151-1fa400-1850996db5d67; _lxsdk=A8065B807A9811ED82C293D7E110319C9B09821067E1411AB6F4EC82889E1869; __mta=213622443.1670903327420.1670903417327.1670903424017.4; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1670903436; _lxsdk_s=1850996db5e-8b2-284-88a%7C%7C18',
'Host': 'www.maoyan.com',
'Referer': 'https://www.maoyan.com/films/1200486'
}
response = requests.get(url, headers=headers)
selector = parsel.Selector(response.text)
li_s = selector.css('.board-wrapper dd')
for li in li_s:
name = li.css('.name a::text').get()
star = li.css('.star::text').get()
star_string = star.strip()
releasetime = li.css('.releasetime::text').get()
data_time = releasetime.strip()
follow = li.css('.score i::text').getall()
score = ''.join(follow)
dit = {
'電影名字': name,
'主演': star_string,
'上映時間': data_time,
'評分': score,
}
csv_write.writerow(dit)
print(dit)
Cookie獲取
效果展示
最後
今天的分享到這裡就結束了 ,感興趣的朋友也可以去試試哈
對文章有問題的,或者有其他關於python的問題,可以在評論區留言或者私信我哦
覺得我分享的文章不錯的話,可以關註一下我,或者給文章點贊(/≧▽≦)/