Python爬取豆瓣top250電影數據並寫入excel，視頻教程+源碼奉上不可能學不會

-Advertisement-

時間真是好快啊，又到每日跟大家分享Python小技巧的時候了，今天跟大家分享的是爬取豆瓣top250電影。這篇文章我會把源碼以及視頻教程給大家，想學的小伙伴可以動手操辦起來。話不多說，這就來。 ## 1.python程式 Python學習交流Q群：906715085### #導入庫 import ...

時間真是好快啊，又到每日跟大家分享Python小技巧的時候了，今天跟大家分享的是爬取豆瓣top250電影。這篇文章我會把源碼

以及視頻教程給大家，想學的小伙伴可以動手操辦起來。話不多說，這就來。

## 1.python程式

Python學習交流Q群：906715085###
#導入庫
import requests
import parsel
import xlsxwriter

Python學習交流Q群：906715085###
#導入庫
import requests
import parsel
import xlsxwriter

Python學習交流Q群：906715085###
#創建excel，設置列寬
wb=xlsxwriter.Workbook('豆瓣電影.xlsx')
ws=wb.add_worksheet('豆瓣電影海報')
ws.set_column('A:A',7)
ws.set_column('B:B',30)
ws.set_column(2,3,50)
ws.set_column('G:G',30)

#標題行
headings=['海報','名稱','導演','主演','年份','國家','類型']

#設置excel風格
ws.set_tab_color('red')
head_format=wb.add_format({'bold':1,'fg_color':'cyan','align':'center','font_name':u'微軟雅黑','valign':'vcenter'})
cell_format=wb.add_format({'bold':0,'align':'center','font_name':u'微軟雅黑','valign':'vcenter'})
ws.write_row('A1',headings,head_format)

#創建空列表
j=0
actor_1=[]
actor_2=[]
year=[]
country=[]
movie_type=[]

#發送請求，獲取響應，遍歷豆瓣電影信息
for i in range(0,250,25):
url='https://movie.douban.com/top250?start='+str(i)
response=requests.get(url,headers=headers)
response.encoding=response.apparent_encoding
selector=parsel.Selector(response.text)
lis=selector.css('#content>div>div.article>ol>li>div>div.pic>a>img::attr(src)').getall()
title=selector.css('#content>div>div.article>ol>li>div>div.info>div.hd>a>span:nth-child(1)::text').getall()
director_info=selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]').getall()
movie_info = selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]').getall()

# 提取並清洗導演、主演標簽信息
for director in director_info:
director=director.strip().replace('\xa0\xa0\xa0',' ').replace('...','').replace('導演: ','').split('主演: ')
if len(director)>1:
actor_1.append(director[0])
actor_2.append(director[1])
else:
actor_1.append(director[0])
actor_2.append('None')

#提取並清洗電影年份、國家、類型標簽信息
for detail in movie_info:
detail=detail.strip().split('\xa0/\xa0')
year.append(detail[0])
country.append(detail[1])
movie_type.append(detail[2])

#下載電影海報信息到本地
for n in range(len(lis)):
img=requests.get(lis[n]).content
with open(f'./圖片/{title[n]}.jpg','wb') as f:
f.write(img)

# 將獲取到的各種標簽信息寫入excel
for k in range(len(lis)):
ws.set_row(k+1+j*25,60)
ws.insert_image('A'+str(k+2+j*25),f'./圖片/{title[k]}.jpg',{'x_scale':0.2,'y_scale':0.2})
ws.write(k+1+j*25,1,title[k],cell_format)
ws.write(k+1+j*25,2,actor_1[k+j*25],cell_format)
ws.write(k+1+j*25,3,actor_2[k+j*25],cell_format)
ws.write(k+1+j*25,4,year[k+j*25],cell_format)
ws.write(k+1+j*25,5,country[k+j*25],cell_format)
ws.write(k+1+j*25,6,movie_type[k+j*25],cell_format)
j+=1
wb.close()

## 2.效果

在這裡插入圖片描述

## 3.視頻教程

視頻鏈接：
https://www.bilibili.com/video/BV1hL4y1L7mq?share_source=copy_web

學不會的跟視頻做

## 4.結尾

源碼以及視頻教程都給大家放在上面了，各位小伙伴不妨動手試試。疫情居家沒有劇看是很痛苦的，記得點一個大大的贊。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python 報錯 ValueError list.remove(x) x not in list 解決辦法

平時開發 Python 代碼過程中，經常會遇到這個報錯： ValueError: list.remove(x): x not in list 錯誤提示信息也很明確，就是移除的元素不在列表之中。比如： >>> lst = [1, 2, 3] >>> lst.remove(4) Traceback ( ...
Intellij IDEA 2022 正式發佈，這些功能真不錯

Intellij IDEA 2022 正式發佈了，作為正版用戶，胖哥趕緊更新了一波，好家伙！這幾個功能確實很香啊。新版更新的東西真不少，不愧是一個大版本更新。依賴分析 IDEA的依賴檢查、依賴衝突解決長期為人詬病，現在終於引進了依賴分析器，它可以幫助你對項目中的依賴信息進行檢索，以幫助您檢測和解 ...
辦公自動化：Image圖片轉換成PDF文檔存儲

《零基礎學Java》 JDBC中常用的類和介面利用JDBC的這些類和介面可以更方便地訪問並處理存儲在資料庫中的數據。 DriverManager類 DriverManager類是JDBC的管理層，用來管理資料庫中的驅動程式。在使用Java操作資料庫之前，必須使用 Class類的靜態方法for ...
Nginx 從安裝到高可用，一篇搞定，99％的人都收藏了。。

來源：blog.csdn.net/qq_34886352/article/details/103581973 一、Nginx安裝 1、去官網http://nginx.org/下載對應的nginx包，推薦使用穩定版本 2、上傳nginx到linux系統 3、安裝依賴環境 (1)安裝gcc環境 yum ...
Python 偷偷爬取QQ音樂全部歌曲，這聽起來就不錯

前景介紹## 標題最近小伙伴們聽歌的興趣大漲，網抑雲綜合症已經遍佈各地。咱們再來抬高一波QQ音樂的熱度吧。爬它！目標：歌手列表任務：將A到Z的歌手以及全部頁數的歌存到本地和資料庫觀察網頁url結構當我們進入網頁時發現此時是一個無參數的html網頁載入。尋找我們想要拿到的位置尋找變化， ...
Java基礎——線程調度

一、線程的兩種調度模型： 1.分時調度模型：所有線程輪流使用CPU的使用權，平均分配每個線程占用CPU的時間片 2.搶占式調度模型：優先讓優先順序高的線程使用CPU，如果線程的優先順序相同，那麼會隨機選擇一個，優先順序高的線程獲取的CPU時間片相對多一點（Java使用的就是搶占式調度模型）為什麼說搶占式 ...
python中的嵌套

嵌套：將一系列字典存儲在列表中，或將列表作為值存儲在字典中，這稱為嵌套。既可以在列表中嵌套字典，也可以在字典中嵌套列表，甚至在字典中嵌套字典。一、列表中嵌套字典 1）一般創建方式： student_A ={'name':'Allen','age':'14','grade':'8'} student ...
Python核心編程第三版的一些小issue

第一章正則表達式 1.3 1.3.12 使用sub()和subn()搜索與替換在最後一段，文中提到： “前面講到，使用匹配對象的group（）方法除了能夠取出匹配分組編號外，還可以使用\N，其中 N 是在替換字元串中使用的分組編號。下麵的代碼僅僅只是將美式的日期表示法MM/DD/YY{,YY}格式 ...