Python爬取豆瓣top250電影數據並寫入excel,視頻教程+源碼奉上不可能學不會

来源:https://www.cnblogs.com/123456feng/archive/2022/04/13/16135606.html
-Advertisement-
Play Games

時間真是好快啊,又到每日跟大家分享Python小技巧的時候了,今天跟大家分享的是爬取豆瓣top250電影。這篇文章我會把源碼 以及視頻教程給大家,想學的小伙伴可以動手操辦起來。話不多說,這就來。 ## 1.python程式 Python學習交流Q群:906715085### #導入庫 import ...


時間真是好快啊,又到每日跟大家分享Python小技巧的時候了,今天跟大家分享的是爬取豆瓣top250電影。這篇文章我會把源碼


以及視頻教程給大家,想學的小伙伴可以動手操辦起來。話不多說,這就來。

 

 

 

 

 

 

## 1.python程式

 

Python學習交流Q群:906715085###
#導入庫
import requests
import parsel
import xlsxwriter

 

 

 

Python學習交流Q群:906715085###
#導入庫
import requests
import parsel
import xlsxwriter

 

 

Python學習交流Q群:906715085###
#創建excel,設置列寬
wb=xlsxwriter.Workbook('豆瓣電影.xlsx')
ws=wb.add_worksheet('豆瓣電影海報')
ws.set_column('A:A',7)
ws.set_column('B:B',30)
ws.set_column(2,3,50)
ws.set_column('G:G',30)

 

 

#標題行
headings=['海報','名稱','導演','主演','年份','國家','類型']


 

 

#設置excel風格
ws.set_tab_color('red')
head_format=wb.add_format({'bold':1,'fg_color':'cyan','align':'center','font_name':u'微軟雅黑','valign':'vcenter'})
cell_format=wb.add_format({'bold':0,'align':'center','font_name':u'微軟雅黑','valign':'vcenter'})
ws.write_row('A1',headings,head_format)


 

 

#創建空列表
j=0
actor_1=[]
actor_2=[]
year=[]
country=[]
movie_type=[]


 

 

#發送請求,獲取響應,遍歷豆瓣電影信息
for i in range(0,250,25):
url='https://movie.douban.com/top250?start='+str(i)
response=requests.get(url,headers=headers)
response.encoding=response.apparent_encoding
selector=parsel.Selector(response.text)
lis=selector.css('#content>div>div.article>ol>li>div>div.pic>a>img::attr(src)').getall()
title=selector.css('#content>div>div.article>ol>li>div>div.info>div.hd>a>span:nth-child(1)::text').getall()
director_info=selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]').getall()
movie_info = selector.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]').getall()

 

 

 

# 提取並清洗導演、主演標簽信息
for director in director_info:
director=director.strip().replace('\xa0\xa0\xa0',' ').replace('...','').replace('導演: ','').split('主演: ')
if len(director)>1:
actor_1.append(director[0])
actor_2.append(director[1])
else:
actor_1.append(director[0])
actor_2.append('None')

 

 

#提取並清洗電影年份、國家、類型標簽信息
for detail in movie_info:
detail=detail.strip().split('\xa0/\xa0')
year.append(detail[0])
country.append(detail[1])
movie_type.append(detail[2])

 

 

#下載電影海報信息到本地
for n in range(len(lis)):
img=requests.get(lis[n]).content
with open(f'./圖片/{title[n]}.jpg','wb') as f:
f.write(img)

 

 

 

# 將獲取到的各種標簽信息寫入excel
for k in range(len(lis)):
ws.set_row(k+1+j*25,60)
ws.insert_image('A'+str(k+2+j*25),f'./圖片/{title[k]}.jpg',{'x_scale':0.2,'y_scale':0.2})
ws.write(k+1+j*25,1,title[k],cell_format)
ws.write(k+1+j*25,2,actor_1[k+j*25],cell_format)
ws.write(k+1+j*25,3,actor_2[k+j*25],cell_format)
ws.write(k+1+j*25,4,year[k+j*25],cell_format)
ws.write(k+1+j*25,5,country[k+j*25],cell_format)
ws.write(k+1+j*25,6,movie_type[k+j*25],cell_format)
j+=1
wb.close()

 

 

## 2.效果

在這裡插入圖片描述

在這裡插入圖片描述

 

## 3.視頻教程

視頻鏈接:
https://www.bilibili.com/video/BV1hL4y1L7mq?share_source=copy_web

學不會的跟視頻做

 

 

## 4.結尾

 

源碼以及視頻教程都給大家放在上面了,各位小伙伴不妨動手試試。疫情居家沒有劇看是很痛苦的,記得點一個大大的贊。

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 平時開發 Python 代碼過程中,經常會遇到這個報錯: ValueError: list.remove(x): x not in list 錯誤提示信息也很明確,就是移除的元素不在列表之中。 比如: >>> lst = [1, 2, 3] >>> lst.remove(4) Traceback ( ...
  • Intellij IDEA 2022 正式發佈了,作為正版用戶,胖哥趕緊更新了一波,好家伙!這幾個功能確實很香啊。新版更新的東西真不少,不愧是一個大版本更新。 依賴分析 IDEA的依賴檢查、依賴衝突解決長期為人詬病,現在終於引進了依賴分析器,它可以幫助你對項目中的依賴信息進行檢索,以 幫助您檢測和解 ...
  • 《零基礎學Java》 JDBC中常用的類和介面 利用JDBC的這些類和介面可以更方便地訪問並處理存儲在資料庫中的數據。 DriverManager類 DriverManager類 是JDBC的管理層,用來管理資料庫中的驅動程式。在使用Java操作資料庫之前,必須使用 Class類 的 靜態方法for ...
  • 來源:blog.csdn.net/qq_34886352/article/details/103581973 一、Nginx安裝 1、去官網http://nginx.org/下載對應的nginx包,推薦使用穩定版本 2、上傳nginx到linux系統 3、安裝依賴環境 (1)安裝gcc環境 yum ...
  • 前景介紹## 標題 最近小伙伴們聽歌的興趣大漲,網抑雲綜合症已經遍佈各地。 咱們再來抬高一波QQ音樂的熱度吧。 爬它! 目標:歌手列表 任務:將A到Z的歌手以及全部頁數的歌存到本地和資料庫 觀察網頁url結構 當我們進入網頁時發現此時是一個無參數的html網頁載入。 尋找我們想要拿到的位置尋找變化, ...
  • 一、線程的兩種調度模型: 1.分時調度模型:所有線程輪流使用CPU的使用權,平均分配每個線程占用CPU的時間片 2.搶占式調度模型:優先讓優先順序高的線程使用CPU,如果線程的優先順序相同,那麼會隨機選擇一個,優先順序高的線程獲取的CPU時間片相對多一點(Java使用的就是搶占式調度模型) 為什麼說搶占式 ...
  • 嵌套:將一系列字典存儲在列表中,或將列表作為值存儲在字典中,這稱為嵌套。既可以在列表中嵌套字典,也可以在字典中嵌套列表,甚至在字典中嵌套字典。 一、列表中嵌套字典 1)一般創建方式: student_A ={'name':'Allen','age':'14','grade':'8'} student ...
  • 第一章正則表達式 1.3 1.3.12 使用sub()和subn()搜索與替換 在最後一段,文中提到: “前面講到,使用匹配對象的group()方法除了能夠取出匹配分組編號外,還可以使用\N,其中 N 是在替換字元串中使用的分組編號。下麵的代碼僅僅只是將美式的日期表示法MM/DD/YY{,YY}格式 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...