【python爬蟲實戰】用python爬取愛奇藝電視劇十大榜單的全部數據!

来源:https://www.cnblogs.com/mashukui/archive/2023/06/08/17465049.html
-Advertisement-
Play Games

[toc] # 一、爬取目標 本次爬取的目標是,愛奇藝電視劇類目下的10個榜單:[電視劇風雲榜-愛奇藝風雲榜](https://www.iqiyi.com/ranks1/2/0) ​![愛奇藝頁面](https://img2023.cnblogs.com/blog/2864563/202306/28 ...


目錄

一、爬取目標

本次爬取的目標是,愛奇藝電視劇類目下的10個榜單:電視劇風雲榜-愛奇藝風雲榜
愛奇藝頁面

可以看到,這10個榜單包含了:
熱播榜、飆升榜、必看榜、古裝榜、言情榜、都市榜、搞笑榜、年代榜、懸疑榜、奇幻榜。

我們以熱播榜為例,打開Chrome瀏覽器,按F12進入開發者模式,選擇網路 -> XHR這個選項,重新刷新一下頁面,並且逐次下拉頁面到最底部,展現出全部100部電視劇:
開發者模式

查看捕獲到的請求鏈接地址,每翻一次頁,出現一條鏈接地址,並且該地址的響應數據就是20條電視劇的數據。
所以,這個地址就是我們要請求的地址了。

二、講解代碼

首先,導入需要用到的爬蟲庫:

import requests  # 發送請求
import pandas as pd  # 存入excel文件
from time import sleep  # 隨機等待,防止反爬
import random  # 設置隨機

從請求地址的Request Header處,拷貝過來一個請求頭,放到代碼里:

headers = {
	'accept': 'application/json, text/plain, */*',
	'accept-encoding': 'gzip, deflate, br',
	'accept-language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
	'origin': 'https://www.iqiyi.com',
	'referer': 'https://www.iqiyi.com/',
	'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
	'sec-ch-ua-mobile': '?1',
	'sec-ch-ua-platform': '"Android"',
	'sec-fetch-dest': 'empty',
	'sec-fetch-mode': 'cors',
	'sec-fetch-site': 'same-site',
	'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Mobile Safari/537.36'
}

愛奇藝的這個榜單頁面,反爬不那麼厲害,請求頭中連cookie都不用加!
由於我想自動爬取這10個榜單,每個榜單對應一個tag標簽,從哪裡獲取呢?經過分析,是從另外一個請求地址返回的:
開發者模式2
發現了嗎?每個榜單名稱是一個tagName,對應一個tagId。拿到tagId,帶入到榜單數據的請求地址中:

for page in range(1, 5):
	url = 'https://pcw-api.iqiyi.com/strategy/pcw/data/topRanksData?page_st={}&tag={}&category_id=2&date=&pg_num={}'.format(v_tag_id, v_tag_id, page)
	r = requests.get(url, headers=headers)

這樣,就完成了向頁面發送請求的過程。

順便說一下這個for迴圈,一共翻4頁,每頁25條數據,對應一共100部電視劇。

用json格式接收返回的數據:

json_data = r.json()

然後開始解析json數據:

content_list = json_data['data']['formatData']['data']['content']
for content in content_list:
	# 排名
	order_list.append(order)
	# 標題
	title_list.append(content['title'])
	print(order, ' ', content['title'])
	# 描述
	try:
		desc_list.append(content['desc'])
	except:
		desc_list.append('')
	# 標簽
	tags_list.append(content['tags'])
	tag_info = content['tags'].split(' / ')
	# 上映年份
	year = tag_info[0]
	year_list.append(year)
	# 主演
	actor = tag_info[-1]
	actor_list.append(actor)
	# 彈幕
	try:
		danmu_list.append(content['danmu'].replace('條彈幕', ''))
	except:
		danmu_list.append('')
	# 霸榜
	try:
		babang_list.append(content['babang'])
	except:
		babang_list.append('')
	# 實時熱度
	if v_tag_name == '飆升榜':
		index_list.append(content['index'] + '%')
	else:
		index_list.append(content['index'])
	order += 1

最後,依然採用我最順手的方法,拼裝成DataFrame的格式,保存到excel文件:

df = pd.DataFrame({
		'排名': order_list,
		'標題': title_list,
		'描述': desc_list,
		'標簽': tags_list,
		'上映年份': year_list,
		'主演': actor_list,
		'彈幕': danmu_list,
		'霸榜': babang_list,
		'實時熱度': index_list,
	})
if v_tag_name == '飆升榜':  # 如果是飆升榜,把excel標題中的'實時熱度'改為'飆升幅度'
	df.rename(columns={'實時熱度': '飆升幅度'}, inplace=True)
df.to_excel('愛奇藝電視劇_{}.xlsx'.format(v_tag_name), index=False)

這裡,需要註意一個小邏輯,飆升榜的'實時熱度'需要rename為'飆升幅度',因為飆升榜跟其他榜單不一樣!
飆升榜頁面

三、查看結果

共爬取到10個榜單文件:
結果文件

隨便打開一個文件,比如,熱播榜:
熱播榜

比如,都市榜:
都市榜

除了搞笑榜有40+條數據,其他榜單都是100條數據,對應100部電視劇。

四、視頻演示

代碼演示視頻:https://www.bilibili.com/video/BV1fT4y1e7wd/

五、附完整源碼

完整源碼:【python爬蟲實戰】用python爬取《愛奇藝風雲榜》電視劇十大榜單!2023.6發佈


我是 @馬哥python說 ,持續分享python源碼乾貨中!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在 Vue2.0中,代碼復用和抽象的主要形式是組件。然而,有的情況下,你仍然需要對普通 DOM元素進行底層操作,這時候就會用到自定義指令。你可以將一些 css樣式抽象到指令中,也可以將一些 js 操作放到指令中去執行。就使用上來說,指令不用像組件一樣需要引入和註冊,註冊後使用非常簡潔方便。對於在項目... ...
  • Vue3簡介 Vue3是Vue.js的最新版本,於2020年9月18日正式發佈。Vue3相比Vue2有很多改進和優化,包括但不限於: 更快的渲染速度:Vue3通過使用Proxy代理對象和優化虛擬DOM演算法等方式,提高了渲染性能。 更小的體積:Vue3的體積比Vue2更小,打包後的文件更小,載入速度更 ...
  • # 1. Iconfont * 阿裡傾力打造的矢量圖標管理、交流平臺,設計師將圖標上傳到 iconfont 平臺,用戶可以自定義下載多種格式的icon,平臺也可將圖標轉換為字體,便於前端工程師自由調整與調用。 * 地址:Iconfont ![](https://img2023.cnblogs.com ...
  • 一、前言 針對目錄結構、CSS規範、JavaScript規範、Vue規範 可參照官方給出的 [風格指南](https://v2.cn.vuejs.org/v2/style-guide/index.html) 這裡主要總結業務開發中常遇到的代碼問題和實踐,幫助大家後續各自做好codeReview,一些 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 前言 🛰🛰 我們在無論是在查閱別人的代碼,還是在實際項目開發的過程中,肯定都會使用導入導出的功能,有時候我們會搞混這幾種方式到底有什麼區別,今天我們就來細緻的區分一下: 導入導出方式⚔️⚔️ 我們都知道最常見的幾種導出方式無非是exp ...
  • 我們要尋求更好的技術方案,推動架構的良性演進,每一步都是經過深度思考的,而架構設計方法就是幫助我們思考的框架。通過做架構設計,我們應該提升軟體的質量和效率,降低風險和成本。 ...
  • ![cover.jpeg](https://p9-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e86fc6dcb452419498a7db6878591e30~tplv-k3u1fbpfcp-watermark.image?) #### 1 人工智慧的發展歷程 如今 ...
  • 前段時期我負責部門內部主幹開發落地相關事宜,這個過程中,也真真切切的體會到了多人開發過程中,面對特性分支管理中,大家遇到的一些困擾,尤其面對敏捷迭代的開發方式,合併衝突,集成測試,代碼重用等方面,都與高效兩個字背離。當然,我在推進主幹開發過程中,也遇到了一些問題和坎坷,在這裡,集中的做一次分享。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...