Python一鍵獲取日漫Top100榜單電影信息

来源:https://www.cnblogs.com/pythoncircle/archive/2020/05/25/12961048.html
-Advertisement-
Play Games

最近看到一個 UP 主做的視頻,使用可視化動態圖,把目前播放量最多的 UP 主一一列出來,結果第一名是嗶哩嗶哩番劇,第一名的播放量是第二名近 10 倍。 B站的番劇數量,也是相對其他平臺比較多的,而且質量都還不錯。說實話,剛開始用嗶哩嗶哩的時候,就是為了看番劇。作為一個喜歡看番劇的 pk 哥,我決定 ...


最近看到一個 UP 主做的視頻,使用可視化動態圖,把目前播放量最多的 UP 主一一列出來,結果第一名是嗶哩嗶哩番劇,第一名的播放量是第二名近 10 倍。

B站的番劇數量,也是相對其他平臺比較多的,而且質量都還不錯。說實話,剛開始用嗶哩嗶哩的時候,就是為了看番劇。作為一個喜歡看番劇的 pk 哥,我決定用爬蟲爬取一下日本動漫電影 TOP100 都有哪些?網上看了一下,時光網正好有這個排行榜,而且信息相對來說比較全。

所以我決定用爬蟲把這個榜單上 Top100 的所有電影信息全部保存為 csv 文件放在本地,看有沒有之前我遺漏的經典動漫電影。

以下是保存的效果。保存的列包括電影名稱、導演編劇、發行公司、更多片名、評分、首日票房、總票房。有些電影沒有評分和票房信息的就直接顯示為空。

獲取電影ID信息

本次爬蟲項目主要分為三個部分。第一部分我們要獲取電影的 Id信息,因為我們需要保存的所有信息,都和這個有關。Id從哪裡獲取呢?我們打開這個榜單頁面的源代碼。源代碼中我們可以看到,id都在鏈接後面。

為了縮小範圍,我們發現這些鏈接都在 class=top_nlist 裡面,我們用 beautifulsoup 庫提取屬性 class= top_nlist 所有的元素。然後用正則表達式,提取出每頁的 id信息。

這裡第 1 個頁面需要特殊處理一下,因為第 2 個頁面到第 10 個頁面後面都是直接帶的數字,第 1 個頁面直接我在後面加 -1 的話會報 404,所以這個頁面單獨拿出來提取頁面信息。然後再把 ID 信息全部加到空列表裡面。

提取評分和票房信息

ID 信息獲取了,接下來我們通過 ID 信息來獲取電影的評分和票房信息。通過 F12 調試我們可以看到。評分和票房信息在 js 裡面。

請求鏈接里變化的就是電影的 ID ,其他的保持不變就好。

我們對返回信息通過簡單的處理轉換為 Json 格式。之後我們就可以直接通過 key 值提取 value 值了。這裡主要提取的信息有:評分、首日票房和總票房。

提取其他電影詳細信息

接下來我們需要通過 ID 信息獲取對應電影的名稱和導演編劇等詳細信息。這些信息在源代碼中,可以直接通過正則表達式來提取。

用正則表達式提取信息的前提是我們要找到信息的規律。這樣通過正則表達式提取就又快又準。

提取了這些信息之後,我們把它保存在 list 列表中,這樣做的目的是為了後面我們保存為 csv 文件做準備。

保存為csv文件

每頁的信息獲取了之後,我們就可以把這些信息追加保存到 csv 文件中。每保存一部電影信息,保存下一部電影信息就進行追加保存。為了避免保存後的 csv 文件打開出現亂碼,我們需要將編碼形式設置為 encoding='utf-8' 格式。

通過這三步,這個 Top100 排行榜中的所有動漫電影信息都全部保存在本地的 csv 文件中啊。那我們就可以更方便的瀏覽這些電影信息。這樣我們就可以更好的追番了。本文所有的代碼信息可在公眾號「Python知識圈」後臺回覆「動漫電影」獲取。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 我們在使用Spring框架中,特別是框架級的功能,經常看到有@Import導入功能, ​ 我就介紹下它能導入什麼,首先聲明下@Import是註解,導入類型可分為三類: 1. 導入配置 @Configuration,類似於spring早期版本2.5的import xml文件一樣, <?xml vers ...
  • 一、不同環境下的C 1.一個源程式inform.c編譯生成a.out,然後可以直接運行這個可執行程式,如果要存儲這個可執行文件,應該把它重命名,否則,就會被下一次編譯程式時生成的新a.out所替換。 2.如何處理目標代碼,C編譯器會創建一個inform.o,然而卻找不到這個文件,因為一旦鏈接器生成了 ...
  • @ 一、類的載入概述 載入 就是指將class文件讀入記憶體,併為之創建一個Class對象 任何類被使用時系統都會建立一個Class對象 連接 驗證:是否有正確的內部結構,並和其他類協調一致 準備:負責為類的靜態成員分配記憶體,並設置預設初始化值 解析:將類的二進位數據中的符號引用替換為直接引用 初始化 ...
  • cola擴展點使用和設計初探 封裝變化,可靈活應對程式的需求變化。 擴展點使用 步驟: 定義擴展點介面,類型可以是校驗器,轉換器,實體; 必須以ExtPt結尾,表示一個擴展點。 比如,我定義一個雲樞的組織結構的擴展點介面,消息發送擴展點,二開擴展點,webapi的rest介面擴展點點。 定義擴展點接 ...
  • 6.字典 字典的主要特性如下所示: 1.字典是使用大括弧進行定義 2.字典中的元素是鍵值對的形式出現,每個鍵值對之間使用冒號進行分隔,每個元素間使用逗號進行分隔 3.字典中鍵必須為不可更改的數據類型,如整型數據、浮點數據、布爾型、字元型、元組等,但不能列表和變數 6.1 基本使用 1.添加 直接給對 ...
  • 5.列表 列表是實際應用非常多的一種數據類型,需要好好掌握。列表的主要特性如下所示: 1.支持增加、修改和刪除元素操作 2.列表的長度是可變的 3.列表支持排序 5.1 索引與切片 列表中索引是從0開始,且支持正向和反向兩種索引方式。如下所示: a=[1,2,"abc",[4,5,6],{"a":7 ...
  • 最近在讀秦小波的《設計模式之禪》。本文又是一篇長達2000行的又水又長的筆記,記錄書中所講23個設計模式中的22個,基本上是將書中講的各個設計模式的定義、優點、缺點、適用場景、demo抄下來了。推薦去閱讀原書,這是一位學識豐富且有一個有趣的靈魂的作者所寫,原書中每個設計模式的講解都有一個十分有趣的例 ...
  • python序列之集合 1.概念 集合是一組無序不可重覆元素組成,用{}表示,在集合中元素是唯一的並且集合中只能包括數字,字元串和元組等不可變元素。 2.創建 創建集合可有set()或者{}創建。 3.集合中增加元素的方法為add()方法 4.集合刪除 pop()方法刪除集合中某一個元素。 remo ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...