【爬蟲數據集】滇西小哥YouTube頻道TOP10熱門視頻的熱評數據,共2W條!

来源:https://www.cnblogs.com/mashukui/archive/2023/05/21/17416851.html
-Advertisement-
Play Games

[toc] # 一、背景介紹 滇西小哥是一位來自中國雲南省的視頻博主,他在YouTube上擁有超過1000萬的訂閱者和上億的觀看量。他的視頻內容主要涵蓋中國文化、美食、旅行、音樂和藝術等方面。滇西小哥通過分享自己的文化體驗和獨特的觀點,成功地將中國文化傳遞到了國際社會並獲得了廣泛的關註。通過他的視頻 ...


目錄

一、背景介紹

滇西小哥是一位來自中國雲南省的視頻博主,他在YouTube上擁有超過1000萬的訂閱者和上億的觀看量。他的視頻內容主要涵蓋中國文化、美食、旅行、音樂和藝術等方面。滇西小哥通過分享自己的文化體驗和獨特的觀點,成功地將中國文化傳遞到了國際社會並獲得了廣泛的關註。通過他的視頻,許多外國人可以瞭解中國的文化遺產和傳統習俗。滇西小哥講解的內容既有很具代表性的中國傳統文化,如風水、中醫、茶藝等,也包括現代時尚的文化,如網路流行語等。通過他的視頻,外國觀眾可以更好地瞭解當代中國文化,並更好地理解中國人的思維方式和價值觀。並且在視頻分享中傳遞出中國人溫馨、友善、好客的傳統美德。

二、爬取目標

爬取目標:滇西小哥頻道TOP10熱門視頻的TOP2000熱門評論(共計2w條)

每個視頻下方的TOP2000評論,同樣按熱門排序。比如TOP1視頻的評論如下:

也就是滇西小哥頻道的10個視頻,每個視頻2000條評論,共2w條評論,爬取完成。(10*2000=2w)

三、結果展示

先看下我整理的滇西小哥TOP10熱門視頻列表:

下麵看爬取到的評論數據。
共10個評論數據文件,每個文件對應一個視頻,每個文件內含2000條評論。
(文件名並不是亂碼,而是YouTube視頻id號哦)

隨便打開一個文件,比如TOP1熱門視頻的評論,看下內容:
包含欄位:評論id、評論內容、評論時間、評論作者、作者頻道、點贊數。

四、演示視頻

【爬蟲數據集】爬取滇西小哥YouTube頻道TOP10熱門視頻的熱門評論

五、附完整數據

完整數據:【爬蟲數據集】滇西小哥YouTube頻道TOP10熱門視頻的熱評數據,共2W條


by 馬哥python說


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 1.1 為什麼要學 Qt Qt是一個跨平臺的 C++ 圖形用戶界面應用程式框架 Qt 為應用程式開發者提供建立藝術級圖形界面所需的所有功能 Qt 是完全面向對象的,很容易擴展,並且允許真正的組件編程 (1)Qt 發展史 在講解學習 Qt 的必要性之前, 先來瞭解下 Qt 的發展歷史: 1991 ...
  • 用go設計開發一個自己的輕量級登錄庫/框架吧(拓展篇),給自己的庫/框架拓展一下吧,主庫:https://github.com/weloe/token-go ...
  • ### 1.0 匿名對象的基本知識 * 匿名對象 顧名思義,匿名對象指的就是沒有名字的對象,在使用中理解為實例化一個類對象,但是並不把它賦給一個對應的類變數,而是直接使用。在理解匿名對象前,我們先創建一個類便於後面的使用。 * 匿名對象具有以下特征: 語法上:只創建對象,但不用變數來接收,例如:假設 ...
  • Groovy是一種基於Java平臺的動態編程語言,它結合了Python、Ruby和Smalltalk等語言的特性,同時與Java無縫集成。 ...
  • 從 JDK7 開始,引入了表示非同步通道的 `AsynchronousSockerChannel` 類和 `AsynchronousServerSocketChannel` 類,這兩個類的作用與 `SocketChannel` 類和 `ServerSockelChannel` 相似,區別在於非同步通道的 ...
  • ## 文章首發 [【重學C++】02 脫離指針陷阱:深入淺出 C++ 智能指針](https://mp.weixin.qq.com/s/McD-kfsiQ7hW1UnsAriC1g) ## 前言 大家好,今天是【重學C++】系列的第二講,我們來聊聊C++的智能指針。 ## 為什麼需要智能指針 在上一 ...
  • CAS 是樂觀鎖設計思想的實現。CAS 的思想是:在“讀取 - 修改 - 寫回”操作序列中,先讀取並修改數據,寫回數據前先判斷讀取數據後的這段時間內數據是否發生變化(共用變數的當前值是否是我們的期望值)。通過 CAS 我們可以以無鎖的方式,保證對共用數據進行 “讀取 - 修改 - 寫回” 操作序列的... ...
  • 深入探討Python中的併發編程,特別關註多線程和多進程的應用。我們將先從基本概念開始,然後通過詳細舉例探討每一種機制,最後分享一些實戰經驗以及一種優雅的編程技巧。 ...
一周排行
    -Advertisement-
    Play Games
  • 通過WPF的按鈕、文本輸入框實現了一個簡單的SpinBox數字輸入用戶組件並可以通過數據綁定數值和步長。本文中介紹了通過Xaml代碼實現自定義組件的佈局,依賴屬性的定義和使用等知識點。 ...
  • 以前,我看到一個朋友在對一個系統做初始化的時候,通過一組魔幻般的按鍵,調出來一個隱藏的系統設置界面,這個界面在常規的菜單或者工具欄是看不到的,因為它是一個後臺設置的關鍵界面,不公開,同時避免常規用戶的誤操作,它是作為一個超級管理員的入口功能,這個是很不錯的思路。其實Winform做這樣的處理也是很容... ...
  • 一:背景 1. 講故事 前些天有位朋友找到我,說他的程式每次關閉時就會自動崩潰,一直找不到原因讓我幫忙看一下怎麼回事,這位朋友應該是第二次找我了,分析了下 dump 還是挺經典的,拿出來給大家分享一下吧。 二:WinDbg 分析 1. 為什麼會崩潰 找崩潰原因比較簡單,用 !analyze -v 命 ...
  • 在一些報表模塊中,需要我們根據用戶操作的名稱,來動態根據人員姓名,更新報表的簽名圖片,也就是電子手寫簽名效果,本篇隨筆介紹一下使用FastReport報表動態更新人員簽名圖片。 ...
  • 最新內容優先發佈於個人博客:小虎技術分享站,隨後逐步搬運到博客園。 創作不易,如果覺得有用請在Github上為博主點亮一顆小星星吧! 博主開始學習編程於11年前,年少時還只會使用cin 和cout ,給單片機點點燈。那時候,類似async/await 和future/promise 模型的認知還不是 ...
  • 之前在阿裡雲ECS 99元/年的活動實例上搭建了一個測試用的MINIO服務,以前都是直接當基礎設施來使用的,這次準備自己學一下S3相容API相關的對象存儲開發,因此有了這個小工具。目前僅包含上傳功能,後續計劃開發一個類似圖床的對象存儲應用。 ...
  • 目錄簡介快速入門安裝 NuGet 包實體類User資料庫類DbFactory增刪改查InsertSelectUpdateDelete總結 簡介 NPoco 是 PetaPoco 的一個分支,具有一些額外的功能,截至現在 github 星數 839。NPoco 中文資料沒多少,我是被博客園群友推薦的, ...
  • 前言 前面使用 Admin.Core 的代碼生成器生成了通用代碼生成器的基礎模塊 分組,模板,項目,項目模型,項目欄位的基礎功能,本篇繼續完善,實現最核心的模板生成功能,並提供生成預覽及代碼文件壓縮下載 準備 首先清楚幾個模塊的關係,如何使用,簡單畫一個流程圖 前面完成了基礎的模板組,模板管理,項目 ...
  • 假設需要實現一個圖標和文本結合的按鈕 ,普通做法是 直接重寫該按鈕的模板; 如果想作為通用的呢? 兩種做法: 附加屬性 自定義控制項 推薦使用附加屬性的形式 第一種:附加屬性 創建Button的附加屬性 ButtonExtensions 1 public static class ButtonExte ...
  • 在C#中,委托是一種引用類型的數據類型,允許我們封裝方法的引用。通過使用委托,我們可以將方法作為參數傳遞給其他方法,或者將多個方法組合在一起,從而實現更靈活的編程模式。委托類似於函數指針,但提供了類型安全和垃圾回收等現代語言特性。 基本概念 定義委托 定義委托需要指定它所代表的方法的原型,包括返回類 ...