Python採集B站最新周傑倫MV內容, 粉絲評論 並實現詞雲分析

来源:https://www.cnblogs.com/Qqun261823976/archive/2022/07/13/16474259.html
-Advertisement-
Play Games

前言 大家早好、午好、晚好吖~ 環境使用: Python 3.8 Pycharm 2021.2版本 ffmpeg <需要設置環境變數> 模塊使用: import requests >>> pip install requests 內置模塊 你安裝好python環境就可以了 import re imp ...


前言

大家早好、午好、晚好吖~


環境使用:

  • Python 3.8

  • Pycharm 2021.2版本

  • ffmpeg <需要設置環境變數>

模塊使用:

  • import requests >>> pip install requests

內置模塊 你安裝好python環境就可以了

  • import re

  • import json

  • import subprocess

如果安裝python第三方模塊:

  1. win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車

  2. 在pycharm中點擊Terminal(終端) 輸入安裝命令

基本思路流程:

採集視頻數據.... 1. 視頻標題 2. 視頻內容

1、對著網頁 滑鼠右鍵點擊查看網頁源代碼 ctrl + F 搜索 playinfo

代碼實現步驟: <通用>

  1. 發送請求, 模擬瀏覽器對於url地址發送請求

  2. 獲取數據, 獲取網頁源代碼 <因為我們想要數據內容, 來自於網頁源代碼>

  3. 解析數據, 提取我們想要數據內容

  4. 保存數據, 把視頻內容完整的保存到本地文件夾

代碼

採集視頻

# 導入數據請求模塊
import requests
# 導入正則
import re
# 導入json
import json
# 導入格式化輸出模塊
import pprint
# 導入進程模塊
import subprocess

 

"""

發送請求

模擬瀏覽器對於url地址發送請求
"""

# 確定網址
url = 'https://www.bilibili.com/video/BV1ua411p7iA?vd_source=b2da3931eefc454d41eb6bb5b34749d1'
# python代碼如何模擬瀏覽器? 請求頭 ---> 用偽裝python代碼
headers = {
    # referer 防盜鏈 告訴伺服器請求url地址是從哪裡跳過過來
    'referer': 'https://www.bilibili.com/',
    # user-agent 用戶代理 表示瀏覽器基本身份標識
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 發送請求  ---> 得到響應對象 200 狀態碼表示請求成功
response = requests.get(url=url, headers=headers)
# <Response [200]>
print(response)

 

獲取數據

# 獲取數據 得到響應對象文本數據 ---> 字元串數據類型
# print(response.text)

 

"""

解析數據

提取我們想要數據內容
正則表達式 re ---> 對於字元串數據進行提取
---> 0 1 2 開始計數 -3 -2 -1<---
lis = ['a', 'b', 'c'] lis[0] lis[-3]

re.findall() --> 匹配數據返回 列表數據類型 列表取值: 根據索引位置提取內容
re 模塊名
.findall() 調用re模塊裡面findall()方法 --> 找到所有 <我們想要數據>
從什麼地方去找什麼數據
從 response.text 裡面 去找 "title":"(.?)","pubdate" 其中 (.?) 這段是我們想要的
"""

源碼、解答、教程可加Q裙:832157862
# 獲取標題
title = re.findall('"title":"(.*?)","pubdate"', response.text)[0].replace(' ', '')
# 正則替換特殊字元
title = re.sub(r'[\/:*?"<>|]', '', title)
# 獲取shipin數據信息
html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
# 轉成json字典數據類型
json_data = json.loads(html_data)
# 字典取值 --> 鍵值對取值, 根據冒號左邊內容[鍵]  提取冒號右邊的內容[值]
audio_url = json_data['data']['dash']['audio'][0]['baseUrl']
video_url = json_data['data']['dash']['video'][0]['baseUrl']
print(audio_url)
print(video_url)
print(title)

 

保存數據

--> 403 Forbidden 沒有訪問許可權 --> 防盜鏈 加headers請求頭

# 發送請求 獲取音頻二進位數據
audio_content = requests.get(url=audio_url, headers=headers).content
# 發送請求 獲取視頻二進位數據
# video__content = requests.get(url=video_url, headers=headers).content
# with open('video\\' + title + '.mp3', mode='wb') as a:
#     a.write(audio_content)
# with open('video\\' + title + '.mp4', mode='wb') as v:  # 丨
#     v.write(video__content)

# 通過ffmpeg 這個軟體命令 進行視頻合成
cmd = f"ffmpeg -i video\\{title}.mp4 -i video\\{title}.mp3 -c:v copy -c:a aac -strict experimental video\\{title}output.mp4"
subprocess.run(cmd, shell=True)

 

採集評論

源碼、解答、教程可加Q裙:832157862
# 導入數據請求模塊
import time

import requests

for page in range(1, 11):
    # 請求網址
    time.sleep(1)
    url = f'https://api.bilibili.com/x/v2/reply/main?csrf=9b972b9803693b4f5c0d6a042b2d0c0e&mode=3&next={page}&oid=215631694&plat=1&type=1'
    # 請求頭
    headers = {
        # 'origin': 'https://www.bilibili.com',
        'referer': 'https://www.bilibili.com/video/',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36',
    }
    # 發送請求
    response = requests.get(url=url, headers=headers)
    # 獲取數據
    content_list = [i['content']['message'] for i in response.json()['data']['replies']]
    print(content_list)
    # for 遍歷輸出內容
    for content in content_list:
        with open('評論.txt', mode='a', encoding='utf-8') as f:
            f.write(content)
            f.write('\n')
        print(content)

 

製作詞雲

# 導入結巴分詞模塊
import jieba
# 導入詞雲模塊
import wordcloud
# 讀取文件內容
f = open('評論.txt', encoding='utf-8')
txt = f.read()
print(txt)
string = ' '.join(jieba.lcut(txt))
print(string)
wc = wordcloud.WordCloud(
    width=700,   # 寬
    height=700,  # 高
    background_color='white',  # 背景顏色
    font_path='msyh.ttc',  # 設置字體
    scale=15,  # 規模
)
wc.generate(string)
wc.to_file('評論詞雲.png')

 

尾語

好了,我的這篇文章寫到這裡就結束啦!

有更多建議或問題可以評論區或私信我哦!一起加油努力叭(ง •_•)ง

喜歡就關註一下博主,或點贊收藏評論一下我的文章叭!!!

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • python數據類型 進位轉換 變數 常量 運算符 ...
  • Java面向對象(五) 十六、面向對象特征之三: 多態性 16.1 多態性的定義: 對象的多態性:父類的引用指向子類的對象(或子類的對象賦給父類的引用)。 可以直接應用在抽象類和介面上。 Java 引用變數有兩個類型:編譯時類型和運行時類型。 編譯時類型由聲明該變數時使用的類型決定,運行時類型由實際 ...
  • 目前項目的目錄結構 簡要說明 因為項目是要分兩塊部署在不同的伺服器上的 task_producer是作為任務發佈者部署 task_customer是作為任務消費者 兩塊之前的消息通信的話,目前選用的是redis的隊列來進行的 消費者目前的代碼還沒有開始就暫時不展示了,下麵僅說明發佈者的目錄結構 cl ...
  • #IO思維導圖總結 ##總覽: 1.文件 <目標:File類的創建和刪除的方法 > public boolean createNewFile() :當且僅當具有該名稱的文件尚不存在時, 創建一個新的空文件。 (幾乎不用的,因為以後文件都是自動創建的!) public boolean delete() ...
  • 因為有些主題的原因,一些新加欄目不能按照需求,在首頁調出部分列表數據。我們可以這樣做: 1.找到該主題的include.php文件,在該文件最後添加代碼如下: 註意: San_Tiger_GetArticleCategorys函數名中,需要將 San_Tiger換成網站所正在用的主題名 functi ...
  • instanceof instanceof是Java 的保留關鍵字。 它的作用是測試它左邊的對象是否是它右邊的類的實例,返回 boolean 的數據類型。 類的實例包含本身的實例,以及所有直接或間接子類的實例 instanceof左邊顯式聲明的類型與右邊操作元必須是同種類或存在繼承關係,也就是說需要 ...
  • 來源:https://juejin.cn/post/6844903954308939784 導語 自從畢業後,今年已經是我工作的第 8 個年頭了,我甚至都快忘記了到底是哪年畢業的。 從出來,本人一直在做 Java 相關的工作,現在終於有時間坐下來,寫一篇關於 Java 寫法的一篇文章,來探討一下如果 ...
  • java入門 java誕生過程:1972年誕生c語言,因為指針和記憶體管理複雜,難以移植性。1982年產生了改進後的c++但是還是很複雜,於是在1995年就建立了java語言。 java優點: 語法有點像c 沒有指針 沒有記憶體管理 運行在jvm上,實現了真正的一次編譯到處運行 面向對象 類型安全 …… ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...