Python採集B站最新周傑倫MV內容, 粉絲評論 並實現詞雲分析

来源:https://www.cnblogs.com/Qqun261823976/archive/2022/07/13/16474259.html
-Advertisement-
Play Games

前言 大家早好、午好、晚好吖~ 環境使用: Python 3.8 Pycharm 2021.2版本 ffmpeg <需要設置環境變數> 模塊使用: import requests >>> pip install requests 內置模塊 你安裝好python環境就可以了 import re imp ...


前言

大家早好、午好、晚好吖~


環境使用:

  • Python 3.8

  • Pycharm 2021.2版本

  • ffmpeg <需要設置環境變數>

模塊使用:

  • import requests >>> pip install requests

內置模塊 你安裝好python環境就可以了

  • import re

  • import json

  • import subprocess

如果安裝python第三方模塊:

  1. win + R 輸入 cmd 點擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車

  2. 在pycharm中點擊Terminal(終端) 輸入安裝命令

基本思路流程:

採集視頻數據.... 1. 視頻標題 2. 視頻內容

1、對著網頁 滑鼠右鍵點擊查看網頁源代碼 ctrl + F 搜索 playinfo

代碼實現步驟: <通用>

  1. 發送請求, 模擬瀏覽器對於url地址發送請求

  2. 獲取數據, 獲取網頁源代碼 <因為我們想要數據內容, 來自於網頁源代碼>

  3. 解析數據, 提取我們想要數據內容

  4. 保存數據, 把視頻內容完整的保存到本地文件夾

代碼

採集視頻

# 導入數據請求模塊
import requests
# 導入正則
import re
# 導入json
import json
# 導入格式化輸出模塊
import pprint
# 導入進程模塊
import subprocess

 

"""

發送請求

模擬瀏覽器對於url地址發送請求
"""

# 確定網址
url = 'https://www.bilibili.com/video/BV1ua411p7iA?vd_source=b2da3931eefc454d41eb6bb5b34749d1'
# python代碼如何模擬瀏覽器? 請求頭 ---> 用偽裝python代碼
headers = {
    # referer 防盜鏈 告訴伺服器請求url地址是從哪裡跳過過來
    'referer': 'https://www.bilibili.com/',
    # user-agent 用戶代理 表示瀏覽器基本身份標識
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 發送請求  ---> 得到響應對象 200 狀態碼表示請求成功
response = requests.get(url=url, headers=headers)
# <Response [200]>
print(response)

 

獲取數據

# 獲取數據 得到響應對象文本數據 ---> 字元串數據類型
# print(response.text)

 

"""

解析數據

提取我們想要數據內容
正則表達式 re ---> 對於字元串數據進行提取
---> 0 1 2 開始計數 -3 -2 -1<---
lis = ['a', 'b', 'c'] lis[0] lis[-3]

re.findall() --> 匹配數據返回 列表數據類型 列表取值: 根據索引位置提取內容
re 模塊名
.findall() 調用re模塊裡面findall()方法 --> 找到所有 <我們想要數據>
從什麼地方去找什麼數據
從 response.text 裡面 去找 "title":"(.?)","pubdate" 其中 (.?) 這段是我們想要的
"""

源碼、解答、教程可加Q裙:832157862
# 獲取標題
title = re.findall('"title":"(.*?)","pubdate"', response.text)[0].replace(' ', '')
# 正則替換特殊字元
title = re.sub(r'[\/:*?"<>|]', '', title)
# 獲取shipin數據信息
html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
# 轉成json字典數據類型
json_data = json.loads(html_data)
# 字典取值 --> 鍵值對取值, 根據冒號左邊內容[鍵]  提取冒號右邊的內容[值]
audio_url = json_data['data']['dash']['audio'][0]['baseUrl']
video_url = json_data['data']['dash']['video'][0]['baseUrl']
print(audio_url)
print(video_url)
print(title)

 

保存數據

--> 403 Forbidden 沒有訪問許可權 --> 防盜鏈 加headers請求頭

# 發送請求 獲取音頻二進位數據
audio_content = requests.get(url=audio_url, headers=headers).content
# 發送請求 獲取視頻二進位數據
# video__content = requests.get(url=video_url, headers=headers).content
# with open('video\\' + title + '.mp3', mode='wb') as a:
#     a.write(audio_content)
# with open('video\\' + title + '.mp4', mode='wb') as v:  # 丨
#     v.write(video__content)

# 通過ffmpeg 這個軟體命令 進行視頻合成
cmd = f"ffmpeg -i video\\{title}.mp4 -i video\\{title}.mp3 -c:v copy -c:a aac -strict experimental video\\{title}output.mp4"
subprocess.run(cmd, shell=True)

 

採集評論

源碼、解答、教程可加Q裙:832157862
# 導入數據請求模塊
import time

import requests

for page in range(1, 11):
    # 請求網址
    time.sleep(1)
    url = f'https://api.bilibili.com/x/v2/reply/main?csrf=9b972b9803693b4f5c0d6a042b2d0c0e&mode=3&next={page}&oid=215631694&plat=1&type=1'
    # 請求頭
    headers = {
        # 'origin': 'https://www.bilibili.com',
        'referer': 'https://www.bilibili.com/video/',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36',
    }
    # 發送請求
    response = requests.get(url=url, headers=headers)
    # 獲取數據
    content_list = [i['content']['message'] for i in response.json()['data']['replies']]
    print(content_list)
    # for 遍歷輸出內容
    for content in content_list:
        with open('評論.txt', mode='a', encoding='utf-8') as f:
            f.write(content)
            f.write('\n')
        print(content)

 

製作詞雲

# 導入結巴分詞模塊
import jieba
# 導入詞雲模塊
import wordcloud
# 讀取文件內容
f = open('評論.txt', encoding='utf-8')
txt = f.read()
print(txt)
string = ' '.join(jieba.lcut(txt))
print(string)
wc = wordcloud.WordCloud(
    width=700,   # 寬
    height=700,  # 高
    background_color='white',  # 背景顏色
    font_path='msyh.ttc',  # 設置字體
    scale=15,  # 規模
)
wc.generate(string)
wc.to_file('評論詞雲.png')

 

尾語

好了,我的這篇文章寫到這裡就結束啦!

有更多建議或問題可以評論區或私信我哦!一起加油努力叭(ง •_•)ง

喜歡就關註一下博主,或點贊收藏評論一下我的文章叭!!!

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • python數據類型 進位轉換 變數 常量 運算符 ...
  • Java面向對象(五) 十六、面向對象特征之三: 多態性 16.1 多態性的定義: 對象的多態性:父類的引用指向子類的對象(或子類的對象賦給父類的引用)。 可以直接應用在抽象類和介面上。 Java 引用變數有兩個類型:編譯時類型和運行時類型。 編譯時類型由聲明該變數時使用的類型決定,運行時類型由實際 ...
  • 目前項目的目錄結構 簡要說明 因為項目是要分兩塊部署在不同的伺服器上的 task_producer是作為任務發佈者部署 task_customer是作為任務消費者 兩塊之前的消息通信的話,目前選用的是redis的隊列來進行的 消費者目前的代碼還沒有開始就暫時不展示了,下麵僅說明發佈者的目錄結構 cl ...
  • #IO思維導圖總結 ##總覽: 1.文件 <目標:File類的創建和刪除的方法 > public boolean createNewFile() :當且僅當具有該名稱的文件尚不存在時, 創建一個新的空文件。 (幾乎不用的,因為以後文件都是自動創建的!) public boolean delete() ...
  • 因為有些主題的原因,一些新加欄目不能按照需求,在首頁調出部分列表數據。我們可以這樣做: 1.找到該主題的include.php文件,在該文件最後添加代碼如下: 註意: San_Tiger_GetArticleCategorys函數名中,需要將 San_Tiger換成網站所正在用的主題名 functi ...
  • instanceof instanceof是Java 的保留關鍵字。 它的作用是測試它左邊的對象是否是它右邊的類的實例,返回 boolean 的數據類型。 類的實例包含本身的實例,以及所有直接或間接子類的實例 instanceof左邊顯式聲明的類型與右邊操作元必須是同種類或存在繼承關係,也就是說需要 ...
  • 來源:https://juejin.cn/post/6844903954308939784 導語 自從畢業後,今年已經是我工作的第 8 個年頭了,我甚至都快忘記了到底是哪年畢業的。 從出來,本人一直在做 Java 相關的工作,現在終於有時間坐下來,寫一篇關於 Java 寫法的一篇文章,來探討一下如果 ...
  • java入門 java誕生過程:1972年誕生c語言,因為指針和記憶體管理複雜,難以移植性。1982年產生了改進後的c++但是還是很複雜,於是在1995年就建立了java語言。 java優點: 語法有點像c 沒有指針 沒有記憶體管理 運行在jvm上,實現了真正的一次編譯到處運行 面向對象 類型安全 …… ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...