Python爬取b站任意up主所有視頻彈幕

来源:https://www.cnblogs.com/rain-poi/archive/2019/09/12/11515260.html
-Advertisement-
Play Games

爬取b站彈幕並不困難。要得到up主所有視頻彈幕,我們首先進入up主視頻頁面,即https://space.bilibili.com/id號/video這個頁面。按F12打開開發者菜單,刷新一下,在network的xhr文件中有一個getSubmitVideo文件,這個文件里就有我們需要的視頻av號了 ...


爬取b站彈幕並不困難。要得到up主所有視頻彈幕,我們首先進入up主視頻頁面,即https://space.bilibili.com/id號/video這個頁面。按F12打開開發者菜單,刷新一下,在network的xhr文件中有一個getSubmitVideo文件,這個文件里就有我們需要的視頻av號了。如果直接抓取頁面是拿不到的,因為視頻是非同步載入的。

 

在這個文件里的data標簽下,有一個count是視頻總數,pages是第幾頁,vlist就是我們要找的視頻信息了,裡面的aid就是每個視頻的av號。它的請求鏈接是https://space.bilibili.com/ajax/member/getSubmitVideos?mid=av號&pagesize=30&tid=0&page=1&keyword=&order=pubdate。pagesize是每次傳多少個視頻信息。

 

拿到所有的視頻av號後,我們打開視頻頁面。同樣是按F12打開開發者菜單,刷新一下,在network的xhr中有兩個文件,一個以pagelist為開頭,另一個以list.so為開頭。這兩個文件,第一個裡包含了視頻的cid,第二個就是根據cid拿到的彈幕文件。同樣,我們根據視頻av號訪問第一個文件的請求url,得到cid,再根據cid訪問第二個請求url就可以了。

 

 

 

 最後,我們對拿到的彈幕文件進行適當的整理。主要是從文件中的<d>標簽中提取出彈幕文字,然後去重,計數,再儲存到文件里。

import requests
from
lxml import etree import os import json from bs4 import BeautifulSoup from requests import exceptions import re import time def download_page(url): headers = {
  'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
  } data = requests.get(url, headers=headers) return data def get_video_page(space_num): base_url = "https://www.bilibili.com/av" url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page=1&keyword=&order=pubdate".format(space_num) data = json.loads(download_page(url).content)['data'] total = data['count'] page_num = int(total/99) + 1 video_list = data['vlist'] video_url = [] for video in video_list: video_url.append(base_url + str(video['aid'])) for i in range(2, page_num+1): time.sleep(1) url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page={}&keyword=&order=pubdate".format(space_num, i) data = json.loads(download_page(url).content)['data'] video_list = data['vlist'] for video in video_list: video_url.append(base_url + str(video['aid'])) return video_url def get_barrage(name, space_num): video_list = get_video_page(space_num) aid_to_oid = 'https://api.bilibili.com/x/player/pagelist?aid={}&jsonp=jsonp' barrage_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid={}' for url in video_list:
     # 降低爬取速度防止被禁 time.sleep(
1) aid = re.search(r'\d+$',url).group()
     # 這裡有時會出現莫名其妙的錯誤
try: oid = json.loads(download_page(aid_to_oid.format(aid)).content)['data'][0]['cid'] barrage = download_page(barrage_url.format(oid)).content except requests.exceptions.ConnectionError: print('av:',aid) continue if not os.path.exists('barrage/{}'.format(name)): os.makedirs('barrage/{}'.format(name)) with open('barrage/{}/av{}.xml'.format(name,aid),'wb') as f: f.write(barrage) def reorganize_barrage(name): results = {} for filename in os.listdir('barrage/{}'.format(name)): html = etree.parse('barrage/{}/{}'.format(name,filename), etree.HTMLParser())
     # 提取出xml文件中<d>標簽中的文字 barrages
= html.xpath('//d//text()') for barrage in barrages:
       # 有些彈幕會有回車符 barrage
= barrage.replace('\r', '') if barrage in results: results[barrage] += 1 else: results[barrage] = 1 if not os.path.exists('statistical result'): os.makedirs('statistical result') with open('statistical result/{}.txt'.format(name), 'w', encoding='utf8') as f: for key,value in results.items(): f.write('{}\t:\t{}\n'.format(key.rstrip('\r'),value)) if __name__ == '__main__':
  # 在space list.txt文件里,我是用“up主名稱:id”的格式來儲存的, with open(
'space list.txt', 'r') as f: for line in f.readlines(): name, num = line.split('') print(name) get_barrage(name, space_number) reorganize_barrage(name)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、線程替代方案 1.subprocess (1)完全跳過線程,使用進程 (2)是派生進程的主要替代方案 (3)python2.4後引入 2.multiprocessing (1)使用threading介面派生,使用子進程 (2)允許為多核或者多CPU派生進程,介面很threading非常相似 (3 ...
  • 上一篇博客已經給大家介紹了一些演算法題,明天剛好是中秋了,這裡祝大家中秋快樂。剛好趕上數學建模了,今天就先介紹與衡量演算法水平的重要指標時間複雜度吧。在時間充裕情況下會更新5+2。之後還會介紹空間複雜度以及python內置函數的時間複雜度。 1.簡介 先看一下什麼是時間複雜度: 衡量代碼的好壞,包括兩個 ...
  • 一、序列化組件 簡單使用 開發我們的Web API的第一件事是為我們的Web API提供一種將代碼片段實例序列化和反序列化為諸如 之類的表示形式的方式。我們可以通過聲明與Django forms非常相似的序列化器(serializers)來實現。 models部分: views部分: ModelSe ...
  • 之前通過hook技術實現了微信pc端發送消息功能,如果在結合圖靈機器人就能實現微信聊天機器人。 代碼下載:http://blog.yshizi.cn/131.html 邏輯如下: ![捕獲.jpg][1] 下麵我簡單介紹一下步驟。 1. 首先,你需要下載我的微信助手,下載地址請參考我的博客文章: [ ...
  • arraylist源碼分析 1.數組介紹 數組是數據結構中很基本的結構,很多編程語言都內置數組,類似於數據結構中的線性表 在java中當創建數組時會在記憶體中劃分出一塊連續的記憶體,然後當有數據進入的時候會將數據按順序的存儲在這塊連續的記憶體中。當需要讀取數組中的數據時,需要提供數組中的索引,然後數組根據 ...
  • 1.配置模板文件 2.配置mysql資料庫 創建資料庫 配置settings 方法一:直接在settings.py文件中添加資料庫配置信息 方法二:將資料庫配置信息存到一個文件,在settings文件中將其引入。(推薦) 新建資料庫配置文件db.cnf(名字隨意) db.cnf文件內容: 在sett ...
  • 對應的圖: 圖的結構Ref:https://wenku.baidu.com/view/9fdeaa3c2b160b4e767fcff7.html 小結: 最重要的是記住:在搜索過程中,若節點i對應的distance[i]發生改變,那麼對其任意一個鄰居節點j,對應的distance[j]都要重新計算, ...
  • 1、直接在新建工程的時候選擇CUDA,這樣的工程既能編譯C++也能編譯CU 2、在已有的C++工程上添加CUDA編譯環境 右鍵工程-->生成依賴項-->生成自定義-->勾選CUDA 9.0 這時右鍵工程屬性,發現多了兩個關於CUDA的屬性 點擊CUDA C/C++下的Common,將預設的32-bi ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...