Python爬取b站任意up主所有視頻彈幕

来源:https://www.cnblogs.com/rain-poi/archive/2019/09/12/11515260.html
-Advertisement-
Play Games

爬取b站彈幕並不困難。要得到up主所有視頻彈幕,我們首先進入up主視頻頁面,即https://space.bilibili.com/id號/video這個頁面。按F12打開開發者菜單,刷新一下,在network的xhr文件中有一個getSubmitVideo文件,這個文件里就有我們需要的視頻av號了 ...


爬取b站彈幕並不困難。要得到up主所有視頻彈幕,我們首先進入up主視頻頁面,即https://space.bilibili.com/id號/video這個頁面。按F12打開開發者菜單,刷新一下,在network的xhr文件中有一個getSubmitVideo文件,這個文件里就有我們需要的視頻av號了。如果直接抓取頁面是拿不到的,因為視頻是非同步載入的。

 

在這個文件里的data標簽下,有一個count是視頻總數,pages是第幾頁,vlist就是我們要找的視頻信息了,裡面的aid就是每個視頻的av號。它的請求鏈接是https://space.bilibili.com/ajax/member/getSubmitVideos?mid=av號&pagesize=30&tid=0&page=1&keyword=&order=pubdate。pagesize是每次傳多少個視頻信息。

 

拿到所有的視頻av號後,我們打開視頻頁面。同樣是按F12打開開發者菜單,刷新一下,在network的xhr中有兩個文件,一個以pagelist為開頭,另一個以list.so為開頭。這兩個文件,第一個裡包含了視頻的cid,第二個就是根據cid拿到的彈幕文件。同樣,我們根據視頻av號訪問第一個文件的請求url,得到cid,再根據cid訪問第二個請求url就可以了。

 

 

 

 最後,我們對拿到的彈幕文件進行適當的整理。主要是從文件中的<d>標簽中提取出彈幕文字,然後去重,計數,再儲存到文件里。

import requests
from
lxml import etree import os import json from bs4 import BeautifulSoup from requests import exceptions import re import time def download_page(url): headers = {
  'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
  } data = requests.get(url, headers=headers) return data def get_video_page(space_num): base_url = "https://www.bilibili.com/av" url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page=1&keyword=&order=pubdate".format(space_num) data = json.loads(download_page(url).content)['data'] total = data['count'] page_num = int(total/99) + 1 video_list = data['vlist'] video_url = [] for video in video_list: video_url.append(base_url + str(video['aid'])) for i in range(2, page_num+1): time.sleep(1) url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page={}&keyword=&order=pubdate".format(space_num, i) data = json.loads(download_page(url).content)['data'] video_list = data['vlist'] for video in video_list: video_url.append(base_url + str(video['aid'])) return video_url def get_barrage(name, space_num): video_list = get_video_page(space_num) aid_to_oid = 'https://api.bilibili.com/x/player/pagelist?aid={}&jsonp=jsonp' barrage_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid={}' for url in video_list:
     # 降低爬取速度防止被禁 time.sleep(
1) aid = re.search(r'\d+$',url).group()
     # 這裡有時會出現莫名其妙的錯誤
try: oid = json.loads(download_page(aid_to_oid.format(aid)).content)['data'][0]['cid'] barrage = download_page(barrage_url.format(oid)).content except requests.exceptions.ConnectionError: print('av:',aid) continue if not os.path.exists('barrage/{}'.format(name)): os.makedirs('barrage/{}'.format(name)) with open('barrage/{}/av{}.xml'.format(name,aid),'wb') as f: f.write(barrage) def reorganize_barrage(name): results = {} for filename in os.listdir('barrage/{}'.format(name)): html = etree.parse('barrage/{}/{}'.format(name,filename), etree.HTMLParser())
     # 提取出xml文件中<d>標簽中的文字 barrages
= html.xpath('//d//text()') for barrage in barrages:
       # 有些彈幕會有回車符 barrage
= barrage.replace('\r', '') if barrage in results: results[barrage] += 1 else: results[barrage] = 1 if not os.path.exists('statistical result'): os.makedirs('statistical result') with open('statistical result/{}.txt'.format(name), 'w', encoding='utf8') as f: for key,value in results.items(): f.write('{}\t:\t{}\n'.format(key.rstrip('\r'),value)) if __name__ == '__main__':
  # 在space list.txt文件里,我是用“up主名稱:id”的格式來儲存的, with open(
'space list.txt', 'r') as f: for line in f.readlines(): name, num = line.split('') print(name) get_barrage(name, space_number) reorganize_barrage(name)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、線程替代方案 1.subprocess (1)完全跳過線程,使用進程 (2)是派生進程的主要替代方案 (3)python2.4後引入 2.multiprocessing (1)使用threading介面派生,使用子進程 (2)允許為多核或者多CPU派生進程,介面很threading非常相似 (3 ...
  • 上一篇博客已經給大家介紹了一些演算法題,明天剛好是中秋了,這裡祝大家中秋快樂。剛好趕上數學建模了,今天就先介紹與衡量演算法水平的重要指標時間複雜度吧。在時間充裕情況下會更新5+2。之後還會介紹空間複雜度以及python內置函數的時間複雜度。 1.簡介 先看一下什麼是時間複雜度: 衡量代碼的好壞,包括兩個 ...
  • 一、序列化組件 簡單使用 開發我們的Web API的第一件事是為我們的Web API提供一種將代碼片段實例序列化和反序列化為諸如 之類的表示形式的方式。我們可以通過聲明與Django forms非常相似的序列化器(serializers)來實現。 models部分: views部分: ModelSe ...
  • 之前通過hook技術實現了微信pc端發送消息功能,如果在結合圖靈機器人就能實現微信聊天機器人。 代碼下載:http://blog.yshizi.cn/131.html 邏輯如下: ![捕獲.jpg][1] 下麵我簡單介紹一下步驟。 1. 首先,你需要下載我的微信助手,下載地址請參考我的博客文章: [ ...
  • arraylist源碼分析 1.數組介紹 數組是數據結構中很基本的結構,很多編程語言都內置數組,類似於數據結構中的線性表 在java中當創建數組時會在記憶體中劃分出一塊連續的記憶體,然後當有數據進入的時候會將數據按順序的存儲在這塊連續的記憶體中。當需要讀取數組中的數據時,需要提供數組中的索引,然後數組根據 ...
  • 1.配置模板文件 2.配置mysql資料庫 創建資料庫 配置settings 方法一:直接在settings.py文件中添加資料庫配置信息 方法二:將資料庫配置信息存到一個文件,在settings文件中將其引入。(推薦) 新建資料庫配置文件db.cnf(名字隨意) db.cnf文件內容: 在sett ...
  • 對應的圖: 圖的結構Ref:https://wenku.baidu.com/view/9fdeaa3c2b160b4e767fcff7.html 小結: 最重要的是記住:在搜索過程中,若節點i對應的distance[i]發生改變,那麼對其任意一個鄰居節點j,對應的distance[j]都要重新計算, ...
  • 1、直接在新建工程的時候選擇CUDA,這樣的工程既能編譯C++也能編譯CU 2、在已有的C++工程上添加CUDA編譯環境 右鍵工程-->生成依賴項-->生成自定義-->勾選CUDA 9.0 這時右鍵工程屬性,發現多了兩個關於CUDA的屬性 點擊CUDA C/C++下的Common,將預設的32-bi ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...