Python爬取b站任意up主所有視頻彈幕

-Advertisement-

爬取b站彈幕並不困難。要得到up主所有視頻彈幕，我們首先進入up主視頻頁面，即https://space.bilibili.com/id號/video這個頁面。按F12打開開發者菜單，刷新一下，在network的xhr文件中有一個getSubmitVideo文件，這個文件里就有我們需要的視頻av號了 ...

爬取b站彈幕並不困難。要得到up主所有視頻彈幕，我們首先進入up主視頻頁面，即https://space.bilibili.com/id號/video這個頁面。按F12打開開發者菜單，刷新一下，在network的xhr文件中有一個getSubmitVideo文件，這個文件里就有我們需要的視頻av號了。如果直接抓取頁面是拿不到的，因為視頻是非同步載入的。

在這個文件里的data標簽下，有一個count是視頻總數，pages是第幾頁，vlist就是我們要找的視頻信息了，裡面的aid就是每個視頻的av號。它的請求鏈接是https://space.bilibili.com/ajax/member/getSubmitVideos?mid=av號&pagesize=30&tid=0&page=1&keyword=&order=pubdate。pagesize是每次傳多少個視頻信息。

拿到所有的視頻av號後，我們打開視頻頁面。同樣是按F12打開開發者菜單，刷新一下，在network的xhr中有兩個文件，一個以pagelist為開頭，另一個以list.so為開頭。這兩個文件，第一個裡包含了視頻的cid，第二個就是根據cid拿到的彈幕文件。同樣，我們根據視頻av號訪問第一個文件的請求url，得到cid，再根據cid訪問第二個請求url就可以了。

最後，我們對拿到的彈幕文件進行適當的整理。主要是從文件中的<d>標簽中提取出彈幕文字，然後去重，計數，再儲存到文件里。

import requests
from lxml import etree
import os
import json
from bs4 import BeautifulSoup
from requests import exceptions
import re
import time


def download_page(url):
    headers = {
　　'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"
　　}
    data = requests.get(url, headers=headers)
    return data


def get_video_page(space_num):
    base_url = "https://www.bilibili.com/av"
    url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page=1&keyword=&order=pubdate".format(space_num)
    data = json.loads(download_page(url).content)['data']
    total = data['count']
    page_num = int(total/99) + 1
    video_list = data['vlist']
    video_url = []
    for video in video_list:
        video_url.append(base_url + str(video['aid']))
    for i in range(2, page_num+1):
        time.sleep(1)
        url = "https://space.bilibili.com/ajax/member/getSubmitVideos?mid={}&pagesize=99&tid=0&page={}&keyword=&order=pubdate".format(space_num, i)
        data = json.loads(download_page(url).content)['data']
        video_list = data['vlist']
        for video in video_list:
            video_url.append(base_url + str(video['aid']))
    return video_url


def get_barrage(name, space_num):
    video_list = get_video_page(space_num)
    aid_to_oid = 'https://api.bilibili.com/x/player/pagelist?aid={}&jsonp=jsonp'
    barrage_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid={}'
    for url in video_list:
　　　　　# 降低爬取速度防止被禁
        time.sleep(1)
        aid = re.search(r'\d+$',url).group()
　　　　　# 這裡有時會出現莫名其妙的錯誤
        try:
            oid = json.loads(download_page(aid_to_oid.format(aid)).content)['data'][0]['cid']
            barrage = download_page(barrage_url.format(oid)).content
        except requests.exceptions.ConnectionError:
            print('av:',aid)
            continue
        if not os.path.exists('barrage/{}'.format(name)):
            os.makedirs('barrage/{}'.format(name))
        with open('barrage/{}/av{}.xml'.format(name,aid),'wb') as f:
            f.write(barrage)


def reorganize_barrage(name):
    results = {}
    for filename in os.listdir('barrage/{}'.format(name)):
        html = etree.parse('barrage/{}/{}'.format(name,filename), etree.HTMLParser())
　　　　　# 提取出xml文件中<d>標簽中的文字
        barrages = html.xpath('//d//text()')
        for barrage in barrages:
　　　　　　　# 有些彈幕會有回車符
            barrage = barrage.replace('\r', '')
            if barrage in results:
                results[barrage] += 1
            else:
                results[barrage] = 1
    if not os.path.exists('statistical result'):
        os.makedirs('statistical result')
    with open('statistical result/{}.txt'.format(name), 'w', encoding='utf8') as f:
        for key,value in results.items():
            f.write('{}\t:\t{}\n'.format(key.rstrip('\r'),value))


if __name__ == '__main__':
　　# 在space list.txt文件里，我是用“up主名稱：id”的格式來儲存的，
    with open('space list.txt', 'r') as f:
        for line in f.readlines():
            name, num = line.split('：')
            print(name)
            get_barrage(name, space_number)
            reorganize_barrage(name)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python連載37-多進程、進程子類、進程父子id

一、線程替代方案 1.subprocess （1）完全跳過線程，使用進程（2）是派生進程的主要替代方案（3）python2.4後引入 2.multiprocessing （1）使用threading介面派生，使用子進程（2）允許為多核或者多CPU派生進程，介面很threading非常相似（3 ...
高效演算法之時間複雜度介紹

上一篇博客已經給大家介紹了一些演算法題，明天剛好是中秋了，這裡祝大家中秋快樂。剛好趕上數學建模了，今天就先介紹與衡量演算法水平的重要指標時間複雜度吧。在時間充裕情況下會更新5+2。之後還會介紹空間複雜度以及python內置函數的時間複雜度。 1.簡介先看一下什麼是時間複雜度：衡量代碼的好壞，包括兩個 ...
Django REST framework 基本組件

一、序列化組件簡單使用開發我們的Web API的第一件事是為我們的Web API提供一種將代碼片段實例序列化和反序列化為諸如之類的表示形式的方式。我們可以通過聲明與Django forms非常相似的序列化器（serializers）來實現。 models部分: views部分： ModelSe ...
使用圖靈機器人api搭建微信聊天機器人php實現

之前通過hook技術實現了微信pc端發送消息功能，如果在結合圖靈機器人就能實現微信聊天機器人。代碼下載：http://blog.yshizi.cn/131.html 邏輯如下： ![捕獲.jpg][1] 下麵我簡單介紹一下步驟。 1. 首先，你需要下載我的微信助手，下載地址請參考我的博客文章： [ ...
Java ArrayList源碼分析（有助於理解數據結構）

arraylist源碼分析 1.數組介紹數組是數據結構中很基本的結構，很多編程語言都內置數組，類似於數據結構中的線性表在java中當創建數組時會在記憶體中劃分出一塊連續的記憶體，然後當有數據進入的時候會將數據按順序的存儲在這塊連續的記憶體中。當需要讀取數組中的數據時，需要提供數組中的索引，然後數組根據 ...
Django項目: 項目環境搭建 ---- 二、django項目設置

1.配置模板文件 2.配置mysql資料庫創建資料庫配置settings 方法一：直接在settings.py文件中添加資料庫配置信息方法二：將資料庫配置信息存到一個文件，在settings文件中將其引入。（推薦）新建資料庫配置文件db.cnf(名字隨意) db.cnf文件內容：在sett ...
Dijkstra演算法的Java實現

對應的圖：圖的結構Ref：https://wenku.baidu.com/view/9fdeaa3c2b160b4e767fcff7.html 小結：最重要的是記住：在搜索過程中，若節點i對應的distance[i]發生改變，那麼對其任意一個鄰居節點j，對應的distance[j]都要重新計算， ...
在C++工程上添加CUDA編譯環境

1、直接在新建工程的時候選擇CUDA，這樣的工程既能編譯C++也能編譯CU 2、在已有的C++工程上添加CUDA編譯環境右鍵工程-->生成依賴項-->生成自定義-->勾選CUDA 9.0 這時右鍵工程屬性，發現多了兩個關於CUDA的屬性點擊CUDA C/C++下的Common，將預設的32-bi ...