bilibili彈幕爬取與比對分析

来源:https://www.cnblogs.com/yanpeng19940119/archive/2019/08/26/11415457.html
-Advertisement-
Play Games

最近受人之托研究了下b站的數據爬取做個小工具,最後朋友說不需要了,本著開源共用的原則,將研究成果與大家分享一波,話不多說直接上乾貨 需求分析 給定up主uid和用戶uid,爬取用戶在該up主所有視頻中發的所有彈幕 需求拆解 獲取up主所有視頻 打開b站,隨便搜索一個up主,打開所有視頻頁面,f12看 ...


最近受人之托研究了下b站的數據爬取做個小工具,最後朋友說不需要了,本著開源共用的原則,將研究成果與大家分享一波,話不多說直接上乾貨

需求分析

給定up主uid和用戶uid,爬取用戶在該up主所有視頻中發的所有彈幕

需求拆解

獲取up主所有視頻

打開b站,隨便搜索一個up主,打開所有視頻頁面,f12看非同步請求就一目瞭然了

介面地址:https://space.bilibili.com/ajax/member/getSubmitVideos?mid=up主的uid&pagesize=30&tid=0&page=1&keyword=&

直接通過GET請求訪問,該介面限制pagesize為100,數目超過就會返回錯誤,但是該介面會返回一個總數與頁數,所以我們首先請求一次,獲取相關參數再分批次請求,獲取到數據後對vlist進行json數據解析就可以,我們主要獲取的是aid,也就是av號

獲取視頻所有彈幕

使用firefox瀏覽器打開視頻,f12後搜索list.so請求會發現彈幕xml文件,同樣也是GET請求

介面地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851  http://comment.bilibili.com/{cid}..xml

但是在百度的過程中發現了一個直接讀取xml文件的地址,更加方便

介面地址:http://comment.bilibili.com/{cid}.xml

這個cid就是彈幕xml的文件編號,通過分析非同步請求,發現了返回這個cid的返回介面

介面地址:https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp

需要註意的是返回的是一個數組,這說明如果視頻彈幕過多的話可能有多個xml文件,我們需要遍歷獲取

彈幕xml文件分析

文件格式內容如下所示

可以看到裡面d標簽的文字內容就是發送的彈幕,但是我們還需要對彈幕的發送者與我們給定的用戶進行對比,所以需要對d標簽的屬性p進行分析,p屬性使用逗號隔開的一系列數據,其中各個參數屬性如下

<d p=”彈幕出現時間,模式,字體大小,顏色,發送時間戳,彈幕池,用戶Hash,資料庫ID”>123123</d>

我們只需要獲取裡面的第7個參數用戶的唯一標識即可

難點分析

用戶id轉換

在彈幕xml文件中獲取的用戶標識是用戶uid經過hash後的編碼,所以我們需要進行轉換後才能對比校驗,經過使用線上hash網站中的一個個hash函數嘗試比對,發現hash演算法為crc32b,crc32是一個常見演算法,用於文件校驗,但是crc32b百度了一圈也搜索不到是個啥東西,無奈出國google了一下,crc32b只是將crc32演算法加密後的結果轉換成了16進位,下麵提供c#實現的功能函數

        /// <summary>
        /// CRC32校驗演算法
        /// </summary>
        protected static ulong[] Crc32Table;
        //生成CRC32碼表
        public static void GetCRC32Table()
        {
            ulong Crc;
            Crc32Table = new ulong[256];
            int i, j;
            for (i = 0; i < 256; i++)
            {
                Crc = (ulong)i;
                for (j = 8; j > 0; j--)
                {
                    if ((Crc & 1) == 1)
                        Crc = (Crc >> 1) ^ 0xEDB88320;
                    else
                        Crc >>= 1;
                }
                Crc32Table[i] = Crc;
            }
        }
        //獲取字元串的CRC32校驗值
        public static ulong GetCRC32Str(string sInputString)
        {
            //生成碼表
            GetCRC32Table();
            byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
            int len = buffer.Length;
            for (int i = 0; i < len; i++)
            {
                value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
            }
            return value ^ 0xffffffff;
        }

        public static string GetCRC32bStr(string sInputString)
        {
            return GetCRC32Str(sInputString).ToString("x");
        }

通過代碼GET請求保存xml文件

在保存xml文件的過程中發現輸出流轉為文字永遠是亂碼,經過查看請求網頁中header中的值,發現返回的xml數據流是壓縮格式的

所以我們對GET請求的方法進行了一些設置,首先Accept-Encoding需要與真正的訪問請求保持一致,然後設置自動解壓,下麵提供c#示例

        public static String HttpGet_BiliBiliXmlFile(string Url)
        {
            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
            request.Method = "GET";
            request.ContentType = "text/html;charset=UTF-8";
            request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate, br";
            request.Headers[HttpRequestHeader.AcceptLanguage] = "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2";
            //自動解壓
            request.AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate; 
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            Stream myResponseStream = response.GetResponseStream();
            StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.UTF8);
            string retString = myStreamReader.ReadToEnd();
            myStreamReader.Close();
            myResponseStream.Close();

            return retString;
        }

功能到這裡就全部分析完畢了,最後打個廣告,自己寫的ASP.NET MVC快速開發框架,希望支持一波

地址:https://gitee.com/grassprogramming/FastExecutor


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Django之視圖,內容包括 視圖,HttpReqeust對象,ajax請求。其中,視圖 包括 視圖函數的使用,url匹配的過程,錯誤視圖處理,捕捉url參數,普通登錄案例;HttpReqeust對象 包括 屬性,QueryDict對象;ajax請求 包括 python和ajax結合使用,ajax同... ...
  • 從Java1.4開始,為了替代Java IO和網路相關的API,提高程式的運行速度,Java提供了新的IO操作非阻塞的API即Java NIO。NIO中有三大核心組件:Buffer(緩衝區),Channel(通道),Selector(選擇器)。NIO基於Channel(通道)和Buffer(緩衝區) ...
  • 近日,在閱讀《Fluent Python》的第2.9.2節時,有一個關於記憶體視圖的例子,當時看的一知半解,後來查了一些資料,現在總結一下,以備後續查詢; 示例覆述 添加了一些額外的代碼,便於更好理解 我的理解和疑惑 是一個 類型的數組; 是使用上述數組創建的一個 "memoryview" ,即 記憶體 ...
  • 12.3 APP 12.31 創建APP 一個Django項目可以分為很多個APP,用來隔離不同功能模塊的代碼 用命令行創建一個APP: 創建好APP,記得告訴Django,app的名字,在settings.py中添加: 12.32 Django中的ORM Django項目使用MySQL資料庫 1. ...
  • 本文將通過實際的例子來演示如何在ASP.NET Core中應用JWT進行用戶認證以及Token的刷新方案(ASP.NET Core 系列目錄) 一、什麼是JWT? JWT(json web token)基於開放標準(RFC 7519),是一種無狀態的分散式的身份驗證方式,主要用於在網路應用環境間安全 ...
  • 俄羅斯方塊(Tetris)是一款由俄羅斯人阿列克謝·帕基特諾夫發明的休閑游戲,帕基特諾夫愛玩拼圖,從拼圖游戲里得到靈感,設計出了俄羅斯方塊。由於上手簡單、老少皆宜,從而家喻戶曉,風靡世界。本文簡述如何通過C#來實現俄羅斯方塊,僅供學習分享使用,如有不足之處,還請指正。 ...
  • .NETCoreCSharp 中級篇2 6 本節內容為Json和XML操作 簡介 Json和XML文本是電腦網路通信中常見的文本格式,其中Json其實就是JavaScript中的數組與對象,體現了一種面向對象的方式,而XML則是一種可標記語言,類似於我們的html標簽,他更多的是體現一種層級關係。 ...
  • CLR自動維護一個稱為”內置池“(暫存池)(intern pool)的表,在編譯時此表包含程式中聲明的每個唯一的字元串常量的單個實例,以及以編程方式創建的String類的任何唯一實例。 內置池被實現為散列表。使用散列表即表示,一個字元串可以通過一個數字或”散列碼“來表示。這樣比較和搜索字元串就非常有 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...