最近受人之托研究了下b站的數據爬取做個小工具,最後朋友說不需要了,本著開源共用的原則,將研究成果與大家分享一波,話不多說直接上乾貨 需求分析 給定up主uid和用戶uid,爬取用戶在該up主所有視頻中發的所有彈幕 需求拆解 獲取up主所有視頻 打開b站,隨便搜索一個up主,打開所有視頻頁面,f12看 ...
最近受人之托研究了下b站的數據爬取做個小工具,最後朋友說不需要了,本著開源共用的原則,將研究成果與大家分享一波,話不多說直接上乾貨
需求分析
給定up主uid和用戶uid,爬取用戶在該up主所有視頻中發的所有彈幕
需求拆解
獲取up主所有視頻
打開b站,隨便搜索一個up主,打開所有視頻頁面,f12看非同步請求就一目瞭然了
直接通過GET請求訪問,該介面限制pagesize為100,數目超過就會返回錯誤,但是該介面會返回一個總數與頁數,所以我們首先請求一次,獲取相關參數再分批次請求,獲取到數據後對vlist進行json數據解析就可以,我們主要獲取的是aid,也就是av號
獲取視頻所有彈幕
使用firefox瀏覽器打開視頻,f12後搜索list.so請求會發現彈幕xml文件,同樣也是GET請求
介面地址:https://api.bilibili.com/x/v1/dm/list.so?oid=112062851 http://comment.bilibili.com/{cid}..xml
但是在百度的過程中發現了一個直接讀取xml文件的地址,更加方便
介面地址:http://comment.bilibili.com/{cid}.xml
這個cid就是彈幕xml的文件編號,通過分析非同步請求,發現了返回這個cid的返回介面
介面地址:https://api.bilibili.com/x/player/pagelist?aid=視頻av號&jsonp=jsonp
需要註意的是返回的是一個數組,這說明如果視頻彈幕過多的話可能有多個xml文件,我們需要遍歷獲取
彈幕xml文件分析
文件格式內容如下所示
可以看到裡面d標簽的文字內容就是發送的彈幕,但是我們還需要對彈幕的發送者與我們給定的用戶進行對比,所以需要對d標簽的屬性p進行分析,p屬性使用逗號隔開的一系列數據,其中各個參數屬性如下
<d p=”彈幕出現時間,模式,字體大小,顏色,發送時間戳,彈幕池,用戶Hash,資料庫ID”>123123</d>
我們只需要獲取裡面的第7個參數用戶的唯一標識即可
難點分析
用戶id轉換
在彈幕xml文件中獲取的用戶標識是用戶uid經過hash後的編碼,所以我們需要進行轉換後才能對比校驗,經過使用線上hash網站中的一個個hash函數嘗試比對,發現hash演算法為crc32b,crc32是一個常見演算法,用於文件校驗,但是crc32b百度了一圈也搜索不到是個啥東西,無奈出國google了一下,crc32b只是將crc32演算法加密後的結果轉換成了16進位,下麵提供c#實現的功能函數
/// <summary>
/// CRC32校驗演算法
/// </summary>
protected static ulong[] Crc32Table;
//生成CRC32碼表
public static void GetCRC32Table()
{
ulong Crc;
Crc32Table = new ulong[256];
int i, j;
for (i = 0; i < 256; i++)
{
Crc = (ulong)i;
for (j = 8; j > 0; j--)
{
if ((Crc & 1) == 1)
Crc = (Crc >> 1) ^ 0xEDB88320;
else
Crc >>= 1;
}
Crc32Table[i] = Crc;
}
}
//獲取字元串的CRC32校驗值
public static ulong GetCRC32Str(string sInputString)
{
//生成碼表
GetCRC32Table();
byte[] buffer = System.Text.ASCIIEncoding.ASCII.GetBytes(sInputString); ulong value = 0xffffffff;
int len = buffer.Length;
for (int i = 0; i < len; i++)
{
value = (value >> 8) ^ Crc32Table[(value & 0xFF) ^ buffer[i]];
}
return value ^ 0xffffffff;
}
public static string GetCRC32bStr(string sInputString)
{
return GetCRC32Str(sInputString).ToString("x");
}
通過代碼GET請求保存xml文件
在保存xml文件的過程中發現輸出流轉為文字永遠是亂碼,經過查看請求網頁中header中的值,發現返回的xml數據流是壓縮格式的
所以我們對GET請求的方法進行了一些設置,首先Accept-Encoding需要與真正的訪問請求保持一致,然後設置自動解壓,下麵提供c#示例
public static String HttpGet_BiliBiliXmlFile(string Url)
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
request.Method = "GET";
request.ContentType = "text/html;charset=UTF-8";
request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate, br";
request.Headers[HttpRequestHeader.AcceptLanguage] = "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2";
//自動解壓
request.AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream myResponseStream = response.GetResponseStream();
StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.UTF8);
string retString = myStreamReader.ReadToEnd();
myStreamReader.Close();
myResponseStream.Close();
return retString;
}
功能到這裡就全部分析完畢了,最後打個廣告,自己寫的ASP.NET MVC快速開發框架,希望支持一波
地址:https://gitee.com/grassprogramming/FastExecutor