Python爬蟲實例：爬取B站《工作細胞》短評——非同步載入信息的爬取

-Advertisement-

《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們載入大量數據的時候，都會做分頁，但是這個頁面沒有，只有一個滾動條。隨著滾動條往下拉，信息自動載入了，如下圖，變40條了。由此可見，短評是通過非同步載入的 ...

《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。

先看分析下頁面

右邊 li 標簽中的就是短評信息，一共20條。一般我們載入大量數據的時候，都會做分頁，但是這個頁面沒有，只有一個滾動條。

隨著滾動條往下拉，信息自動載入了，如下圖，變40條了。由此可見，短評是通過非同步載入的。

我們不可能一次性將滾動條拉到最下麵，然後來一次性獲取全部的數據。既然知道是通過非同步來載入的數據，那麼我們可以想辦法直接去獲取這些非同步的數據。

打開 Network 查看分析 http 請求，可以點擊 XHR 過濾掉 img、css、js 等信息。這時我們發現了一些 fetch。fetch 我對它的瞭解就是一個比 ajax 更高級更好用的 API，當然這肯定是不准確的，但並並不影響我們的爬蟲。

我們可以看到，其中返回的就是我們需要的內容，json 格式，一共20條，total 屬性就是總的數目。分析一下 url 地址：https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76729594906127

media_id 想必就是《工作細胞》的 id 了；

folded 不知道是啥，可以不管；

page_size 是每頁的條數；

sort 排序，看名字就知道，找到排序的選項，試了下，果然是的，預設0，最新1；

cursor，字面意思的游標，猜測應該是指示本次獲取開始的位置的，展開獲取到的 json，發現其中包含有 cursor 屬性，對比以後可以發現，url中的值跟上一次返回結果中的最後一條中的 cursor 的值是一致的。

好了，至此，頁面已經分析清楚了，爬取的方式也明顯了，根本不用管網頁，直接根據 fetch 的地址獲取 json 數據就可以了，連網頁解析都省了，超級的方便。

下麵的完整的代碼：（如果 fake_useragent 報錯，就手動寫個 User-Agent 吧，那個庫極度的不穩定）

import csv
import os
import time
import requests
from fake_useragent import UserAgent

curcount = 0


def main():
    url = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0'
    crawling(url)


def crawling(url):
    print(f'正在爬取：{url}')
    global curcount
    headers = {"User-Agent": UserAgent(verify_ssl=False).random}
    json_content = requests.get(url, headers).json()
    total = json_content['result']['total']
    infolist = []
    for item in json_content['result']['list']:
        info = {
            'author': item['author']['uname'],
            'content': item['content'],
            'ctime': time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(item['ctime'])),
            'likes': item['likes'],
            'disliked': item['disliked'],
            'score': item['user_rating']['score']
        }
        infolist.append(info)
    savefile(infolist)

    curcount += len(infolist)
    print(f'當前進度{curcount}/{total}')
    if curcount >= total:
        print('爬取完畢。')
        return

    nexturl = f'https://bangumi.bilibili.com/review/web_api/short/list?' \
              f'media_id=102392&folded=0&page_size=20&sort=0&cursor={json_content["result"]["list"][-1]["cursor"]}'
    time.sleep(1)
    crawling(nexturl)


def savefile(infos):
    with open('WorkingCell.csv', 'a', encoding='utf-8') as sw:
        fieldnames = ['author', 'content', 'ctime', 'likes', 'disliked', 'score']
        writer = csv.DictWriter(sw, fieldnames=fieldnames)
        writer.writerows(infos)


if __name__ == '__main__':
    if os.path.exists('WorkingCell.csv'):
        os.remove('WorkingCell.csv')
    main()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

行為模式之備忘錄模式

備忘錄模式（Memento Pattern）又稱為快照（Snapshot）模式或Token模式。意思是：在不破壞封裝性的前提下，捕獲一個對象的內部狀態，併在該對象之外保存這個對象。這樣，以後就可以將該對象恢復到原先保存的狀態。通俗地說，備忘錄模式就是將一個對象進行備份，提供一種程式數據的備份方法 ...
外觀模式門面模式 Facade 創建型設計模式（十三）

外觀模式又稱為門面模式Facade是一種簡單的設計模式，但是他背後的思想為迪米特原則，理解門面模式更有助於理解迪米特原則--不要和陌生人說話的原則，可以降低系統的耦合程度，本文介紹了外觀模式的意圖，結構，並且給出了java代碼示例。 ...
day 11 - 2 裝飾器練習

1、編寫裝飾器，為多個函數加上認證的功能（用戶的賬號密碼來源於文件）要求登錄成功一次，後續的函數都無需再輸入用戶名和密碼 2、編寫裝飾器，為多個函數加上記錄調用功能，要求每次調用函數都將被調用的函數名稱寫入文件進階練習：1.編寫下載網頁內容的函數，要求功能是：用戶傳入一個url，函數返回下載頁面的 ...
volatile實現原理

首先併發編程有三大特性：可見性，有序性，原子性。volatile關鍵字實現了前面兩個特性。那麼它是如何實現這兩個特性的呢？首先是可見性。可見性主要是讓緩存，直接寫穿透到主存中。然後另外的cpu 通過底層的硬體層面的嗅探，可以發現自己cpu本地的緩存已經失效。然後到主存中直接讀取。現在讓我們來看看 ...
Java字元串操作及與C#字元串操作的不同

每種語言都會有字元串的操作，因為字元串是我們平常開發使用頻率最高的一種類型。今天我們來聊一下Java的字元串操作及在某些具體方法中與C#的不同，對於需要熟悉多種語言的人來說，作為一種參考。進行誡勉首先，什麼是字元串？字元串是字元的序列，是作為一種對象而存在。說的直白點，字元串就是一些字元的組合， ...
c/c++ 拷貝控制右值與const引用

拷貝控制右值與const引用背景：當一個函數的返回值是自定義類型時，調用側用什麼類型接收？？ 1，如果自定義類型的拷貝構造函數的參數用const修飾了：可以用下麵的方式接收。 2，如果自定義類型的拷貝構造函數的參數沒有用const修飾了：必須用下麵的方式接收編譯錯誤：解釋：第一種條件下，用 ...
java中的值傳遞和引用傳遞有什麼區別呀?

值傳遞： (形式參數類型是基本數據類型和String)：方法調用時，實際參數把它的值傳遞給對應的形式參數，形式參數只是用實際參數的值初始化自己的存儲單元內容，是兩個不同的存儲單元，所以方法執行中形式參數值的改變不影響實際參數的值。引用傳遞： (形式參數類型是引用數據類型參數除去String)：也稱 ...
Java自學總結--簡介

學習Java一年多了,練習了很多,這條路真的很難走.還有半年多畢業的我整理整理所學習的筆記給大家分享主要也是讓自己記憶加深.自學時用到的時阿發老師的教學視頻,通俗易懂還有題庫可以練習.最經典的就是阿發老師會教你如何開發車而不是使用車.筆記中的截圖和源碼都是老師的.這次整理主要是給自己看的，有需要的朋 ...