Python爬蟲實例:爬取B站《工作細胞》短評——非同步載入信息的爬取

来源:https://www.cnblogs.com/gl1573/archive/2018/12/03/10061720.html
-Advertisement-
Play Games

《工作細胞》最近比較火,bilibili 上目前的短評已經有17000多條。 先看分析下頁面 右邊 li 標簽中的就是短評信息,一共20條。一般我們載入大量數據的時候,都會做分頁,但是這個頁面沒有,只有一個滾動條。 隨著滾動條往下拉,信息自動載入了,如下圖,變40條了。由此可見,短評是通過非同步載入的 ...


《工作細胞》最近比較火,bilibili 上目前的短評已經有17000多條。

先看分析下頁面

 

右邊 li 標簽中的就是短評信息,一共20條。一般我們載入大量數據的時候,都會做分頁,但是這個頁面沒有,只有一個滾動條。

隨著滾動條往下拉,信息自動載入了,如下圖,變40條了。由此可見,短評是通過非同步載入的。

 我們不可能一次性將滾動條拉到最下麵,然後來一次性獲取全部的數據。既然知道是通過非同步來載入的數據,那麼我們可以想辦法直接去獲取這些非同步的數據。

打開 Network 查看分析 http 請求,可以點擊 XHR 過濾掉 img、css、js 等信息。這時我們發現了一些 fetch。fetch 我對它的瞭解就是一個比 ajax 更高級更好用的 API,當然這肯定是不准確的,但並並不影響我們的爬蟲。

我們可以看到,其中返回的就是我們需要的內容,json 格式,一共20條,total 屬性就是總的數目。分析一下 url 地址:https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76729594906127

media_id 想必就是《工作細胞》的 id 了;

folded 不知道是啥,可以不管;

page_size 是每頁的條數;

sort 排序,看名字就知道,找到排序的選項,試了下,果然是的,預設0,最新1;

 

cursor,字面意思的游標,猜測應該是指示本次獲取開始的位置的,展開獲取到的 json,發現其中包含有 cursor 屬性,對比以後可以發現,url中的值跟上一次返回結果中的最後一條中的 cursor 的值是一致的。

好了,至此,頁面已經分析清楚了,爬取的方式也明顯了,根本不用管網頁,直接根據 fetch 的地址獲取 json 數據就可以了,連網頁解析都省了,超級的方便。

下麵的完整的代碼:(如果 fake_useragent 報錯,就手動寫個 User-Agent 吧,那個庫極度的不穩定)

 

import csv
import os
import time
import requests
from fake_useragent import UserAgent

curcount = 0


def main():
    url = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0'
    crawling(url)


def crawling(url):
    print(f'正在爬取:{url}')
    global curcount
    headers = {"User-Agent": UserAgent(verify_ssl=False).random}
    json_content = requests.get(url, headers).json()
    total = json_content['result']['total']
    infolist = []
    for item in json_content['result']['list']:
        info = {
            'author': item['author']['uname'],
            'content': item['content'],
            'ctime': time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(item['ctime'])),
            'likes': item['likes'],
            'disliked': item['disliked'],
            'score': item['user_rating']['score']
        }
        infolist.append(info)
    savefile(infolist)

    curcount += len(infolist)
    print(f'當前進度{curcount}/{total}')
    if curcount >= total:
        print('爬取完畢。')
        return

    nexturl = f'https://bangumi.bilibili.com/review/web_api/short/list?' \
              f'media_id=102392&folded=0&page_size=20&sort=0&cursor={json_content["result"]["list"][-1]["cursor"]}'
    time.sleep(1)
    crawling(nexturl)


def savefile(infos):
    with open('WorkingCell.csv', 'a', encoding='utf-8') as sw:
        fieldnames = ['author', 'content', 'ctime', 'likes', 'disliked', 'score']
        writer = csv.DictWriter(sw, fieldnames=fieldnames)
        writer.writerows(infos)


if __name__ == '__main__':
    if os.path.exists('WorkingCell.csv'):
        os.remove('WorkingCell.csv')
    main()

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 備忘錄模式(Memento Pattern)又稱為快照(Snapshot)模式或Token模式。 意思是:在不破壞封裝性的前提下,捕獲一個對象的內部狀態,併在該對象之外保存這個對象。這樣,以後就可以將該對象恢復到原先保存的狀態。 通俗地說,備忘錄模式就是將一個對象進行備份,提供一種程式數據的備份方法 ...
  • 外觀模式又稱為門面模式Facade是一種簡單的設計模式,但是他背後的思想為迪米特原則,理解門面模式更有助於理解迪米特原則--不要和陌生人說話的原則,可以降低系統的耦合程度,本文介紹了外觀模式的意圖,結構,並且給出了java代碼示例。 ...
  • 1、編寫裝飾器,為多個函數加上認證的功能(用戶的賬號密碼來源於文件)要求登錄成功一次,後續的函數都無需再輸入用戶名和密碼 2、編寫裝飾器,為多個函數加上記錄調用功能,要求每次調用函數都將被調用的函數名稱寫入文件 進階練習:1.編寫下載網頁內容的函數,要求功能是:用戶傳入一個url,函數返回下載頁面的 ...
  • 首先併發編程有三大特性: 可見性,有序性,原子性。volatile關鍵字實現了前面兩個特性。那麼它是如何實現這兩個特性的呢? 首先是可見性。可見性主要是讓緩存,直接寫穿透到主存中。然後另外的cpu 通過底層的硬體層面的嗅探,可以發現自己cpu本地的緩存已經失效。然後到主存中直接讀取。現在讓我們來看看 ...
  • 每種語言都會有字元串的操作,因為字元串是我們平常開發使用頻率最高的一種類型。今天我們來聊一下Java的字元串操作及在某些具體方法中與C#的不同,對於需要熟悉多種語言的人來說,作為一種參考。進行誡勉 首先,什麼是字元串? 字元串是字元的序列,是作為一種對象而存在。說的直白點,字元串就是一些字元的組合, ...
  • 拷貝控制 右值與const引用 背景:當一個函數的返回值是自定義類型時,調用側用什麼類型接收?? 1,如果自定義類型的拷貝構造函數的參數用const修飾了:可以用下麵的方式接收。 2,如果自定義類型的拷貝構造函數的參數沒有用const修飾了:必須用下麵的方式接收 編譯錯誤: 解釋: 第一種條件下,用 ...
  • 值傳遞: (形式參數類型是基本數據類型和String):方法調用時,實際參數把它的值傳遞給對應的形式參數,形式參數只是用實際參數的值初始化自己的存儲單元內容,是兩個不同的存儲單元,所以方法執行中形式參數值的改變不影響實際參數的值。 引用傳遞: (形式參數類型是引用數據類型參數除去String):也稱 ...
  • 學習Java一年多了,練習了很多,這條路真的很難走.還有半年多畢業的我整理整理所學習的筆記給大家分享主要也是讓自己記憶加深.自學時用到的時阿發老師的教學視頻,通俗易懂還有題庫可以練習.最經典的就是阿發老師會教你如何開發車而不是使用車.筆記中的截圖和源碼都是老師的.這次整理主要是給自己看的,有需要的朋 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...