Python爬蟲入門教程: 半次元COS圖爬取

来源:https://www.cnblogs.com/qingdeng123/archive/2019/05/04/10809662.html
-Advertisement-
Play Games

半次元COS圖爬取-寫在前面 今天在瀏覽網站的時候,忽然一個莫名的鏈接指引著我跳轉到了半次元網站 https://bcy.net/ 打開之後,發現也沒有什麼有意思的內容,職業的敏感讓我瞬間聯想到了 cosplay ,這種網站必然會有這個的存在啊,於是乎,我準備好我的大爬蟲了。 把上面的鏈接打開之後, ...


半次元COS圖爬取-寫在前面

今天在瀏覽網站的時候,忽然一個莫名的鏈接指引著我跳轉到了半次元網站 https://bcy.net/ 打開之後,發現也沒有什麼有意思的內容,職業的敏感讓我瞬間聯想到了 cosplay ,這種網站必然會有這個的存在啊,於是乎,我準備好我的大爬蟲了。


 

在這裡插入圖片描述

把上面的鏈接打開之後,被我發現了吧,就知道我的第八感不錯滴。接下來就是找入口,一定要找到圖片鏈接的入口才可以做下麵的操作
在這裡插入圖片描述

這個頁面不斷往下拖拽,頁面會一直載入,當時當你拖拽一會,就停下來了,就是這個時機
在這裡插入圖片描述

發現入口,在我實際的操作中,其實還發現了很多其他的入口,這個就不一一的解釋了,趕緊上車,進入 view more 之後,發現了頁面依舊是一個下拉刷新的佈局方式,專業術語 瀑布流 。

半次元COS圖爬取-python爬蟲第一步

打開開發者工具,切換到network之後,發現 很多xhr請求,發現這個,就代表這個網站很容易爬取了

在這裡插入圖片描述
提取待爬取的鏈接,分析規律

https://bcy.net/circle/timeline/loadtag?since=0&grid_type=timeline&tag_id=1482&sort=hot
https://bcy.net/circle/timeline/loadtag?since=26499.779&grid_type=timeline&tag_id=1482&sort=hot
https://bcy.net/circle/timeline/loadtag?since=26497.945&grid_type=timeline&tag_id=1482&sort=hot

發現只有一個參數在變,而且這變化好像沒有任何規律可以尋找,沒事,看數據,你就可以發現其中的奧妙了

在這裡插入圖片描述
這個網站的原理很簡單,就是通過不斷獲取每次數據的最後一條的since然後獲取接下來的數據,那麼我們按照它的規律實現代碼就可以了,不要多線程了,這種規律是沒有辦法進行實操的。
這次的數據我把它存儲到mongodb裡面,因為沒有辦法一次全部獲取到,所以可能需要下次在繼續使用

if __name__ == '__main__':
    ###  mongodb 的一些基本操作   
    DATABASE_IP = '127.0.0.1'
    DATABASE_PORT = 27017
    DATABASE_NAME = 'sun'
    start_url = "https://bcy.net/circle/timeline/loadtag?since={}&grid_type=timeline&tag_id=399&sort=recent"
    client = MongoClient(DATABASE_IP, DATABASE_PORT)

    db = client.sun
    db.authenticate("dba", "dba")
    collection  =  db.bcy  # 準備插入數據
    #####################################3333
    get_data(start_url,collection)

獲取網頁數據這個地方,由我們前面的經驗就變得很簡單了

## 半次元COS圖爬取-獲取數據函數  
def get_data(start_url,collection):
    since = 0
    while 1:
        try:
            with requests.Session() as s:
                response = s.get(start_url.format(str(since)),headers=headers,timeout=3)
                res_data = response.json()
                if res_data["status"] == 1:
                    data = res_data["data"]  # 獲取Data數組
                    time.sleep(0.5)
                ## 數據處理
                since = data[-1]["since"]  # 獲取20條數據的最後一條json數據中的since
                ret = json_handle(data)   # 代碼實現在下麵
                try:
                    print(ret)
                    collection.insert_many(ret)   # 批量出入資料庫
                    print("上述數據插入成功!!!!!!!!")
                except Exception as e:
                    print("插入失敗")
                    print(ret)

                ##
        except Exception as e:
            print("!",end="異常,請註意")
            print(e,end=" ")
    else:
        print("迴圈完畢")

網頁解析代碼

# 對JSON數據進行處理
def json_handle(data):
    # 提取關鍵數據
    list_infos = []
    for item in data:
        item = item["item_detail"]
        try:
            avatar = item["avatar"] # 用戶頭像
            item_id = item["item_id"] # 圖片詳情頁面
            like_count = item["like_count"] # 喜歡數目
            pic_num = item["pic_num"] if "pic_num" in item else 0 # 圖片總數
            reply_count =item["reply_count"]
            share_count =item["share_count"]
            uid = item["uid"]
            plain = item["plain"]
            uname = item["uname"]
            list_infos.append({"avatar":avatar,
                               "item_id":item_id,
                               "like_count":like_count,
                               "pic_num":pic_num,
                               "reply_count":reply_count,
                               "share_count":share_count,
                               "uid":uid,
                               "plain":plain,
                               "uname":uname})
        except Exception as e:
            print(e)
            continue
        return list_infos

到現在就實現了,代碼跑起來
在這裡插入圖片描述

小編整理一套Python資料和PDF,有需要Python學習資料可以加學習群:1004391443,反正閑著也是閑著呢,不如學點東西啦~~



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、指針 1、指針是一種存放記憶體地址的數據類型 2、指針的創建 typename * p;//空格可有可無 此時p的類型為(typename *) (*p)的類型為typename 初始化一個指針後,該指針變數會被存放在記憶體中的某個地址 指針創建時可以不初始化 3、對其賦值後,其對應記憶體位置存放的值 ...
  • golang 1.12 版本的自動補全問題 問題 golang 1.12 開始, 預設的 不再生成 pkg 文件. 所以對第三方庫的引用, 無法進行代碼的自動補全. 解決方法 會生成 pkg 文件夾和編譯文件 ...
  • java中的集合分成哪幾類? java中的集合常見面試題有哪些? java中的集合你不知道的那些事? ...
  • jupyter notebook的插件安裝及文本格式修改 1.jupyter notebook拓展插件安裝 啟動jupyter notebook : 打開控制台輸入命令 jupyter notebook 安裝Jupyter notebook extensions擴展插件: 1、pip install ...
  • Flask信號 信號是可以在固定的事件發生時執行某些事情 一個簡單的使用信號的例子: from flask import Flask,signals app = Flask(__name__) def signal_func(*args,**kwargs): print('信號') signals. ...
  • 題目鏈接 Problem Description There are n houses in the village and some bidirectional roads connecting them. Every day peole always like to ask like this ...
  • 過去學C++語法都是用的這本C++Primer第五版 說實話,這本書應該是業界用的最多的一本類似於C++語法的百科全書了。。 但是感覺自己學了這麼長時間的C++,語法層次還是不夠牢固。 比如template的使用,多個類之間的組合關係.我個人使用的都不是十分熟練。 尤其是在看C++STL源碼刨析的時 ...
  • day21 02 包的進階 1._init_.py文件的操作 導入包 根據day21 01 包的初識,建立的glance包,直接import glance後通過“包點包。。點方法”是不能執行所要的方法的,必須通過在一層一層裡面的_init_.py或者其他類似的文件做相對應的導入操作,才可以運行以下代 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...