Python爬蟲入門教程 12-100 半次元COS圖爬取

-Advertisement-

寫在前面今天在瀏覽網站的時候，忽然一個莫名的鏈接指引著我跳轉到了半次元網站打開之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。把上面的鏈接打開之後，被我發現了吧，就知道我的第八感不錯滴。接下來就是找入口，一定要找到圖片 ...

寫在前面

今天在瀏覽網站的時候，忽然一個莫名的鏈接指引著我跳轉到了半次元網站 https://bcy.net/ 打開之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。

在這裡插入圖片描述

把上面的鏈接打開之後，被我發現了吧，就知道我的第八感不錯滴。接下來就是找入口，一定要找到圖片鏈接的入口才可以做下麵的操作
在這裡插入圖片描述

這個頁面不斷往下拖拽，頁面會一直載入，當時當你拖拽一會，就停下來了，就是這個時機
在這裡插入圖片描述

發現入口，在我實際的操作中，其實還發現了很多其他的入口，這個就不一一的解釋了，趕緊上車，進入 view more 之後，發現了頁面依舊是一個下拉刷新的佈局方式，專業術語 瀑布流 。

python爬蟲第一步

打開開發者工具，切換到network之後，發現很多xhr請求，發現這個，就代表這個網站很容易爬取了

在這裡插入圖片描述
提取待爬取的鏈接，分析規律

https://bcy.net/circle/timeline/loadtag?since=0&grid_type=timeline&tag_id=1482&sort=hot
https://bcy.net/circle/timeline/loadtag?since=26499.779&grid_type=timeline&tag_id=1482&sort=hot
https://bcy.net/circle/timeline/loadtag?since=26497.945&grid_type=timeline&tag_id=1482&sort=hot

發現只有一個參數在變，而且這變化好像沒有任何規律可以尋找，沒事，看數據，你就可以發現其中的奧妙了

在這裡插入圖片描述
這個網站的原理很簡單，就是通過不斷獲取每次數據的最後一條的since然後獲取接下來的數據，那麼我們按照它的規律實現代碼就可以了，不要多線程了，這種規律是沒有辦法進行實操的。
這次的數據我把它存儲到mongodb裡面，因為沒有辦法一次全部獲取到，所以可能需要下次在繼續使用

if __name__ == '__main__':
    ###  mongodb 的一些基本操作   
    DATABASE_IP = '127.0.0.1'
    DATABASE_PORT = 27017
    DATABASE_NAME = 'sun'
    start_url = "https://bcy.net/circle/timeline/loadtag?since={}&grid_type=timeline&tag_id=399&sort=recent"
    client = MongoClient(DATABASE_IP, DATABASE_PORT)

    db = client.sun
    db.authenticate("dba", "dba")
    collection  =  db.bcy  # 準備插入數據
    #####################################3333
    get_data(start_url,collection)

獲取網頁數據這個地方，由我們前面的經驗就變得很簡單了

# 獲取數據函數  
def get_data(start_url,collection):
    since = 0
    while 1:
        try:
            with requests.Session() as s:
                response = s.get(start_url.format(str(since)),headers=headers,timeout=3)
                res_data = response.json()
                if res_data["status"] == 1:
                    data = res_data["data"]  # 獲取Data數組
                    time.sleep(0.5)
                ## 數據處理
                since = data[-1]["since"]  # 獲取20條數據的最後一條json數據中的since
                ret = json_handle(data)   # 代碼實現在下麵
                try:
                    print(ret)
                    collection.insert_many(ret)   # 批量出入資料庫
                    print("上述數據插入成功！！！！！！！！")
                except Exception as e:
                    print("插入失敗")
                    print(ret)

                ##
        except Exception as e:
            print("!",end="異常，請註意")
            print(e,end=" ")
    else:
        print("迴圈完畢")

網頁解析代碼

# 對JSON數據進行處理
def json_handle(data):
    # 提取關鍵數據
    list_infos = []
    for item in data:
        item = item["item_detail"]
        try:
            avatar = item["avatar"] # 用戶頭像
            item_id = item["item_id"] # 圖片詳情頁面
            like_count = item["like_count"] # 喜歡數目
            pic_num = item["pic_num"] if "pic_num" in item else 0 # 圖片總數
            reply_count =item["reply_count"]
            share_count =item["share_count"]
            uid = item["uid"]
            plain = item["plain"]
            uname = item["uname"]
            list_infos.append({"avatar":avatar,
                               "item_id":item_id,
                               "like_count":like_count,
                               "pic_num":pic_num,
                               "reply_count":reply_count,
                               "share_count":share_count,
                               "uid":uid,
                               "plain":plain,
                               "uname":uname})
        except Exception as e:
            print(e)
            continue
        return list_infos

到現在就實現了，代碼跑起來
在這裡插入圖片描述

想要源碼的，在評論裡面留言自己的郵箱或者其他任何我能聯繫到你的方式都可以噠。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

23種設計模式之工廠方法模式

工廠方法模式的定義定義: 定義一個用於創建對象的介面,讓子類決定實例化哪一個類. 工廠方法使一個類的實例化延遲到其子類工廠方法模式的通用類圖: 其中 Product 負責產品的共性,實現對事物最抽象的定義; Creator 為抽象創建類, 也就是抽象工廠, 具體如何創建產品類是由具體的實現工廠 ...
23種設計模式之單例模式

單例模式的定義定義: 確保某一個類只有一個實例,而且自行實例化並向整個系統提供這個實例. 單例模式的通用類圖如下: 單例模式的優缺點單例模式的優點: 單例模式的缺點: 單例模式的註意事項 1.高併發情況下,註意線程同步問題這是一個線程不安全的單例該單例模式在低併發的情況下可能不會出現問題,若 ...
6大設計原則之開閉原則

開閉原則的定義開閉原則的定義: 一個軟體實體,如類、模塊和函數應該對擴展開放,對修改關閉.即一個軟體實體應該通過擴展來實現變化,而不是通過修改已有的代碼來實現變化. 軟體實體包括一下部分註意: 開閉原則對擴展開放,對修改關閉,並不意味著不做任何修改,底層模塊的變更,必然要有高層模塊進行耦合,否則 ...
策略模式 Strategy 政策Policy 行為型設計模式（二十五）

策略模式 Strategy是一種相對比較簡單的行為型設計模式，與狀態模式有一定的類似，策略模式將演算法概念進行抽象，抽象為同一介面，面向介面編程，狀態模式也是類似，本質仍舊是面向抽象編程，本文對策略模式進行了簡單介紹，給出了意圖結構以及java實現示例。 ...
6大設計原則之迪米特法則

迪米特法則的定義迪米特法則也稱為最少知識原則,一個對象應該對其他對象有最少的瞭解. 通俗的講,一個類應該對自己需要耦合或調用的類知道的最少,被調用類的內部是如何複雜都和我沒關係,我就知道你的這些public方法,我就調用這麼多,其他的我一概不關心. 迪米特法則對類的低耦合提出了要求 1.只和朋友交 ...
6大設計原則之介面隔離原則

介面隔離原則的定義什麼是介面. 什麼是隔離隔離要求將介面儘量細化,同時介面中的方法儘量少. 介面隔離原則的實現比如現在有一個人,他身兼數職,是一個老師,要教書,是一個學生,要學習,類圖如下: 如果有一天,他不在教書了,或者又有了新的職業,那我們還要修改調用該類的代碼,更好的做法是將臃腫的介面變 ...
6大設計原則之依賴倒置原則

依賴倒置原則的定義依賴倒置原則的原始定義如下: High level modules should not depend upon low level modules. Both should depend upon abstractions. Abstractions should not de ...
6大設計原則之里氏替換原則

面對對象中的繼承優點如下: 缺點如下: 里氏替換原則的定義如果對每一個類型為S的對象o1,都有類型為T的對象o2,使得以T定義的所有程式P在所有的對象o1都代換成o2時,程式P的行為沒有發生變化,那麼類型S是類型T的子類型. 通俗點講,只要父類能出現的地方子類就可以出現,而且替換成子類也不會產生 ...