Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

-Advertisement-

寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼代碼首先快速的導入 ...

寫在前面

今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。

網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。

擼代碼

首先快速的導入我們需要的模塊，和其他文章不同，我把相同的表情都放在了同一個文件夾下麵，所以需要導入os模塊

import asyncio
import aiohttp
from lxml import etree
import os

編寫主要的入口方法

if __name__ == '__main__':
    url_format = "http://www.doutula.com/article/list/?page={}"
    urls = [url_format.format(index) for index in range(1,586)]
    loop = asyncio.get_event_loop()
    tasks = [x_get_face(url) for url in urls]
    results = loop.run_until_complete(asyncio.wait(tasks))

我們是為了學習，不是為了攻擊別人伺服器，所以限制一下併發數量

sema = asyncio.Semaphore(3)

async def x_get_face(url):
    with(await sema):
        await get_face(url)

最後，一頓操作猛如虎，把所有的代碼補全，就搞定了，這部分沒有什麼特別新鮮的地方，找圖片鏈接，然後下載。

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}
async def get_face(url):
    print("正在操作{}".format(url))
    async with aiohttp.ClientSession() as s:
        async with s.get(url,headers=headers,timeout=5) as res:
            if res.status==200:
                html = await res.text()
                html_format = etree.HTML(html)

                hrefs = html_format.xpath("//a[@class='list-group-item random_list']")

                for link in hrefs:
                    url = link.get("href")
                    title = link.xpath("div[@class='random_title']/text()")[0]  # 獲取文件頭部

                    path = './biaoqings/{}'.format(title.strip())  # 硬編碼了，你要先在項目根目錄創建一個biaoqings的文件夾

                    if not os.path.exists(path):
                        os.mkdir(path)
                    else:
                        pass

                    async with s.get(url, headers=headers, timeout=3) as res:
                        if res.status == 200:
                            new_html = await res.text()

                            new_html_format = etree.HTML(new_html)
                            imgs = new_html_format.xpath("//div[@class='artile_des']")
                            for img in imgs:
                                try:
                                    img = img.xpath("table//img")[0]
                                    img_down_url = img.get("src")
                                    img_title = img.get("alt")
                                except Exception as e:
                                    print(e)

                                async with s.get(img_down_url, timeout=3) as res:
                                    img_data = await res.read()
                                    try:
                                        with open("{}/{}.{}".format(path,img_title.replace('\r\n',""),img_down_url.split('.')[-1]),"wb+") as file:
                                            file.write(img_data)
                                    except Exception as e:
                                        print(e)

                        else:
                            pass


            else:
                print("網頁訪問失敗")

等著，大量的表情包就來到了我的碗里。
在這裡插入圖片描述

爬蟲源碼下載地址

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

23種設計模式之責任鏈模式

責任鏈模式的定義定義: 使多個對象都有機會處理請求, 從而避免了請求的發送者和接受者之間的耦合關係. 將這些對象連成一條鏈, 並沿著這條鏈傳遞該請求,直到有對象處理它為止通俗的講, 就是將對請求的處理組成一條鏈, 當請求來時, 在鏈中依次傳遞, 知道找到能夠處理此請求的對象其通用類圖如下: 責 ...
23種設計模式之中介者模式

中介者模式的定義中介者模式, 當多個類彼此關聯, 會增大耦合性, 這時各個模塊通過中介者進行交流, 每個模塊只負責自己的業務邏輯, 不屬於自己的就丟給中介者, 降低耦合定義: 用一個中介對象封裝一系列的對象交互, 中介者使各對象不需要顯示的相互作用,從而使其耦合鬆散,而且可以獨立的改變他們之間的 ...
模板方法模式 Template method 行為型設計模式（二十六）

模板方法模式是一種非常簡單實用的模式，本文對模板方法模式進行了簡單的介紹，對意圖，結構等進行了描述，並且給出了Java的示例代碼，模板方法模式是對面向對象程式設計繼承的一個很優秀的使用，想一下Thread的start和run方法，再想想模板方法模式的含義，你是否會想到什麼？ ...
23種設計模式之代理模式

代理模式的定義代理模式是一個使用率非常高的模式,其定義為: 為其他對象提供一種代理以控制對這個對象的訪問代理模式也叫做委托模式, 它是一項基本設計技巧. 許多其他的模式, 如狀態模式、策略模式、訪問者模式本質上是在更特殊的場合採用了委托模式, 而且在日常的應用中, 代理模式可以提供非常好的訪問控 ...
併發編程（一）------同步類容器

同步類容器都是線程安全的，但某些情況下可能需要加鎖來保護符合操作複合操作：迭代（反覆訪問元素，遍歷完容器中所有的元素）；跳轉（根據指定的順序找到當前元素的下一個元素）；條件運算這些複合操作在多線程併發地修改容器時，可能會表現出意外的行為，最經典的便是ConcurrentModificationE ...
23種設計模式之原型模式

原型模式的定義定義: 用原型實例指定創建對象的種類, 並且通過拷貝這些原型創建新的對象. 通俗的講,就是不再使用new 來創建對象, 而改用 clone 方法來得到新的對象原型模式的核心是一個 clone 方法, 通過該方法進行對象的拷貝, Java提供了一個Cloneable介面來標識這個對象 ...
5.Control flow statements-流程式控制制(Dart中文文檔)

你可以使用如下流程式控制制符： if and else for loops while and do while loops break and continue switch and case assert 同時，你可以用try catch 和throw去跳出流程式控制制邏輯，併在異常代碼塊中進行處理。 ...
ThinkPHP5.1 + tufanbarisyildirim 解析apk

摘要對於apk，我可以說只會安裝，並不知道其中有什麼內容需要記錄下來。這次公司做一個關於電視機頂盒的項目。對於這個陌生的項目，剛開始真是一臉懵逼，完全不知道如何下手。因為這類的項目完全沒有接觸過，而且網上搜一下也看不到這類的開發流程和需求。還好公司有個老司機帶帶我。廢話不多說，搞起來。 TP5獲 ...