Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

来源:https://www.cnblogs.com/happymeng/archive/2018/12/27/10182939.html
-Advertisement-
Play Games

寫在前面 今天在CSDN博客,發現好多人寫爬蟲都在爬取一個叫做 的網站,裡面很多表情包,然後瞅了瞅,各種實現方式都有,今天我給你實現一個多線程版本的。關鍵技術點 ,你可以看一下我前面的文章,然後在學習一下。 網站就不分析了,無非就是找到規律,拼接URL,匹配關鍵點,然後爬取。 擼代碼 首先快速的導入 ...


寫在前面

今天在CSDN博客,發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站,裡面很多表情包,然後瞅了瞅,各種實現方式都有,今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ,你可以看一下我前面的文章,然後在學習一下。

網站就不分析了,無非就是找到規律,拼接URL,匹配關鍵點,然後爬取。

擼代碼

首先快速的導入我們需要的模塊,和其他文章不同,我把相同的表情都放在了同一個文件夾下麵,所以需要導入os模塊

import asyncio
import aiohttp
from lxml import etree
import os

編寫主要的入口方法

if __name__ == '__main__':
    url_format = "http://www.doutula.com/article/list/?page={}"
    urls = [url_format.format(index) for index in range(1,586)]
    loop = asyncio.get_event_loop()
    tasks = [x_get_face(url) for url in urls]
    results = loop.run_until_complete(asyncio.wait(tasks))

我們是為了學習,不是為了攻擊別人伺服器,所以限制一下併發數量

sema = asyncio.Semaphore(3)

async def x_get_face(url):
    with(await sema):
        await get_face(url)

最後,一頓操作猛如虎,把所有的代碼補全,就搞定了,這部分沒有什麼特別新鮮的地方,找圖片鏈接,然後下載。

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}
async def get_face(url):
    print("正在操作{}".format(url))
    async with aiohttp.ClientSession() as s:
        async with s.get(url,headers=headers,timeout=5) as res:
            if res.status==200:
                html = await res.text()
                html_format = etree.HTML(html)

                hrefs = html_format.xpath("//a[@class='list-group-item random_list']")

                for link in hrefs:
                    url = link.get("href")
                    title = link.xpath("div[@class='random_title']/text()")[0]  # 獲取文件頭部

                    path = './biaoqings/{}'.format(title.strip())  # 硬編碼了,你要先在項目根目錄創建一個biaoqings的文件夾

                    if not os.path.exists(path):
                        os.mkdir(path)
                    else:
                        pass

                    async with s.get(url, headers=headers, timeout=3) as res:
                        if res.status == 200:
                            new_html = await res.text()

                            new_html_format = etree.HTML(new_html)
                            imgs = new_html_format.xpath("//div[@class='artile_des']")
                            for img in imgs:
                                try:
                                    img = img.xpath("table//img")[0]
                                    img_down_url = img.get("src")
                                    img_title = img.get("alt")
                                except Exception as e:
                                    print(e)

                                async with s.get(img_down_url, timeout=3) as res:
                                    img_data = await res.read()
                                    try:
                                        with open("{}/{}.{}".format(path,img_title.replace('\r\n',""),img_down_url.split('.')[-1]),"wb+") as file:
                                            file.write(img_data)
                                    except Exception as e:
                                        print(e)

                        else:
                            pass


            else:
                print("網頁訪問失敗")

等著,大量的表情包就來到了我的碗里。
在這裡插入圖片描述

爬蟲源碼下載地址


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 責任鏈模式的定義 定義: 使多個對象都有機會處理請求, 從而避免了請求的發送者和接受者之間的耦合關係. 將這些對象連成一條鏈, 並沿著這條鏈傳遞該請求,直到有對象處理它為止 通俗的講, 就是將對請求的處理組成一條鏈, 當請求來時, 在鏈中依次傳遞, 知道找到能夠處理此請求的對象 其通用類圖如下: 責 ...
  • 中介者模式的定義 中介者模式, 當多個類彼此關聯, 會增大耦合性, 這時各個模塊通過中介者進行交流, 每個模塊只負責自己的業務邏輯, 不屬於自己的就丟給中介者, 降低耦合 定義: 用一個中介對象封裝一系列的對象交互, 中介者使各對象不需要顯示的相互作用,從而使其耦合鬆散,而且可以獨立的改變他們之間的 ...
  • 模板方法模式是一種非常簡單實用的模式,本文對模板方法模式進行了簡單的介紹,對意圖,結構等進行了描述,並且給出了Java的示例代碼,模板方法模式是對面向對象程式設計繼承的一個很優秀的使用,想一下Thread的start和run方法,再想想模板方法模式的含義,你是否會想到什麼? ...
  • 代理模式的定義 代理模式是一個使用率非常高的模式,其定義為: 為其他對象提供一種代理以控制對這個對象的訪問 代理模式也叫做委托模式, 它是一項基本設計技巧. 許多其他的模式, 如狀態模式、策略模式、訪問者模式本質上是在更特殊的場合採用了委托模式, 而且在日常的應用中, 代理模式可以提供非常好的訪問控 ...
  • 同步類容器都是線程安全的,但某些情況下可能需要加鎖來保護符合操作 複合操作:迭代(反覆訪問元素,遍歷完容器中所有的元素);跳轉(根據指定的順序找到當前元素的下一個元素);條件運算 這些複合操作在多線程併發地修改容器時,可能會表現出意外的行為,最經典的便是ConcurrentModificationE ...
  • 原型模式的定義 定義: 用原型實例指定創建對象的種類, 並且通過拷貝這些原型創建新的對象. 通俗的講,就是不再使用new 來創建對象, 而改用 clone 方法來得到新的對象 原型模式的核心是一個 clone 方法, 通過該方法進行對象的拷貝, Java提供了一個Cloneable介面來標識這個對象 ...
  • 你可以使用如下流程式控制制符: if and else for loops while and do while loops break and continue switch and case assert 同時,你可以用try catch 和throw去跳出流程式控制制邏輯,併在異常代碼塊中進行處理。 ...
  • 摘要 對於apk,我可以說只會安裝,並不知道其中有什麼內容需要記錄下來。這次公司做一個關於電視機頂盒的項目。對於這個陌生的項目,剛開始真是一臉懵逼,完全不知道如何下手。 因為這類的項目完全沒有接觸過,而且網上搜一下也看不到這類的開發流程和需求。還好公司有個老司機帶帶我。廢話不多說,搞起來。 TP5獲 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...