Python爬蟲入門教程 14-100 All IT eBooks多線程爬取

来源:https://www.cnblogs.com/happymeng/archive/2018/12/28/10188468.html
-Advertisement-
Play Games

寫在前面 對一個爬蟲愛好者來說,或多或少都有這麼一點點的 ~ 發現好的圖片,發現好的書籍,發現各種能存放在電腦上的東西,都喜歡把它批量的爬取下來。 然後放著,是的,就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析 打開網址 發現特別清晰的小頁面,一看就好爬 在點擊一本圖書進入,發現下載的 ...


All IT eBooks多線程爬取-寫在前面

對一個爬蟲愛好者來說,或多或少都有這麼一點點的收集癖 ~ 發現好的圖片,發現好的書籍,發現各種能存放在電腦上的東西,都喜歡把它批量的爬取下來。 然後放著,是的,就這麼放著.......然後慢慢的遺忘掉.....

All IT eBooks多線程爬取-爬蟲分析

打開網址 http://www.allitebooks.com/ 發現特別清晰的小頁面,一看就好爬
在這裡插入圖片描述

在點擊一本圖書進入,發現下載的小鏈接也很明顯的展示在了我們面前,小激動一把,這麼清晰無廣告的網站不多見了。
在這裡插入圖片描述

All IT eBooks多線程爬取-擼代碼

這次我採用了一個新的模塊 requests-html 這個模塊的作者之前開發了一款 requests,你應該非常熟悉了,線程式控制制採用的 queue
安裝 requests-html 模塊

pip install requests-html

關於這個模塊的使用,你只需要使用搜索引擎搜索一下這個模塊名稱,那文章也是很多滴,作為能學到這篇博客的你來說,是很簡單的拉~

我們編寫一下核心的內容

from requests_html import HTMLSession
from queue import Queue
import requests
import random

import threading
CARWL_EXIT = False
DOWN_EXIT = False

#####
# 其他代碼
####
if __name__ == '__main__':

    page_queue = Queue(5)
    for i in range(1,6):
        page_queue.put(i)  # 把頁碼存儲到page_queue裡面

    # 採集結果
    data_queue = Queue()

    # 記錄線程列表
    thread_crawl = []
    # 每次開啟5個線程
    craw_list = ["採集線程1號","採集線程2號","採集線程3號","採集線程4號","採集線程5號"]

    for thread_name in craw_list:
        c_thread = ThreadCrawl(thread_name,page_queue,data_queue)
        c_thread.start()
        thread_crawl.append(c_thread)

    while not page_queue.empty():
        pass

    # 如果page_queue為空,採集線程退出迴圈
    CARWL_EXIT = True
    for thread in thread_crawl:
        thread.join()
        print("抓取線程結束")

上面就是爬取圖書詳情頁面的線程了,我開啟了5個線程爬取,頁碼也只爬取了5 頁,如果你需要更多的,只需要修改

    page_queue = Queue(5)
    for i in range(1,6):
        page_queue.put(i)  # 把頁碼存儲到page_queue裡面

下麵我們把 ThreadCrawl 類編寫完畢

session = HTMLSession()

# 這個地方是 User_Agents 以後我把他配置到伺服器上面,就可以遠程獲取了  這個列表裡面有很多項,你自己去源碼裡面找吧
USER_AGENTS = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20"
]
# 獲取圖書下載鏈接的線程類
class ThreadCrawl(threading.Thread):
    # 構造函數
    def __init__(self,thread_name,page_queue,data_queue):

        super(ThreadCrawl,self).__init__()
        self.thread_name = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue
        self.page_url = "http://www.allitebooks.com/page/{}"   #URL拼接模板

    def run(self):
        print(self.thread_name+" 啟動*********")

        while not CARWL_EXIT:
            try:
                page = self.page_queue.get(block=False)
                page_url = self.page_url.format(page)   # 拼接URL操作
                self.get_list(page_url)   # 分析頁面鏈接 

            except Exception as e:
                print(e)
                break


    # 獲取當前列表頁所有圖書鏈接
    def get_list(self,url):
        try:
            response = session.get(url)
        except Exception as e:
            print(e)
            raise e

        all_link = response.html.find('.entry-title>a') # 獲取頁面所有圖書詳情鏈接

        for link in all_link:
            self.get_book_url(link.attrs['href'])   # 獲取圖書鏈接

    # 獲取圖書下載鏈接
    def get_book_url(self,url):
        try:
            response = session.get(url)

        except Exception as e:
            print(e)
            raise e

        download_url = response.html.find('.download-links a', first=True)

        if download_url is not None: # 如果下載鏈接存在,那麼繼續下麵的爬取工作
            link = download_url.attrs['href']
            self.data_queue.put(link)   # 把圖書下載地址 存儲到 data_queue裡面,準備後面的下載
            print("抓取到{}".format(link))

上述代碼一個非常重要的內容就是把圖書的下載鏈接存儲到了data_queue 裡面,這些數據 在另一個下載線程裡面是最基本的數據。

下麵開始 編寫圖書下載的類和方法。

我開啟了4個線程,操作和上面的非常類似

class ThreadDown(threading.Thread):
    def __init__(self, thread_name, data_queue):
        super(ThreadDown, self).__init__()
        self.thread_name = thread_name
        self.data_queue = data_queue

    def run(self):
        print(self.thread_name + ' 啟動************')
        while not DOWN_EXIT:
            try:
                book_link = self.data_queue.get(block=False)
                self.download(book_link)
            except Exception as e:
                pass

    def download(self,url):
        # 隨機瀏覽器User-Agent
        headers = {"User-Agent":random.choice(USER_AGENTS)}
        # 獲取文件名字
        filename = url.split('/')[-1]
        # 如果url裡面包含pdf
        if '.pdf' in url or '.epub' in url:
            file = 'book/'+filename  # 文件路徑已經寫死,請在跟目錄先創建好一個book文件夾
            with open(file,'wb') as f:  # 開始二進位寫文件
                print("正在下載 {}".format(filename))
                response = requests.get(url,stream=True,headers=headers)
                # 獲取文件大小
                totle_length = response.headers.get("content-length")
                # 如果文件大小不存在,則直接寫入返回的文本
                if totle_length is None:
                    f.write(response.content)
                else:
                    for data in response.iter_content(chunk_size=4096):
                        f.write(data)
                    else:
                        f.close()

                print("{}下載完成".format(filename))

if __name__ == '__main__': 

# 其他代碼在上面
    thread_image = []
    image_list = ['下載線程1號', '下載線程2號', '下載線程3號', '下載線程4號']
    for thread_name in image_list:
        d_thread = ThreadDown(thread_name, data_queue)
        d_thread.start()
        thread_image.append(d_thread)

    while not data_queue.empty():
        pass

    DOWN_EXIT = True
    for thread in thread_image:
        thread.join()
        print("下載線程結束")

如果你把我上面的代碼都組合完畢,那麼應該可以很快速的去爬取圖書了,當然這些圖書都是英文了,下載下來你能不能讀....... 我就不知道了。

在這裡插入圖片描述

源碼下載地址,去上篇博客找吧~~~~



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 責任鏈模式通過為請求創建一個 接收者對象的鏈,對請求的發送者和接收者進行解耦。 介紹 責任鏈屬於行為型模式,在這種模式中,通常每個接收者都包含對另一個接收者的引用,如果一個對象不能處理該請求,那麼則會繼續往下傳遞,依此類推。可以參考 C 中的事件處理程式就是採用這種思想。 類圖描述 代碼實現 1、創 ...
  • 命令模式是一種數據驅動型的設計模式,它以命令的形式包裹在對象中,並傳遞給調用者。 介紹 命令模式屬於行為型設計模式,它通過將一個請求封裝成一個對象,從而使我們可以用不同的請求對客戶端進行參數化。 類圖描述 代碼實現 1、創建命令介面 2、創建一個模擬請求類 3、創建命令介面的實現類 4、創建命令調用 ...
  • 在工廠模式中,我們沒有創建邏輯暴露給客戶端創建對象,並使用一個通用的介面引用新創建的對象。 1.創建Shape介面 2.創建多個Shape實現類(這裡創建了3個) 3.創建工廠 4.使用工廠通過傳遞類型等信息來獲取具體類的對象 5.輸出結果如下: ...
  • 本文可能是你看過的最易懂的訪問者設計模式的文章之一,以示例為基礎,不斷演化,深入訪問者模式的內核,給出了訪問者模式的意圖,結構,示例代碼。 ...
  • 組合模式的定義 定義: 將對象組合成樹形結構以表示 "部分-整體" 的層次結構,使得用戶對單個對象和組合對象的使用具有一致性. 通俗的說, 就是實現了樹形結構 通用類圖如下: 其中的三個角色如下: 抽象構件角色代碼: 樹枝構件代碼: 葉子構件代碼: 場景類代碼: 組合模式的應用 組合模式的優點: 組 ...
  • 適配器模式的定義 定義: 將一個類的介面變換成客戶端所期待的另一種介面, 從而使原本因介面不匹配而無法在一起工作的兩個類能夠在一起工作. 通俗的說, 就是有 A、B兩個介面, 現在要求把A和B安裝在一起使用, 兩者的介面不一致, 怎麼辦? 引入一個物體C, 如下圖: 引入C物體後, C適應了A的介面 ...
  • 很多人在編程時,總是喜歡用一下方法將數組轉為字元串:(a為byte數組) String s=a.toString(); 可是每次返回的時候,新手看來返回的結果是亂碼,比如說我,寫RSA演算法時,沒有註意,就以為是解密出來的亂碼(哈哈哈),但其實[B@1b6d3586 為棧地址值,這個時候要知道對於返回 ...
  • 九大內置對象: out 最常用的Println()方法,輸出 config 基本沒啥用 page 當前jsp頁面實例跟this一樣 pageContext 只有當前頁面才可以獲取 exception 錯誤頁可以使用它 request 與Servlet中request一樣沒有區別 response 與 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...