分散式爬蟲

来源:https://www.cnblogs.com/cqzlei/archive/2022/09/27/16736318.html
-Advertisement-
Play Games

###一、簡介 什麼是分散式爬蟲? 分散式爬蟲就是把一個爬蟲任務放到多台機器上去運行,提高爬取效率 但是每台機器運行同一套代碼,都在各自的任務和去重隊列,等於各爬各的,最終爬的數據是相同的 因此需要提供一個公共的去重隊列和公共的任務隊列,多台機器都在共用的隊列中去調度和去重,然後分別爬取 原來scr ...


一、簡介

什麼是分散式爬蟲?
分散式爬蟲就是把一個爬蟲任務放到多台機器上去運行,提高爬取效率
但是每台機器運行同一套代碼,都在各自的任務和去重隊列,等於各爬各的,最終爬的數據是相同的
因此需要提供一個公共的去重隊列和公共的任務隊列,多台機器都在共用的隊列中去調度和去重,然後分別爬取

原來scrapy的Scheduler維護的是本機的任務隊列(存放Request對象及其回調函數等信息)+本機的去重隊列(存放訪問過的url地址)

實現分散式的關鍵就是三點:
1、共用隊列
2、重寫Scheduler(調度器),讓其無論去重還是任務都訪問共用隊列
3、為Scheduler定製去重規則(利用redis的集合類型)
以上三點便是scrapy-redis組件的核心功能

二、scrapy-redis實現分散式爬蟲

1 scrapy-redis架構

scrapy-redis整體運行流程如下:核心就是把Scheduler(調度器)放到redis當中去

源碼位置

2 scrapy-redis共用隊列

3 使用scrapy-redis組件

1 pip3 install scrapy-redis 安裝

2 原來繼承Spider,現在繼承RedisSpider
源碼spiders.py中,RedisSpider(RedisMixin, Spider)類,繼承了原來的Spider,並繼承了擴展類RedisMixin

3 不能寫start_urls = ['https:/www.cnblogs.com/']  
需要寫redis_key = 'myspider:start_urls'  統一管理起始的爬取地址,redis的name對應的是一個列表
放一個起始url,啟動爬蟲後,返回來的url也是丟到這個列表中,每台機器都是從這個列表中取地址爬取,共用一個隊列

class ChoutiSpider(RedisSpider):
    name = 'cnblog'
    allowed_domains = ['cnblogs.com']
    redis_key = 'myspider:start_urls'

4 setting中配置

redis連接
# redis的連接, 預設配置本地+6379
REDIS_HOST = 'localhost'     # 主機名
REDIS_PORT = 6379            # 埠
REDIS_USER =                 # 用戶名
REDIS_PASSWORD =             # 密碼
REDIS_URL = 'redis://user:pass@hostname:port'       # 支持直接鏈接
REDIS_PARAMS  = {}                                  # Redis連接參數
REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定連接Redis的Python模塊
REDIS_ENCODING = "utf-8"                            # redis編碼類型 
REDIS_ITEMS_KEY = '%(spider)s:items'                # 將item持久化到redis時,指定的name
REDIS_ITEMS_SERIALIZER = 'json.dumps'               # 將item持久化到redis時,指定序列化函數
重點配置
1、DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"   # 使用scrapy-redis的去重
   源碼dupefilter.py中,RFPDupeFilter類重寫了request_seen()方法
    def request_seen(self, request):
        fp = self.request_fingerprint(request)
        # self.server是redis連接,sadd表示向集合中add數據
        added = self.server.sadd(self.key, fp)
        return added == 0


2、SCHEDULER = "scrapy_redis.scheduler.Scheduler"    # 使用scrapy-redis的Scheduler, 分散式爬蟲的配置

3、持久化配置,配了都走公共的,存在redis中,如果不配,各自存各自的庫,當然Mysql也是共用的一個庫
ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 299} 

源碼pipelines.py中,RedisPipeline類,_process_item()方法,就是把item對象轉成pickle,再存入redis
    def _process_item(self, item, spider):
        key = self.item_key(item, spider)
        data = self.serialize(item)
        self.server.rpush(key, data)
        return item
其他配置
# 調度器將不重覆的任務用pickle序列化後放入共用任務隊列,預設使用優先順序隊列,其他PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表)               
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' 

# 對保存到redis中的request對象進行序列化,預設使用pickle
SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"   

# 調度器中請求任務序列化後存放在redis中的name             
SCHEDULER_QUEUE_KEY = '%(spider)s:requests' 

# 去重隊列(用的指紋去重,放在集合中),在redis中保存時對應的name                        
SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'

# 去調度器中獲取數據時,如果為空,最多等待時間(最後沒數據,未獲取到)。如果沒有則立刻返回會造成空迴圈次數過多,cpu占用率飆升                                
SCHEDULER_IDLE_BEFORE_CLOSE = 10           

# 是否在關閉時候保留原來的調度器和去重記錄,True=保留,False=清空                     
SCHEDULER_PERSIST = True       

# 是否在開始之前清空 調度器和去重記錄,True=清空,False=不清空                                     
SCHEDULER_FLUSH_ON_START = False    

5 啟動scrapy-redis

分散式爬蟲部署在三台機器上,等於每台機器啟一個爬蟲進程,跟在一臺機器上啟動3個進程本質上一樣的
1 進程啟動爬蟲,啟動後要等待從redis中拿出起始url
scrapy crawl cnblog_redis

現在要讓爬蟲運行起來,需要去redis中以myspider:start_urls為key,插入一個起始地址
cmd命令視窗輸入:
2 redis-cil  # 啟動redis
3 lpush myspider:start_urls https://www.cnblogs.com/   # 插入起始地址

···

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 模塊 HTML 網頁中,瀏覽器通過<script>標簽載入 JavaScript 腳本。 <!-- 頁面內嵌的腳本 --> <script type="application/javascript"> // module code </script> <!-- 外部腳本 --> <script ty ...
  • 命令模式(Command Pattern)是一種數據驅動的設計模式,它屬於行為型模式。請求以命令的形式包裹在對象中,並傳給調用對象。調用對象尋找可以處理該命令的合適的對象,並把該命令傳給相應的對象,該對象執行命令。 ...
  • 橋接模式是一種在日常開發中不是特別常用的設計模式,主要是因為上手難度較大,但是對於理解面向對象設計有非常大的幫助。 ...
  • 在項目編碼中經常會遇到一些新的需求試圖復用已有的功能邏輯進行實現的場景,但是已有的邏輯又不能完全滿足新需求的要求,所以就會出現各種生搬硬套的操作。本篇文檔就一起來聊一聊如何藉助Adapter實現高效復用已有邏輯、讓代碼復用起來更加的得體與優雅。 ...
  • 【1】前言 本篇幅是對 線程池底層原理詳解與源碼分析 的補充,預設你已經看完了上一篇對ThreadPoolExecutor類有了足夠的瞭解。 【2】ScheduledThreadPoolExecutor的介紹 1.ScheduledThreadPoolExecutor繼承自ThreadPoolExe ...
  • 概述 tomcat亂碼問題相信大家肯定都遇見過,本篇將詳細介紹有關Tomcat的各種亂碼問題原因和解決方法😊 原因 首先亂碼問題的原因通俗的講就是讀的編碼格式和寫的解碼格式不一致,比如最常見的兩種中文編碼UTF-8和GBK,UTF-8一個漢字占三個位元組,GBK一個漢字占兩個位元組,所以當編碼與解碼格 ...
  • 簡述 類型:結構型 目的:將對象集合組合成樹形結構,使客戶端可以以一致的方式處理單個對象(葉子節點)和組合對象(根節點) 話不多說,上優化案例。 優化案例 最初版v0 不使用組合模式。 現有一個文件和目錄的管理模塊。如樣例。 public class File { // 文件類 private St ...
  • 探索密碼學的奇妙之旅。介紹HMAC單向散列消息認證碼、加鹽。使用golang crypto包實現HMAC生成與驗證,重放攻擊演示。 ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...