Scrapy開髮指南

来源:http://www.cnblogs.com/qabetter/archive/2016/12/31/6238797.html
-Advertisement-
Play Games

一、Scrapy簡介 Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程式中。 Scrapy基於事件驅動網路框架 Twisted 編寫。因此,Scrapy基於併發性考慮由非阻塞(即非同步)的實現。 組件 Scrapy Eng ...


一、Scrapy簡介 

Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程式中。

Scrapy基於事件驅動網路框架 Twisted 編寫。因此,Scrapy基於併發性考慮由非阻塞(即非同步)的實現。

組件

Scrapy Engine

引擎負責控制數據流。

調度器(Scheduler)

調度器從引擎接受request並將他們入隊,以便之後引擎請求他們時提供給引擎。

下載器(Downloader)

下載器負責獲取頁面數據並提供給引擎,而後提供給spider。

Spiders

Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。 每個spider負責處理一個特定(或一些)網站。

Item Pipeline

Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如存取到資料庫中)。

下載器中間件(Downloader middlewares)

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook),處理Downloader傳遞給引擎的response。 其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能。

Spider中間件(Spider middlewares)

Spider中間件是在引擎及Spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(items及requests)。 其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能。

二、Scrapy環境配置

安裝以下程式

  • Python 2.7
  • Python Package: pip and setuptools. 現在 pip 依賴 setuptools ,如果未安裝,則會自動安裝setuptools 。
  • lxml. 大多數Linux發行版自帶了lxml。如果缺失,請查看http://lxml.de/installation.html
  • OpenSSL. 除了Windows(請查看 平臺安裝指南)之外的系統都已經提供。 
    pip install pyopenssl
  • Visual C++2008
  • 安裝PyWin32
  • pip install scrapy

創建工程模板

命令行執行:scrapy startproject 工程名

創建好的工程結構如下圖:

  

Idea中配置scrapy啟動

 

二、常用API說明

開發中主要涉及spider,item,Pipeline,settings模塊的開發。需要擴展插件則開發extions模塊。

Spider類

繼承scrapy.Spider

屬性

name : 爬蟲名字,用於區別spider,唯一。
start_urls : Spider在啟動時進行爬取的url列表。後續的URL則從初始的URL獲取到的數據中提取。

方法
parse(self, response) :每個初始url爬取到的數據將通過response參數傳遞過來。此方法負責解析數據(response), 提取數據(生成Item),生成需要進一步處理的URL請求(request)。

  scrapy.Request(url=link, errback=self.errback_http, callback=self.parse_article)

框架會對url=link的地址發起請求,如果請求出現錯誤執行用戶自定義的errback_http方法,如果請求成功則執行用戶自定義的parse_article方法。

Item類

需要繼承scrapy.Item。Item是一個dict(),用於存儲spider中parse()中解析到的數據,在pipeline中調用。

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()
提取Item

Scrapy Selector基於xpath和css提取元素。

  • xpath(): 傳入xpath表達式,返回該表達式所對應的所有節點的selector list列表 。
  • css(): 傳入CSS表達式,返回該表達式所對應的所有節點的selector list列表.
  • extract(): 序列化該節點為unicode字元串並返回list。
  • re(): 根據傳入的正則表達式對數據進行提取,返回unicode字元串list列表。

運行爬蟲
在項目目錄下運行以下命令,即可執行爬蟲:
scrapy crawl NAME(爬蟲名字)

配置文件Settings

Settings文件可以可以控制包括核心(core),插件(extension),pipeline及spider組件。這裡只說3.settings模塊。

  1. 命令行選項(Command line Options)(最高優先順序)
  2. 每個spider的設定
  3. 項目設定模塊(Project settings module)
  4. 命令預設設定模塊(Default settings per-command)
  5. 全局預設設定(Default global settings) (最低優先順序)

訪問settings

如果需要使用該配置文件中定義的屬性,類(爬蟲,管道,插件)需要增加額外的類方法: from_crawler(cls, crawler)。

設定可以通過Crawler的 scrapy.crawler.Crawler.settings 屬性進行訪問。其由插件及中間件的from_crawler 方法所傳入:

class MyExtension(object):

    @classmethod
    def from_crawler(cls, crawler):
        settings = crawler.settings
        if settings['LOG_ENABLED']:
            print "log is enabled!"

也可以通過字典訪問,避免錯誤,建議使用setting API中的規範key值。

管道開發

管道類似過濾處理鏈,根據自定義業務依次處理Spider解析後的數據,例如數據驗證(去重、轉換),計算存儲(DB,NOSQL),發送消息(Kafka,MQ),報表生成。
開發自定義管道類需要兩步驟:

  1. 在pipelines中定義類並實現 process_item(self, item, spider) 方法, 其中item對象為spider解析後待處理的數據。
  2. 在settings中開啟管道配置信息,ITEM_PIPELINES 中配置自定義管道類名和執行序列。

說明
自定義管道根據序列號從小到大依次執行請求,如果拋出DropItem異常,後續管道將不會執行,例如數據出現重覆主鍵,可以拋出DropItem異常。

日誌開發

使用以下代碼在管道中定義日誌名稱

logger = logging.getLogger('pipelogger')

同時可以在包初始化文件__init__.py中定義日誌級別 : LOG_LEVEL = 'INFO'

日誌啟用也可以在settings中設置如下屬性
LOG_ENABLED = True #啟用日誌
LOG_ENCODING = 'utf-8' #設置日誌字元集
LOG_FILE = 'e://workspace/log/csdncrawl.log' #指定日誌文件及路徑
LOG_LEVEL = 'INFO' #定義日誌級別
LOG_STDOUT = True #是否將print語句列印內容輸出到日誌

擴展插件

開發者可自定義運行在不同階段的插件,例如打開爬蟲、關閉爬蟲、數據抓取等。
插件只需要關註:在什麼時候做什麼事情,即 狀態-方法。
開發插件只需要2步:

  1. 開發插件類,可定義在extensions.py文件中,在from_crawler中增加狀態-方法的映射關係,例如在打開爬蟲的時候執行spider_opened方法可這樣配置:
            crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
    
  1. 在settings中配置插件類,和管道定義類似, 其KEY為EXTENSIONS

 

四、代碼示例

Spider示例

import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            title = sel.xpath('a/text()').extract()
            link = sel.xpath('a/@href').extract()
            desc = sel.xpath('text()').extract()
            print title, link, desc

 

日誌Logging

import logginglogger = logging.getLogger('mycustomlogger')
logger.warning("This is a warning")

import logging
import scrapy

logger = logging.getLogger('mycustomlogger')

class MySpider(scrapy.Spider):

    name = 'myspider'
    start_urls = ['http://scrapinghub.com']

    def parse(self, response):
        logger.info('Parse function called on %s', response.url)

 參考資料:

中文版scrapy資料地址:https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、標準IO的效率 對比以下四個程式的用戶CPU、系統CPU與時鐘時間對比 程式1:系統IO 程式2:標準IO getc版本 程式3:標準IO fgets版本 結果: 【註:該表截取自APUE,上表中"表3-1中的最佳時間即《程式1》","表3-1中的單位元組時間指的是《程式1》中BUFSIZE為1時 ...
  • 題目大意: B進位數,每個數字i(i=0,1,...,B-1)有a[i]個。你要用這些數字組成一個最大的B進位數X(不能有前導零,不需要 用完所有數字),使得X是B-1的倍數。q次詢問,每次詢問X在B進位下的第k位數字是什麼(最低位是第0位)。 思路:由於如下定理: a*Bk≡a( mod (B-1 ...
  • 當子類繼承父類的時候,若父類沒有定義帶參的構造方法,則子類可以繼承父類的預設構造方法 當父類中定義了帶參的構造方法,子類必須顯式的調用父類的構造方法 若此時,子類還想調用父類的預設構造方法,必須在父類中明確聲明預設的構造方法 ...
  • set 的 remove() 和 discard() 方法介紹。 函數/方法名 for example: 以下運行代碼會報錯,原因在於 第9行 remove()中的‘l’在集合中不存在 而 discard()方法不會報錯。 正確的代碼如下: 運行結果如下: ...
  • Peter wants to generate some prime numbers for his cryptosystem. Help him! Your task is to generate all prime numbers between two given numbers! Input ...
  • 在上一集的討論里我們介紹並實現了強類型返回結果行。使用強類型主要的目的是當我們把後端資料庫SQL批次操作搬到記憶體里轉變成數據流式按行操作時能更方便、準確、高效地選定數據欄位。在上集討論示範里我們用集合的foreach方式模擬了一個最簡單的數據流,並把從資料庫里批次讀取的數據集轉換成一串連續的數據行來 ...
  • 雖然公司自己的網站和給客戶開發的項目中都涉及到了微信開發,自己也寫了關於微信開發的兩篇文章,但感覺自己對微信開發中的一些概念還是容易混淆,今天瀏覽了下微信公眾平臺、微信開放平臺的後臺和相關文檔,算是弄清楚了下麵這些東西,至於其他還沒弄清楚的,以後想到了再說。 1,微信公眾平臺(https://mp. ...
  • 一、前言 在上一篇博文中,我們的爬蟲面臨著一個問題,在爬取Unsplash網站的時候,由於網站是下拉刷新,並沒有分頁。所以不能夠通過頁碼獲取頁面的url來分別發送網路請求。我也嘗試了其他方式,比如下拉的時候監控http請求,看看請求是否有規律可以模擬。後來發現請求並沒有規律,也就是不能夠模擬http ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...