Scrapy安裝和簡單使用

来源:https://www.cnblogs.com/jiyu-hlzy/archive/2019/11/09/11828192.html
-Advertisement-
Play Games

模塊安裝 Windows 安裝scrapy 需要安裝依賴環境twisted,twisted又需要安裝C++的依賴環境 pip install scrapy 時 如果出現twisted錯誤 在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載對應的Twiste ...


模塊安裝

Windows

安裝scrapy 需要安裝依賴環境twisted,twisted又需要安裝C++的依賴環境

pip install scrapy  時 如果出現twisted錯誤

在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載對應的Twisted的版本文件(cp36代表python3.6版本)

再cmd進入到Twisted所在的目錄  執行pip install 加Twisted文件名

最後執行pip install scrapy

 

 

Ubuntu安裝註意事項

不要使用 python-scrapyUbuntu提供的軟體包,它們通常太舊而且速度慢,無法趕上最新的Scrapy

要在Ubuntu(或基於Ubuntu)系統上安裝scrapy,您需要安裝這些依賴項

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

如果你想在python3上安裝scrapy,你還需要Python3的開發頭文件

sudo apt-get install python3-dev

在virtualenv中,你可以使用pip安裝Scrapy:pip install scrapy

 

 

 

簡單使用

新建項目

scrapy startproject project_name

 

 

編寫爬蟲

第一種方式:創建單個文件

創建一個類,它必須繼承scrapy.Spider類,需要定義三個屬性

name: spider的名字,必須且唯一

start_urls: 初始的url列表

parse(self, response) 方法:每個初始url完成之後被調用

這個parse函數要完成兩個功能

1、解析響應,封裝成item對象並返回這個對象

2、提取新的需要下載的url,創建新的request,並返回它

單個文件的運行命令 scrapy runspider demo.py

 

第二種方式:通過命令創建

scrapy genspider 爬蟲名 功能變數名稱

 

 

運行爬蟲

scrapy list 查看可以運行的爬蟲文件

scrapy crawl 爬蟲名(name屬性的值)

 

 

追蹤鏈接

創建一個類變數page_num用來記錄當前爬取到的頁碼,在parse函數中提取信息,然後通過爬蟲對象給變數page__num自加1,構造下一頁的url,然後創建scrapy.Request對象並返回

如果response中提取不到信息,我們判斷已經到了最後一頁,parse函數直接return結束

 

定義item管道

parse函數在解析出我們需要的信息之後,可以將這些信息打包成一個字典對象或scray.Item對象,然後返回

這個對象會被髮送到item管道,該管道會通過順序執行幾個組件處理它。每個item管道組件是一個實現簡單方法的Python類

它們收到一個item並對其執行操作,同時決定該item是否應該繼續通過管道或者被丟棄並且不再處理

 

item管道的典型用途:

清理HTML數據  

驗證已刪除的數據(檢查項目是否包含某些欄位)  

檢查重覆項(並刪除它們)  

將已爬取的item進行數據持久化

 

 

編寫管道類

#在爬蟲啟動時執行               def open_ spider(self, spider)

#在爬蟲關閉時,執行              def close_ spider(self, spider)

#對傳遞過來的item處理並return處理完的item  def process_ item(self, item, spider)

要激活這個管道組件,必須將其添加到ITEM_PIPELINES設置中,在settings文件中設置

在此設置中為類分配的整數值決定了它們運行的順序:按照從較低值到較高值的順序進行

 

 

定義item

Scrapy提供了Item類

編輯項目目錄下的items.py文件

在爬蟲中導入我們定義的Item類,實例化後用它進行數據結構化

 

 

 

運行流程

數據流

 首先從爬蟲獲取初始的請求

將請求放入調度模塊,然後獲取下一個需要爬取的請求

調度模塊返回下一個需要爬取的請求給引擎

引擎將請求發送給下載器,依次穿過所有的下載中間件

一旦頁面下載完成,下載器會返回一個響應包含了頁面數據,然後再依次穿過所有的下載中間件

引擎從下載器接收到響應,然後發送給爬蟲進行解析,依次穿過所有的爬蟲中間件

爬蟲處理接收到的響應,然後解析出item和生成新的請求,併發送給引擎

引擎將已經處理好的item發送給管道組件,將生成好的新的請求發送給調度模塊,並請求下一個請求

該過程重覆,直到調度程式不再有請求為止

 

 

組件

spiders 爬蟲程式     處理response 提取需要的數據 或其他要抓取的請求

engine 引擎       引擎負責控制系統所有組件之間的數據流,併在發生某些操作時觸發事件

scheduler調度器     接收request請求 排隊加入隊列

download下載器     負責引擎發送過來的request請求 進行下載

item pipelines 管道    負責spider返回的數據 進行存儲

 

 

中間件

下載中間件

下載中間件是位於引擎和下載器之間的特定的鉤子,它們處理從引擎傳遞到下載器的請求,以及下載器傳遞到引擎的響應

使用Downloader中間件執行以下操作

在請求發送到下載程式之前處理請求(即在scrapy將請求發送到網站之前)

在響應發送給爬蟲之前

直接發送新的請求,而不是將收到的響應傳遞給蜘蛛

將響應傳遞給爬行器而不獲取web頁面

默默的放棄一些請求

 

 

爬蟲中間件

爬蟲中間件是位於引擎和爬蟲之間的特定的鉤子,能夠處理傳入的響應和傳遞出去的item和請求

使用爬蟲中間件執行以下操作

處理爬蟲回調之後的 請求或item

處理start_requests

處理爬蟲異常

根據響應內容調用errback而不是回調請求

 

 

事件驅動的網路

scrapy是用Twisted編寫的,Twisted是一個流行的事件驅動的Python網路框架。它使用非阻塞(也稱為非同步)代碼實現併發

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 手寫SpringMVC框架 細嗅薔薇 心有猛虎 背景:Spring 想必大家都聽說過,可能現在更多流行的是Spring Boot 和Spring Cloud 框架;但是SpringMVC 作為一款實現了MVC 設計模式的web (表現層) 層框架,其高開發效率和高性能也是現在很多公司仍在採用的框架; ...
  • 概述 今天給大家分享,在 API 端使用 Gin 框架時,項目的目錄。目錄 ├─ Project Name │ ├─ config //配置文件 │ ├── ... │ ├─ controller //控制器層 │ ├── ... │ ├─ service //業務層 │ ├── ... │ ├─ ...
  • 一、re舉例 import re #查找數字 p = re.compile(r"\d+") #在字元串“ongahjeuf125”中及逆行查找,按照規則p指定的正則進行查找 m = p.match("ong125fdsgdsf48515",3,20)#後面的參數序號3到6的搜索範圍 print(m) ...
  • 1. 引入工程依賴包 2. 編寫DAO介面 3. 編寫SQL配置文件(本人不太習慣註解,習慣將SQL寫在配置文件中) 4. 配置myBatis配置類,也可以放在啟動類上 5. 配置application.yml文件 6. 編寫controller,調用MyBatis 源代碼: "https://gi ...
  • 概述首先同步下項目概況:上篇文章分享了,使用 go modules 初始化項目,這篇文章咱們分享: 規劃目錄結構 模型綁定和驗證 自定義驗證器 制定 API 返回結構廢話不多說,咱們開始吧。規劃目錄結構 ├─ go-gin-api │ ├─ app │ ├─ config //配置文件 │ ├─ c ...
  • 一、關於Quartz Quartz是OpenSymphony開源組織在Job scheduling領域又一個開源項目,它可以與J2EE與J2SE應用程式相結合也可以單獨使用。在java企業級應用中,Quartz是使用最廣泛的定時調度框架。 在Quartz中的主要概念: Scheduler:調度任務的 ...
  • 概述首先同步下項目概況:上篇文章分享了,規劃項目目錄和參數驗證,其中參數驗證使用的是 validator.v8 版本,現已更新到 validator.v9 版本,最新代碼查看 github 即可。這篇文章咱們分享:路由中間件 - 日誌記錄。日誌是特別重要的一個東西,方便我們對問題進行排查,這篇文章我 ...
  • 本文主要學習了在Java1.8中新增的Collector介面和Collectors工具類,以及使用它們在處理集合時的改進和優化。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...