scrapy中間件_ZenDei技術網路在線

scrapy中間件

-Advertisement-

scrapy中間件分下載器中間件和爬蟲中間件下載器中間件（downloader middlewares）:主要處理request請求發出去和response響應返回的一些回調。方法： process_request(self,request,spider)：返回為None：繼續請求返回為Re ...

scrapy中間件分下載器中間件和爬蟲中間件

下載器中間件（downloader middlewares）:主要處理request請求發出去和response響應返回的一些回調。

方法：

　　process_request(self,request,spider)：

　　　　當request請求經過下載器中間件的時候調用

　　　　返回為None：繼續請求

　　　　返回為Request對象，把request對象交給調度器，進行後續請求

　　　　返回為Response對象，不再請求，response交給引擎然後給爬蟲

　　這個方法可以給request請求增加代理ip，cookie，user-agent，還可以集成selenium，返回HtmlResponse(url,body=,request=,encoding=)

　　process_response(self,request,response,spider)：

　　　　下載器完成http請求，返回responser給引擎時調用

　　　　返回為Request對象，交給調度器繼續請求

　　　　返回為Response對象，交給下一個process_response處理

　　這個方法，可以進行cookie池的維護，或者對response進行MD5加密，進行數據的去重

　　process_exception(request,exception,spider)：

　　　　當下載處理區或者process_request拋出異常時，scrapy框架調用process_exception處理，但是不處理process_response拋出的異常，此異常調用requst的errback(Request.errback)處理

　　　　返回為None，調用其他process_exception方法繼續處理，直到所有中間件調用完畢，調用預設的異常處理

　　　　返回為Response對象，異常糾正，交給下一個process_response處理

　　　　返回為Request對象，交給調度器繼續請求

爬蟲中間件（spider middlewares）:處理解析數據(item)的相關邏輯修正，比如數據不完整添加預設、增加其他額外信息。（處理輸入response和輸出item或request）

　　方法：

　　process_spider_input(self,response,spider)：

　　　　response通過中間件，該方法調用

　　　　返回None，交給下一個process_spider_input處理

　　process_spider_output(self,response,result,spider)：

　　　　當spider處理response返回reult，該方法調用

　　　　該方法必須返回包含requset或item對象的可迭代對象iterable

　　process_spider_exception(response,exception,spider)：

　　　　當spider或process_spider_input拋出異常時，該方法調用

　　　　返回為None，交給其他process_spider_exception繼續處理

　　　　返回一個包含responser或item對象的可迭代對象(iterable)，交給其process_spider_output方法

　　　process_start_request(start_request,spider)：

　　　　spider啟動start_requests() 時調用

　　　　接受一個可迭代對象(start_request參數)且必須返回一個包含Request對象的可迭代對象

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python 之父再發文：構建一個 PEG 解析器

花下貓語： Python 之父在 Medium 上開了博客，現在寫了兩篇文章，本文是第二篇的譯文。前一篇的譯文 "在此" ，宣佈了將要用 PEG 解析器來替換當前的 pgen 解析器。本文主要介紹了構建一個 PEG 解析器的大體思路，並介紹了一些基本的語法規則。根據 Python 之父的描述，這個 ...
乾貨來了！python學習之重難點整理合輯1

關於裝飾器、lambda、鴨子類型、魔法函數的理解仍存有困惑之處，趁周末有時間溫故，趕緊去自學瞭解下相關知識。 1.裝飾器是什麼：很多初學者在接觸裝飾器的時候只做到了膚淺的瞭解它的概念、組成形態。實際上裝飾器是python學習中很難啃的大骨頭，一旦涉及到具體用途以及原理，經常會把人繞暈。在這裡， ...
scrapy-redis數據去重與分散式框架

數據去重生成指紋：利用hashlib的sha1，對request的請求體、請求url、請求方法進行加密，返回一個40位長度的16進位的字元串，稱為指紋進隊：如果請求需要過濾，並且當前請求的指紋已經在指紋集合中存在了，就不能進入隊列了如果請求需要過濾，並且請求的指紋是一個新的指紋，進入隊列如 ...
Python複習筆記01

（1）電腦常識電腦：硬體（運算器，控制器，存儲器，輸入設備，輸出設備）軟體 (系統軟體，應用軟體) 二進位整數存儲文件單位換算 1Byte = 8bit 1KB = 1024Byte 1MB = 1024KB 1GB = 1024MB … 電腦編程語言機器語言彙編語言高級語 ...
Spring JdbcTemplate之使用詳解

最近在項目中使用到了 Spring 的 JdbcTemplate, 中間遇到了好多坑, 所以花一些時間對 JdbcTemplate 的使用做了一個總結, 方便以後自己的查看。文章中貼出來的API都是經過測試的, 可以放心大膽的拿去用。概述 JdbcTemplate主要提供4種方法: 前兩種使用的一 ...
cookie池的維護

存儲形式：存儲在redis中，“spider_name:username–password":cookie 建立py文件及包含方法： initcookies() 初始化所有賬號的cookies，將所有賬號對用進行登陸獲取cookies並保存在redis中 update_cookie(spider_ ...
[Go] golang的MPG調度模型

MPG模式運行狀態11）當前程式有三個M,如果三個M都在一個cpu運行，就是併發，如果在不同的cpu運行就是並行2）M1,M2,M3正在執行一個G,M1的協程隊列有三個，M2的協程隊列有三個，M3的協程隊列有兩個3）從上圖可以看到：Go的協程是輕量級的線程，是邏輯態的，Go可以容易的起上萬個協程4） ...
Python 【函數】

函數內置函數print() input() len() type() ... print('Hello World') 函數參數定義函數def greet(name): print(name+'早上好') return 第一行def的意思是定義(define)greet是【函數名】（自己取的） ...