Scrapy源碼註解--CookiesMiddleware

来源:http://www.cnblogs.com/thunderLL/archive/2017/12/18/8060279.html
-Advertisement-
Play Games

CookiesMiddleware預設情況下實現了cookie在請求 響應之間的流轉和填充. 又可以通過 來實現單Spider多cookie. 通過讀源碼也解答了上一篇博文" "Scrapy框架 cookie的獲取/傳遞/本地保存" "中的疑惑. ...


class CookiesMiddleware(object):
    """
    中間件在Scrapy啟動時實例化.其中jars屬性是一個預設值為CookieJar對象的dict.
    該中間件追蹤web server發送的cookie,保存在jars中,併在之後的request中發送回去,
    類似瀏覽器的行為.

    CookiesMiddleware還用於實現單Spider多cookie.通過在Request meta中添加cookiejar來支持單
    spider追蹤多cookie session.預設情況下其使用一個cookie jar(session),不過您可以傳遞一個
    標示符來使用多個。
    例如:
    for i, url in enumerate(urls):
        yield scrapy.Request("http://www.example.com", meta={'cookiejar': i},callback=self.parse_page)
    註意:meta中的cookiejar僅存儲了cookiejar的標識,真是的cookiejar存儲在CookiesMiddleware實
    例的jars屬性中
    """
    def __init__(self, debug=False):
        self.jars = defaultdict(CookieJar)
        self.debug = debug

    @classmethod
    def from_crawler(cls, crawler):
        # COOKIES_ENABLED預設值為True,是否啟用CookiesMiddleware
        # COOKIES_DEBUG預設值為False,如果啟用,Scrapy將記錄所有在request(Cookie 請求頭)發
        # 送的cookies及response接收到的cookies(Set-Cookie 接收頭)。
        if not crawler.settings.getbool('COOKIES_ENABLED'):
            raise NotConfigured
        return cls(crawler.settings.getbool('COOKIES_DEBUG'))

    def process_request(self, request, spider):
        if request.meta.get('dont_merge_cookies', False):
            return
        # 如果在request meta中使用了cookiejar, cookiejarkey為對應的標識.
        # 否則cookiejarkey為None
        cookiejarkey = request.meta.get("cookiejar")
        # 第一次執行jars會為每個key產生一個預設值cookiejar對象.預設為{None: cookiejar}
        jar = self.jars[cookiejarkey]    
       # 見下麵_get_request_cookies()方法
        cookies = self._get_request_cookies(jar, request)
        for cookie in cookies:
            jar.set_cookie_if_ok(cookie, request)
        # set Cookie header
        request.headers.pop('Cookie', None)
        # 將cookie加入到request的headers中
        jar.add_cookie_header(request)
        self._debug_cookie(request, spider)

    def process_response(self, request, response, spider):
        if request.meta.get('dont_merge_cookies', False):
            return response
        # extract cookies from Set-Cookie and drop invalid/expired cookies
        cookiejarkey = request.meta.get("cookiejar")
        jar = self.jars[cookiejarkey]
       # 在請求允許的情況下(?),從response中提取cookie併入當前的cookiejar
        jar.extract_cookies(response, request)
        self._debug_set_cookie(response, spider)

        return response
    ...
    ...

    def _format_cookie(self, cookie):
        # 對以字典或字典的列表的形式傳入的cookie進行格式化
        cookie_str = '%s=%s' % (cookie['name'], cookie['value'])

        if cookie.get('path', None):
            cookie_str += '; Path=%s' % cookie['path']
        if cookie.get('domain', None):
            cookie_str += '; Domain=%s' % cookie['domain']

        return cookie_str

    def _get_request_cookies(self, jar, request):
        # 將request中cookies參數添加的cookie合併到當前的cookiejar中
        if isinstance(request.cookies, dict):
            cookie_list = [{'name': k, 'value': v} for k, v in \
                    six.iteritems(request.cookies)]
        else:
            cookie_list = request.cookies

        cookies = [self._format_cookie(x) for x in cookie_list]
        headers = {'Set-Cookie': cookies}
        # 使用剛纔獲取的cookie構造一個響應對象
        response = Response(request.url, headers=headers)
        # cookiejar.make_cookies方法從response中提取cookie放入當前cookiejar中.
        return jar.make_cookies(response, request)

CookiesMiddleware預設情況下實現了cookie在請求-響應之間的流轉和填充.
又可以通過scrapy.Request(url, meta={'cookiejar': n})來實現單Spider多cookie.
通過讀源碼也解答了上一篇博文"Scrapy框架--cookie的獲取/傳遞/本地保存"中的疑惑.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • background: -webkit-linear-gradient(top,#ffffff,#f5f5f5); background: -moz-linear-gradient(top,#ffffff,#f5f5f5); background: -webkit-gradient(linear, ... ...
  • --> ...
  • 單列模式是設計模式中使用最為普遍的模式之一,它是一種對象創建模式,用於產生一個對象的實例,它可以確保一個類只產生一個實例。 單例模式的兩大好處: 1.對於頻繁使用的對象,可以省略創建對象花費的時間。 2.因為new減少,所以對記憶體使用頻率降低,可以減少gc壓力,縮短jc停頓時間。 單例類實現方式:使 ...
  • Nginx 反向代理 負載均衡 虛擬主機配置 通過本章你將學會利用Nginx配置多台虛擬主機,清楚代理伺服器的作用,區分正向代理和反向代理的區別,搭建使用Nginx反向搭理和負載均衡,瞭解Nginx常用配置的說明。即學即用,你還在等什麼?一睹為快先瞭解Nginx的三大功能 Nginx 可以作為一臺h ...
  • 什麼是消息隊列 消息是指在兩個獨立的系統間傳遞的數據,這兩個系統可以是兩台電腦,也可以是兩個進程。 消息可以非常簡單,可以是簡單的字元串,也可以是保存了數據持久化的各種類型的文檔集合。 隊列是在消息的傳輸過程中的通道,是保存消息的容器,根據不同的情形,可以有先進先出,優先順序隊列等區別 。 為什麼使 ...
  • urllib庫對照速查表 Python2.X Python3.X urllib urllib.request, urllib.error, urllib.parse urllib2 urllib.request, urllib.error urllib2.urlopen urllib.request ...
  • C++中rand()函數可以用來產生隨機數,但是是屬於偽隨機數。 rand()函數用法: 在使用rand()函數的時候,首先需要包含頭文件#include<stdlib.h>,用法是int rand(void),產生的隨機數範圍是0~65536,類型為unsigned int,不能超過範圍。rand ...
  • [ERROR] COMPILATION ERROR : [INFO] [ERROR] No compiler is provided in this environment. Perhaps you are running on a JRE rather than a JDK?[INFO] 1 er ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...