Scrapy持久化存儲_ZenDei技術網路在線

Scrapy持久化存儲

-Advertisement-

基於終端指令的持久化存儲保證爬蟲文件的parse方法中有可迭代類型對象（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的文件中進行持久化操作; 執行輸出指定格式進行存儲：將爬取到的數據寫入不同格式的文件中進行存儲基於管道的持久化存儲 scrapy框架中已經為我們專門集成好 ...

基於終端指令的持久化存儲

　　保證爬蟲文件的parse方法中有可迭代類型對象（通常為列表or字典）的返回，該返回值可以通過終端指令的形式寫入指定格式的文件中進行持久化操作;

執行輸出指定格式進行存儲：將爬取到的數據寫入不同格式的文件中進行存儲

    scrapy crawl 爬蟲名稱 -o xxx.json
    scrapy crawl 爬蟲名稱 -o xxx.xml
    scrapy crawl 爬蟲名稱 -o xxx.csv

基於管道的持久化存儲

　　scrapy框架中已經為我們專門集成好了高效、便捷的持久化操作功能，我們直接使用即可：

　　　 items.py : 數據結構模板文件，定義數據屬性；

　　　　pipelines.py ：管道文件，接受item類型的數據，進行持久化操作；

持久化流程：

在爬蟲文件中獲取到數據後，將數據封裝到 items對象中；
通過 yield 關鍵字將items對象提交給pipelines管道進行持久化操作；
在管道文件中的process_item方法中接收爬蟲文件提交過來的item對象，然後編寫持久化存儲的代碼將item對象存儲的數據進行持久化存儲；

settings.py文件中開啟管道：

ITEM_PIPELINES = {
    'qiubaiPro.pipelines.QiubaiproPipelineByRedis': 300,
}

終端持久化存儲示例：

　　將糗事百科首頁中的段子和作者數據爬取下來，然後進行持久化存儲

爬蟲程式

# -*- coding: utf-8 -*-
import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        div_list = response.xpath('//div[@id="content-left"]/div')
        all_data = []
        # xpath返回的列表元素類型為Selector類型
        for div in div_list:
            # title = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()')[0].extract()
            author = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
            content = div.xpath('./a[1]/div/span/text()').extract_first()

            dic = {
                'author': author,
                'content': content
            }

            all_data.append(dic)
        # 基於終端指令的持久化存儲:可以通過終端指令的形式將parse方法的返回值中存儲的數據進行本地磁碟的持久化存儲
        return all_data

settings

BOT_NAME = 'qiubaiPro'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
SPIDER_MODULES = ['qiubaiPro.spiders']
NEWSPIDER_MODULE = 'qiubaiPro.spiders'
ROBOTSTXT_OBEY = False

執行:

scrapy crawl qiubai -o qiubai.csv

執行完之後的結果:

管道持久化存儲示例:

爬取Boss直聘網中Python爬蟲崗位的職位名稱,薪資,公司名稱

爬蟲程式

# -*- coding: utf-8 -*-
import scrapy
from bossPro.items import BossproItem


class BossSpider(scrapy.Spider):
    name = 'boss'
    allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.zhipin.com/job_detail/?query=Python爬蟲&scity=101010100&industry=&position=']

    def parse(self, response):
        li_list = response.xpath('//div[@class="job-list"]/ul/li')
        for li in li_list:
            title = li.xpath('.//div[@class="info-primary"]/h3[@class="name"]/a/div/text()').extract_first()
            salary = li.xpath('.//div[@class="info-primary"]/h3[@class="name"]/a/span/text()').extract_first()
            company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()

            # 實例化一個item類型的對象
            item = BossproItem()
            # 將解析到的數據存儲到item對象中
            item["title"] = title
            item["salary"] = salary
            item["company"] = company

            # 將item對象提交給管道進行持久化存儲
            yield item

items

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BossproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    salary = scrapy.Field()
    company = scrapy.Field()

pipelines

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 管道文件:需要接收爬蟲文件提交過來的數據,並對數據進行持久化存儲.(IO操作)
class BossproPipeline(object):
    fp = None
    # 只會被執行一次(開始爬蟲的時候執行一次)
    def open_spider(self,spider):
        print("開始爬蟲")
        self.fp = open('./job.txt','w',encoding='utf-8')
    # 爬蟲文件每提交一次,該方法就會被調用一次
    def process_item(self, item, spider): #300表示為優先順序，值越小優先順序越高
        self.fp.write(item['title'] + "\t" + item['salary'] + '\t' + item['company'] + '\n')
        return item
    # 結束爬蟲時執行
    def close_spider(self,spider):
        self.fp.close()
        print("爬蟲結束")

# 註意:預設情況下,管道機制並沒有開啟,需要手動在配置文件中進行開啟

# 使用管道進行持久化的流程:
#   1.獲取解析到的數據
#   2.將解析的數據存儲到item對象(item類中進行相關屬性的聲明)
#   3.通過yield關鍵字將item提交到管道
#   4.管道文件中進行持久化存儲代碼的編寫(process_item)
#   5.在配置文件中開啟管道

settings

#開啟管道
ITEM_PIPELINES = {
    'secondblood.pipelines.SecondbloodPipeline': 300, #300表示為優先順序，值越小優先順序越高
}

執行:

scrapy crawl boss --nolog

基於MySQL的持久化存儲

pipelines

import pymysql
class mysqlPipeline(object):
    conn = None
    cursor = None
    def open_spider(self,spider):
        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='', db='spider')
        print(self.conn)
    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()
        sql = 'insert into boss values("%s","%s","%s")'%(item['title'],item['salary'],item['company'])
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print (e)
            self.conn.rollback()

    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

settings

# 開啟管道,自定義管道向不用的資料庫存儲數據
# 300是優先順序,數字越小,優先順序越高
 
ITEM_PIPELINES = {
   'boss.pipelines.BossPipeline': 300,
   'boss.pipelines.mysqlPipeLine': 301,
}

執行爬蟲程式,並去資料庫中查看數據

基於redis管道存儲

pipelines

from redis import Redis
class RedisPipeline(object):
    conn = None
    def process_item(self,item,spider):
        dic = {
            "title":item["title"],
            "salary":item["salary"],
            "company":item["company"]
        }
        self.conn.lpush("jobInfo",json.dumps(dic))
    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)
        print (self.conn)

settings

ITEM_PIPELINES = {
   #'bossPro.pipelines.BossproPipeline': 300,
   #'bossPro.pipelines.mysqlPipeline': 301,
   'bossPro.pipelines.RedisPipeline': 302,
}

執行代碼並且查看redis中的數據

redis已經存在數據了,因為編碼問題所以不顯示中文.

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

WebSocket整合SSM(Spring,Struts2,Maven)

一、WebSocket與HTTP長輪詢 WebSocket 屬於HTML5 規範的一部分，提供的一種在單個 TCP 連接上進行全雙工通訊的協議。允許服務端主動向客戶端推送數據。在 WebSocket API 中，瀏覽器和伺服器只需要完成一次握手，兩者之間就直接可以創建持久性的連接，併進行雙向數據傳輸 ...
Akka-Cluster（6）- Cluster-Sharding：集群分片，分散式交互程式核心方式

在前面幾篇討論里我們介紹了在集群環境里的一些編程模式、分散式數據結構及具體實現方式。到目前為止，我們已經實現了把程式任務分配給處於很多伺服器上的actor，能夠最大程度的利用整體系統的硬體資源。這是因為通過akka-cluster能夠把很多伺服器組合成一個虛擬的整體系統，編程人員不需要知道負責運算的 ...
Python： logging 的巧妙設計

引言 logging 的基本用法網上很多，這裡就不介紹了。在引入正文之前，先來看一個需求：假設需要將某功能封裝成類庫供他人使用，如何處理類庫中的日誌？數年前在一個 C# 開發的項目中，我用了這樣的方法：定義一個 logging 基類，所有需要用到日誌的類都繼承這個基類，這個基類中定義一個 Log ...
Java運行時環境---ClassLoader類載入機制

背景：聽說ClassLoader類載入機制是進入BAT的必經之路。 ClassLoader總述：普通的Java開發其實用到ClassLoader的地方並不多，但是理解透徹ClassLoader類的載入機制，無論是對我們編寫更高效的代碼還是進BAT都大有裨益；而從“黃埔軍校”出來的我對ClassLo ...
Linux下QT、cannot find -lGL、

近日在虛擬機下的QT5.11.2安裝出現了一個bug，折騰好久才搞定。環境：vmware + debain 9.5 + qt5.11.2 。 QT_DIR = /Qt5.11.2/5.11.2/gcc_64/mkspecs 找了各大網站、博客，基本都是說直接安裝openGL的，然而我的虛擬機安裝o ...
Java開發筆記（四十九）關鍵字super的用法

前面介紹瞭如何從Bird類繼承而來Swallow類，按道理子類應當繼承父類的所有要素，但是對於構造方法來說，Swallow類僅僅繼承了Bird類的預設構造方法，並未自動繼承帶參數的構造方法。如果子類想繼續使用父類的其它構造方法，就得自己重寫心儀的構造方法。例如老鷹屬於鳥類，那麼可以編寫繼承自Bird ...
Django之ModelForm

在前面有篇博客，我寫了一個叫forms組件的東西，可以幫助我們完成校驗數據、渲染標簽功能和在前端頁面局部刷新功能，功能封裝的已經很好了，當時已經很開心了。但萬萬沒想到，還有比它功能更強大的東西。forms組件只能渲染出type=text類型的標簽，而且還要我們寫無數多個欄位，然後跟上校驗條件，用fo ...
20190116-將特定數字插入一個已經排序好的序列並且不改變其排序規則

1. 有一個已經排好序的列表。現輸入一個數，要求按原來的規律將它插入列表中分析：已經排好序的列表也可能是升序也可能是降序，需要先確定列表的排序方式以升序為例，需要考慮4主要種情況： Case1:小於列表的第一個值，則插入第一個如s=[2,3,4],插入1，則結果應該為[1,2,3,4]，1插入的 ...