Scrapy持久化存儲

来源:https://www.cnblogs.com/zycorn/archive/2019/01/16/10273797.html
-Advertisement-
Play Games

基於終端指令的持久化存儲 保證爬蟲文件的parse方法中有可迭代類型對象(通常為列表or字典)的返回,該返回值可以通過終端指令的形式寫入指定格式的文件中進行持久化操作; 執行輸出指定格式進行存儲:將爬取到的數據寫入不同格式的文件中進行存儲 基於管道的持久化存儲 scrapy框架中已經為我們專門集成好 ...


基於終端指令的持久化存儲

  保證爬蟲文件的parse方法中有可迭代類型對象(通常為列表or字典)的返回,該返回值可以通過終端指令的形式寫入指定格式的文件中進行持久化操作;

執行輸出指定格式進行存儲:將爬取到的數據寫入不同格式的文件中進行存儲

    scrapy crawl 爬蟲名稱 -o xxx.json
    scrapy crawl 爬蟲名稱 -o xxx.xml
    scrapy crawl 爬蟲名稱 -o xxx.csv

基於管道的持久化存儲

  scrapy框架中已經為我們專門集成好了高效、便捷的持久化操作功能,我們直接使用即可:

       items.py : 數據結構模板文件,定義數據屬性;

    pipelines.py : 管道文件,接受item類型的數據,進行持久化操作;

持久化流程:

  1. 在爬蟲文件中獲取到數據後,將數據封裝到 items對象中;
  2. 通過 yield 關鍵字將items對象提交給pipelines管道進行持久化操作;
  3. 在管道文件中的process_item方法中接收爬蟲文件提交過來的item對象,然後編寫持久化存儲的代碼將item對象存儲的數據進行持久化存儲;

settings.py文件中開啟管道:

ITEM_PIPELINES = {
    'qiubaiPro.pipelines.QiubaiproPipelineByRedis': 300,
}

終端持久化存儲示例:

  將糗事百科首頁中的段子和作者數據爬取下來,然後進行持久化存儲

爬蟲程式

# -*- coding: utf-8 -*-
import scrapy


class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['www.qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        div_list = response.xpath('//div[@id="content-left"]/div')
        all_data = []
        # xpath返回的列表元素類型為Selector類型
        for div in div_list:
            # title = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()')[0].extract()
            author = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
            content = div.xpath('./a[1]/div/span/text()').extract_first()

            dic = {
                'author': author,
                'content': content
            }

            all_data.append(dic)
        # 基於終端指令的持久化存儲:可以通過終端指令的形式將parse方法的返回值中存儲的數據進行本地磁碟的持久化存儲
        return all_data

settings

BOT_NAME = 'qiubaiPro'
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
SPIDER_MODULES = ['qiubaiPro.spiders']
NEWSPIDER_MODULE = 'qiubaiPro.spiders'
ROBOTSTXT_OBEY = False

執行:

scrapy crawl qiubai -o qiubai.csv

執行完之後的結果:

管道持久化存儲示例:

爬取Boss直聘網中Python爬蟲崗位的職位名稱,薪資,公司名稱

爬蟲程式

# -*- coding: utf-8 -*-
import scrapy
from bossPro.items import BossproItem


class BossSpider(scrapy.Spider):
    name = 'boss'
    allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.zhipin.com/job_detail/?query=Python爬蟲&scity=101010100&industry=&position=']

    def parse(self, response):
        li_list = response.xpath('//div[@class="job-list"]/ul/li')
        for li in li_list:
            title = li.xpath('.//div[@class="info-primary"]/h3[@class="name"]/a/div/text()').extract_first()
            salary = li.xpath('.//div[@class="info-primary"]/h3[@class="name"]/a/span/text()').extract_first()
            company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()

            # 實例化一個item類型的對象
            item = BossproItem()
            # 將解析到的數據存儲到item對象中
            item["title"] = title
            item["salary"] = salary
            item["company"] = company

            # 將item對象提交給管道進行持久化存儲
            yield item

items

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BossproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    salary = scrapy.Field()
    company = scrapy.Field()

pipelines

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 管道文件:需要接收爬蟲文件提交過來的數據,並對數據進行持久化存儲.(IO操作)
class BossproPipeline(object):
    fp = None
    # 只會被執行一次(開始爬蟲的時候執行一次)
    def open_spider(self,spider):
        print("開始爬蟲")
        self.fp = open('./job.txt','w',encoding='utf-8')
    # 爬蟲文件每提交一次,該方法就會被調用一次
    def process_item(self, item, spider): #300表示為優先順序,值越小優先順序越高
        self.fp.write(item['title'] + "\t" + item['salary'] + '\t' + item['company'] + '\n')
        return item
    # 結束爬蟲時執行
    def close_spider(self,spider):
        self.fp.close()
        print("爬蟲結束")

# 註意:預設情況下,管道機制並沒有開啟,需要手動在配置文件中進行開啟

# 使用管道進行持久化的流程:
#   1.獲取解析到的數據
#   2.將解析的數據存儲到item對象(item類中進行相關屬性的聲明)
#   3.通過yield關鍵字將item提交到管道
#   4.管道文件中進行持久化存儲代碼的編寫(process_item)
#   5.在配置文件中開啟管道

settings

#開啟管道
ITEM_PIPELINES = {
    'secondblood.pipelines.SecondbloodPipeline': 300, #300表示為優先順序,值越小優先順序越高
}

執行:

scrapy crawl boss --nolog

基於MySQL的持久化存儲

pipelines

import pymysql
class mysqlPipeline(object):
    conn = None
    cursor = None
    def open_spider(self,spider):
        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='', db='spider')
        print(self.conn)
    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()
        sql = 'insert into boss values("%s","%s","%s")'%(item['title'],item['salary'],item['company'])
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print (e)
            self.conn.rollback()

    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

settings

# 開啟管道,自定義管道向不用的資料庫存儲數據
# 300是優先順序,數字越小,優先順序越高
 
ITEM_PIPELINES = {
   'boss.pipelines.BossPipeline': 300,
   'boss.pipelines.mysqlPipeLine': 301,
}

執行爬蟲程式,並去資料庫中查看數據

基於redis管道存儲

 pipelines

from redis import Redis
class RedisPipeline(object):
    conn = None
    def process_item(self,item,spider):
        dic = {
            "title":item["title"],
            "salary":item["salary"],
            "company":item["company"]
        }
        self.conn.lpush("jobInfo",json.dumps(dic))
    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)
        print (self.conn)

settings

ITEM_PIPELINES = {
   #'bossPro.pipelines.BossproPipeline': 300,
   #'bossPro.pipelines.mysqlPipeline': 301,
   'bossPro.pipelines.RedisPipeline': 302,
}

執行代碼並且查看redis中的數據

redis已經存在數據了,因為編碼問題所以不顯示中文.

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、WebSocket與HTTP長輪詢 WebSocket 屬於HTML5 規範的一部分,提供的一種在單個 TCP 連接上進行全雙工通訊的協議。允許服務端主動向客戶端推送數據。在 WebSocket API 中,瀏覽器和伺服器只需要完成一次握手,兩者之間就直接可以創建持久性的連接,併進行雙向數據傳輸 ...
  • 在前面幾篇討論里我們介紹了在集群環境里的一些編程模式、分散式數據結構及具體實現方式。到目前為止,我們已經實現了把程式任務分配給處於很多伺服器上的actor,能夠最大程度的利用整體系統的硬體資源。這是因為通過akka-cluster能夠把很多伺服器組合成一個虛擬的整體系統,編程人員不需要知道負責運算的 ...
  • 引言 logging 的基本用法網上很多,這裡就不介紹了。在引入正文之前,先來看一個需求: 假設需要將某功能封裝成類庫供他人使用,如何處理類庫中的日誌? 數年前在一個 C# 開發的項目中,我用了這樣的方法:定義一個 logging 基類,所有需要用到日誌的類都繼承這個基類,這個基類中定義一個 Log ...
  • 背景:聽說ClassLoader類載入機制是進入BAT的必經之路。 ClassLoader總述: 普通的Java開發其實用到ClassLoader的地方並不多,但是理解透徹ClassLoader類的載入機制,無論是對我們編寫更高效的代碼還是進BAT都大有裨益;而從“黃埔軍校”出來的我對ClassLo ...
  • 近日在虛擬機下的QT5.11.2安裝出現了一個bug,折騰好久才搞定。 環境:vmware + debain 9.5 + qt5.11.2 。 QT_DIR = /Qt5.11.2/5.11.2/gcc_64/mkspecs 找了各大網站、博客,基本都是說直接安裝openGL的,然而我的虛擬機安裝o ...
  • 前面介紹瞭如何從Bird類繼承而來Swallow類,按道理子類應當繼承父類的所有要素,但是對於構造方法來說,Swallow類僅僅繼承了Bird類的預設構造方法,並未自動繼承帶參數的構造方法。如果子類想繼續使用父類的其它構造方法,就得自己重寫心儀的構造方法。例如老鷹屬於鳥類,那麼可以編寫繼承自Bird ...
  • 在前面有篇博客,我寫了一個叫forms組件的東西,可以幫助我們完成校驗數據、渲染標簽功能和在前端頁面局部刷新功能,功能封裝的已經很好了,當時已經很開心了。但萬萬沒想到,還有比它功能更強大的東西。forms組件只能渲染出type=text類型的標簽,而且還要我們寫無數多個欄位,然後跟上校驗條件,用fo ...
  • 1. 有一個已經排好序的列表。現輸入一個數,要求按原來的規律將它插入列表中 分析:已經排好序的列表也可能是升序也可能是降序,需要先確定列表的排序方式以升序為例,需要考慮4主要種情況: Case1:小於列表的第一個值,則插入第一個 如s=[2,3,4],插入1,則結果應該為[1,2,3,4],1插入的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...