Scrapy框架簡介 scrapy是基於Twisted的一個第三方爬蟲框架,許多功能已經被封裝好,方便提取結構性的數據。其可以應用在數據挖掘,信息處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。 Scrapy 的組成部分: 1. 引擎、2.下載器、3. 爬蟲、4. 調度器、5. 管道(it ...
Scrapy框架簡介
scrapy是基於Twisted的一個第三方爬蟲框架,許多功能已經被封裝好,方便提取結構性的數據。其可以應用在數據挖掘,信息處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。
Scrapy 的組成部分: 1. 引擎、2.下載器、3. 爬蟲、4. 調度器、5. 管道(item和pipeline)
以上五部分 只需要關註 爬蟲和管道 即可
- spiders:蜘蛛或爬蟲,分析網頁的地方,主要的代碼寫在這裡
- 管道: 包括item和pipeline,用於處理數據
- 引擎: 用來處理整個系統的數據流,觸發各種事務(框架的核心)
- 下載器: 用於下載網頁內容,並且返回給蜘蛛(下載器基於Twisted的高效非同步模型)
- 調度器: 用來接收引擎發過來的請求,壓入隊列中等處理任務
Scrapy框架安裝
Mac安裝步驟
- 安裝依賴庫Twisted。 打開終端 pip install twisted
- 安裝其框架Scrapy。 pip install scrapy
wid安裝步驟
- 線上安裝和Mac相同, pip install twisted
- 離線安裝 需要在網站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下載響應的版本,然後想下載好的文件拖到 pip install 後面
- 安裝其框架和Mac相同
- 安裝 pip install pywin32
Scrapy工程創建
工程創建:
- 首先 在終端 cd到存放的目錄下
- 創建項目: scrapy startproject 項目名。
- 然後 在pycharm中打開此項目(空工程)
- 創建爬蟲: scrapy genspider 爬蟲名 功能變數名稱
- 運行爬蟲 scrapy crawl 爬蟲名 [-o xx.json/xml/csv]
工程配置運行:
- 根據需求編寫item
- 在spiders裡面解析數據
- 在管道中處理解析完的數據