爬蟲框架Scrapy 之(一) --- scrapy初識

-Advertisement-

Scrapy框架簡介 scrapy是基於Twisted的一個第三方爬蟲框架，許多功能已經被封裝好，方便提取結構性的數據。其可以應用在數據挖掘，信息處理等方面。提供了許多的爬蟲的基類，幫我們更簡便使用爬蟲。 Scrapy 的組成部分： 1. 引擎、2.下載器、3. 爬蟲、4. 調度器、5. 管道（it ...

Scrapy框架簡介

scrapy是基於Twisted的一個第三方爬蟲框架，許多功能已經被封裝好，方便提取結構性的數據。其可以應用在數據挖掘，信息處理等方面。提供了許多的爬蟲的基類，幫我們更簡便使用爬蟲。

Scrapy 的組成部分： 1. 引擎、2.下載器、3. 爬蟲、4. 調度器、5. 管道（item和pipeline）

　　以上五部分只需要關註爬蟲和管道即可

spiders：蜘蛛或爬蟲，分析網頁的地方，主要的代碼寫在這裡
管道：包括item和pipeline，用於處理數據
引擎：用來處理整個系統的數據流，觸發各種事務（框架的核心）
下載器：用於下載網頁內容，並且返回給蜘蛛（下載器基於Twisted的高效非同步模型）
調度器：用來接收引擎發過來的請求，壓入隊列中等處理任務

Scrapy框架安裝

Mac安裝步驟

安裝依賴庫Twisted。打開終端 pip install twisted
安裝其框架Scrapy。 pip install scrapy

wid安裝步驟

線上安裝和Mac相同, pip install twisted
離線安裝需要在網站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下載響應的版本，然後想下載好的文件拖到 pip install 後面
安裝其框架和Mac相同
安裝 pip install pywin32

Scrapy工程創建

工程創建：

首先在終端 cd到存放的目錄下
創建項目： scrapy startproject 項目名。
然後在pycharm中打開此項目(空工程)
創建爬蟲： scrapy genspider 爬蟲名功能變數名稱
運行爬蟲 scrapy crawl 爬蟲名 [-o xx.json/xml/csv]

工程配置運行：

根據需求編寫item
在spiders裡面解析數據
在管道中處理解析完的數據

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

python：前端（HTML）+後端（Django）+資料庫（MySQL）

1、創建一個html文件用於簡單的網頁註冊demo 2、創建一個html文件用於簡單的網頁登錄demo 3、創建一個Django項目，並將剛纔的兩個html文件放入template模板文件夾中 4、打開Django項目下預設生成的urls.py文件，進行一些業務功能的編輯 5、運行整個Django項 ...
Redis主從同步要深入理解？一篇文章足矣！

前言：今天想和大家分享有關 Redis 主從同步（也稱「複製」）的內容。我們知道，當有多台 Redis 伺服器時，肯定就有一臺主伺服器和多台從伺服器。一般來說，主伺服器進行寫操作，從伺服器進行讀操作。那麼這裡有存在一個問題：從伺服器如何和主伺服器進行數據同步的呢？這個問題，就是通過今天的內容 ...
爬蟲框架Scrapy 之(三) --- scrapy函數

新建爬蟲文件在pycharm中打開scrapy的空項目，點擊“Terminal” 。然後創建一個爬蟲文件 scrapy genspider 爬蟲文件名功能變數名稱打開爬蟲文件引擎驅動過程 ...
Java 學習筆記 Junit4單元測試使用

Junit使用 1.導入Junit包到官網下載個文件，放在目錄或者在類的空白處打，之後按下 ,選擇添加依賴之後就會彈出一個視窗，搜索網上jar包，記得把那個Download to的選項勾選上，這樣jar包之後就會通過maven倉庫下載到當前項目的lib目錄下 2. 創建test目錄與 ...
lambda表達式，map函數

lambda只是一個表達式，不需要定義函數，故也是匿名函數，用法為：lambda 參數：表達式。測試結果： map函數，它接收一個函數和若幹個序列，返回新的序列，用法為map(function，iterable1,iterable2,...)，function為函數表達式，這樣就可以跟lambda ...
入門級 JAVA反射機制

1.什麼是反射？ Java中的反射機制是Java語言的一個很重要的特性，是Java “動態性” 的重要體現。Java反射機制讓我們在程式運行狀態中，對於任意一個類，都能知道這個類的所有屬性和方法；對於任意一個對象，都能調用他的任意一個方法。這種動態獲取屬性以及動態調用對象方法的功能就是“Java的反 ...
爬蟲框架Scrapy 之(二) --- scrapy文件

框架簡介目錄結構項目處理項目創建處理，裡面是沒有爬蟲的，我們需要通過指令來創建一個爬蟲： cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事後，就會在firstSpider/firstS ...
MFC新建工程中目錄包含中文，資源文件打開失敗

※儘量不適用中文，各種未知錯誤，嘿嘿此方法臨時解決問題，可以使程式運行，後續是否還有錯誤是未知數需要修改3處位置： 1.資源文件中.rc 右鍵，點擊“查看代碼”，找到帶中文的資源ID，把中文修改掉 2.資源頭文件中Resource.h 找到帶中文的資源ID，把中文修改掉 3.DialogEx派生 ...