scrapy框架爬蟲_ZenDei技術網路在線

scrapy框架爬蟲

-Advertisement-

一、什麼是scrapy？ Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試. 其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，後臺也應用在獲取API所返回的 ...

一、什麼是scrapy？

　　Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試.

　　其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，後臺也應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲.

Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支持.

二、Scrapy五大基本構成:
Scrapy框架主要由五大組件組成，它們分別是調度器(Scheduler)、下載器(Downloader)、爬蟲（Spider）和實體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下麵我們分別介紹各個組件的作用。

　　(1)、調度器(Scheduler):

　　調度器，說白了把它假設成為一個URL（抓取網頁的網址或者說是鏈接）的優先隊列，由它來決定下一個要抓取的網址是什麼，同時去除重覆的網址（不做無用功）。用戶可以自己的需求定製調度器。

　　(2)、下載器(Downloader):

　　下載器，是所有組件中負擔最大的，它用於高速地下載網路上的資源。Scrapy的下載器代碼不會太複雜，但效率高，主要的原因是Scrapy下載器是建立在twisted這個高效的非同步模型上的(其實整個框架都在建立在這個模型上的)。

　　(3)、爬蟲（Spider）:

　　爬蟲，是用戶最關心的部份。用戶定製自己的爬蟲(通過定製正則表達式等語法)，用於從特定的網頁中提取自己需要的信息，即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面。

　　(4)、實體管道(Item Pipeline):

　　實體管道，用於處理爬蟲(spider)提取的實體。主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。

　　(5)、Scrapy引擎(Scrapy Engine):

　　Scrapy引擎是整個框架的核心.它用來控制調試器、下載器、爬蟲。實際上，引擎相當於電腦的CPU,它控制著整個流程

三、scrap框架架構圖

四、Scrapy安裝以及生成項目

1、安裝scrapy框架所需jar包：

打開終端cmd，依次執行如面幾條指令：

　　python -m pip install --upgrade pip

　　pip install wheel

　　pip install lxml

　　pip install twisted

　　pip install pywin32

　　pip install scrapy

2、創建項目

　　scrapy startproject 項目名

　　scrapy genspider 爬蟲名 功能變數名稱

　　scrapy crawl 爬蟲名

工程目錄：

|-ProjectName #項目文件夾

　　|-ProjectName #項目目錄

　　　　|-items.py #定義數據結構

　　　　|-middlewares.py #中間件

　　　　|-pipelines.py #數據處理

　　　　|-settings.py #全局配置

　　　　|-spiders

　　　　　　|-__init__.py #爬蟲文件

　　　　　　|-baidu.py

　　|-scrapy.cfg #項目基本配置文件

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

設計模式之：享元模式FlyweightPattern的實現

享元模式的理解：享元模式的定義：運用共用技術支持大量細粒度對象的復用； Flyweight Pattern Definition：Use sharing to support large numbers of fine-grained efficiently. 享元模式關鍵詞：大量、細粒度、復用、 ...
Java面向對象（上）

Java面向對象（上）一、面向對象的思想 1、面向過程：面向過程就是分析出解決問題所需要的步驟，然後用函數把這些步驟逐一實現，使用的時候依次調用就可以了。 2、面向對象：面向對象就是把構成問題的事物按照一定規則劃分為多個獨立的對象，然後通過調用對象的方法來解決問題。 3、面向對象的特點：（1 ...
多屏時在瀏覽器外部(非活動視窗)通過按鍵控制視頻播放、激活非活動視窗併發送模擬按鍵

不用滑鼠先點擊激活視窗，直接全局快捷鍵控製程序。比如在敲代碼、寫markdown的時候想改變正在播放的視頻播放進度，原本是要點擊一下瀏覽器再拖動滾動條，現在只需要按下按鍵即可控制。 ...
【合集】Python基礎知識【第二版】

博客推行版本更新，成果積累制度，已經寫過的博客還會再次更新，不斷地琢磨，高質量高數量都是要追求的，工匠精神是學習必不可少的精神。因此，大家有何建議歡迎在評論區踴躍發言，你們的支持是我最大的動力，你們敢投，我就敢肝 ...
IO流（序列化流和反序列化流）

序列化流：把對象按照流一樣的方式存入文本文件或者在網路中傳輸。對象 -- 流數據(ObjectOutputStream) * 反序列化流:把文本文件中的流對象數據或者網路中的流對象數據還原成對象。流數據 -- 對象(ObjectInputStream) package cn.itcast_07; i ...
java中String.intern()方法具有什麼功能呢？

SpringBoot筆記 1.開端介紹 1.兩種核心配置文件同時存在(properties的優先順序高於yml) 2.多環境下核心配置文件 3.獲取自定義配置 4.將自定義配置映射到對象 5.springboot集成jsp <!--引入springboot內嵌Tomcat對jsp的解析依賴，不添加解析 ...
IO流（其餘流的介紹）

可以讀寫基本數據類型的數據 * 數據輸入流：DataInputStream * DataInputStream(InputStream in) * 數據輸出流：DataOutputStream * DataOutputStream(OutputStream out) package cn.itcas ...
java中如何對二進位數進行相加呢？

最近棧長看到各種 Firefox 瀏覽器禁止中國用戶的消息，簡單說就是 Firefox 中國無法使用去廣告插件。這到底是怎麼回事呢？我於是去 Firefox 搜索了去廣告插件：比如說打開第一個：AdGuard AdBlocker：還真的不能用了，什麼鬼？？打開網路面板，看看頁面的響應信息： ...