Pyspider的基本使用 -- 入門_ZenDei技術網路在線

Pyspider的基本使用 -- 入門

-Advertisement-

簡介一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI 採用Python語言編寫，分散式架構，支持多種資料庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器官方文檔：http://docs.pyspider.org/en/latest/ 安裝 pip install ...

簡介

一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI
採用Python語言編寫，分散式架構，支持多種資料庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器
官方文檔：http://docs.pyspider.org/en/latest/

安裝

pip install pyspider
安裝失敗的解決方法

啟動服務

命令視窗輸入pyspider

打開Web界面

瀏覽器輸入localhost:5000

創建項目

刪除項目

刪除某個：設置 group 為 delete ，status 為 stop ，24小時之後自動刪除
刪除全部：在啟動服務的路徑下，找到它自己生成的data目錄，直接刪除目錄里的所有文件

禁止證書驗證

加上參數 validate_cert = False

使用方法

on_start(self)
- 入口方法，run的時候，預設會調用
crawl()
- 生成一個新的爬取請求，類似於scrapy.Request，接受的參數是ur1和callback
@every(minutes=2, seconds=30)
- 告訴scheduler兩分30秒執行一次
@config(age=10 * 24 * 60 * 60)
- 告訴調度器（單位：秒）、這個請求過期時間是10天、10天之內不會再次請求
@config(priority=2)
- 優先順序、數字越大越先執行
age寫在函數裡面跟寫在裝飾器上的區別
- 寫在函數裡面的後執行，下圖實際過期時間為5秒，若函數里沒有age，則為裝飾器里定義的20秒

執行任務

完成腳本編寫，調試無誤後，先save腳本，然後返回到控制台首頁
直接點擊項目狀態status那欄，把狀態由TODO改成DEBUG或RUNNING
最後點擊項目最右邊的Run按鈕啟動項目

對接phantomjs

將phantomjs.exe放在Python環境根目錄下，或者將所在目錄添加到系統的環境變數
添加成功，啟動服務時，會顯示如下信息

沒使用js渲染

使用js渲染

添加參數 fetch_type = 'js'

其它

rate/burst
- rate：一秒鐘執行的請求個數
- burst：併發的數量
- 例如：2/5、每秒兩個請求，併發數量為5，即每秒10個請求
設置渲染的web頁面的高度
- 在源代碼里修改css樣式即可（#tab-web iframe）
- css文件路徑：python安裝目錄下 Lib\site-packages\pyspider\webui\static 里的 debug.min.css

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C++ 一篇搞懂繼承的常見特性

繼承和派生 01 繼承和派生的概念繼承：在定義一個新的類 B 時，如果該類與某個已有的類 A 相似（指的是 B 擁有 A 的全部特點），那麼就可以把 A 作為一個基類，而把B作為基類的一個派生類（也稱子類）。派生類：派生類是通過對基類進行修改和擴充得到的，在派生類中，可以擴充新的成員變數和成 ...
Logback的AsyncAppender與RollingFileAppender流程解析

通過對Logback的AsyncAppender以及RollingFileAppender源碼進行解析，學習Logback對文件IO的操作細節 ...
django 自定義模版過濾器

自定義的模版過濾器必須要放在app中，並且該app必須在INSTALLED_APPS中進行安裝。然後再在這個app下麵創建一個python包叫做templatetags（這個名字是固定的，不能隨意更改）。再在這個包下麵創建一個python文件。然後在這個文件中寫過濾器。過濾器實際上就是python ...
Python棧溢出【新手必學】

python3.5.4 遞歸函數最噁心的時候莫非棧溢出(Stack overflow)。PS:另外很多人在學習Python的過程中，往往因為沒有好的教程或者沒人指導從而導致自己容易放棄，為此我建了個Python交流.裙：一久武其而而流一思（數字的諧音）轉換下可以找到了，裡面有最新Python教程項 ...
JVM探秘：四種引用、對象的生存與死亡

本系列筆記主要基於《深入理解Java虛擬機：JVM高級特性與最佳實踐第2版》，是這本書的讀書筆記。 Java虛擬機的記憶體區域中，程式計數器、Java棧和本地方法棧是線程私有的，隨線程而生隨線程而滅，因此這幾個區域的記憶體回收和分配都有確定性，所以主要探究的是Java堆和方法區的記憶體分配及回收。 Ja ...
Markdown

Markdown MarkDown用法/註意事項備忘本文用於記錄Markdown的編寫規範與心得，包含vscode相關的配置。原文是用markdown格式寫的，稍微改了下發了博客，格式可能會很奇怪。。 Markdown是一種輕量級的標記語言。標記語言(Markup Language)是一種將文本以 ...
PHP+MySQL實現線上測試答題實例

這個實例主要給大家介紹如何使用jQuery+PHP+MySQL來實現線上測試題，包括動態讀取題目，答題完畢後臺評分，並返回答題結果。 ...
手寫MQ框架（四）-使用netty改造梳理

新手應該怎樣使用netty？如果將http服務（不含頁面）改造為使用socket的服務？ ...