Scrapy快速上手_ZenDei技術網路在線

Scrapy快速上手

-Advertisement-

超詳細官方教程解析 https://blog.csdn.net/fly_yr/article/details/51540269 實戰過程：【1】創建Scrapy項目 scrapy startproject TestDemo 若進入到相應的文件目錄下，在地址欄輸入cmd進入命令行界面，輸入以上命令， ...

超詳細官方教程解析

https://blog.csdn.net/fly_yr/article/details/51540269

實戰過程：

創建一個Scrapy項目
定義提取的Item
編寫爬取網站的 spider 並提取 Item
編寫 Item Pipeline 來存儲提取到的Item(即數據)

【1】創建Scrapy項目

scrapy startproject TestDemo

若進入到相應的文件目錄下，在地址欄輸入cmd進入命令行界面，輸入以上命令，則會在相應的文件目錄下建立一個項目

創建spider.py命令：scrapy genspider -t basic 名字網址

也可以手動創建

運行爬蟲時，在項目所在目錄的地址欄cmd，進入，輸入 scrapy crawl 爬蟲名字；

否則可能會提示沒找到該命令

其他相關命令

【2】定義Item容器

添加欄位位置

先建模 //左是名字右邊是占位符

【3】編寫爬蟲：

實現爬蟲的python文件應該在spiders文件夾下

#def parse是回調函數，從Downloader返回response後，接受response而執行的方法；分別裁剪xx作為文件名,將網頁的<body>內容保存至兩個文件；

【3-1】爬“取”： ---------利用Xpath

XPath舉例：

【3-2】重寫spider的分析方法 【原方法是為了保存，驗證用】

【4】將數據存放到Item容器中

【5】導出保存

scrapy crawl domz -o items.json -t json

#-o 指導出後跟文件名字【需要尾碼】

#-t 表示導出的格式，此處用json

#此處代碼意思是，運行爬蟲domz，並以json格式導出保存為items.json

實戰中註意點：

1. 剛開始入門的時候，要爬取能爬的網站。。。有些是有反爬蟲機制的，不然還會以為是代碼錯了導致沒爬到數據

2. xpath() 中：

比如爬<html><head><title>xxx 的內容，

如果已經sites = sel.xpath('/html/head/title')

接下來用site = sites.xpath('text()').extract() 即可獲取Selector對象的列表字元串化後的unicode字元串

而不是site = sites.xpath('/text()').extract() 或者 site = sites.xpath('title/text()').extract()

3.定義Item容器中，要和存放容器時使用的一致，不可無中生有

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

學習筆記—JDBC

JDBC的使用流程，通過JDBC進行對資料庫增刪改查的操作及代碼封裝。 ...
loj#6073. 「2017 山東一輪集訓 Day5」距離(費用流)

題意 "題目鏈接" Sol 我們可以把圖行列拆開，同時對於行/列拆成很多個聯通塊，然後考慮每個點所在的行聯通塊/列聯通塊的貢獻。可以這樣建邊從S向每個行聯通塊連聯通塊大小條邊，每條邊的容量為1，費用為$i$(i表示這是第幾條邊)。從每個點所在的行聯通塊向列聯通塊連邊，容量為1，費用為0 從每個 ...
上次被人說TK不好咯，這次給你整個高大上的

想要熟練使用PyQt，還是需要深入研究下這個庫的使用，筆者這裡只是拋磚引玉。關註公眾號「**Python專欄**」，後臺回覆：**zsxq06**，獲取本文全套代碼。 ...
Read a large file with python

python讀取大文件 1. 較pythonic的方法，使用with結構文件可以自動關閉異常可以在with塊內處理 <! more 最大的優點：對可迭代對象 f，進行迭代遍歷：for line in f，會自動地使用緩衝IO（buffered IO）以及記憶體管理，而不必擔心任何大文件的問題。 ...
Markdown編輯器語言——30分鐘入門到到精通

一、簡要說明開篇說明其實吧這是我人生中寫的第一篇博客，我也不知道怎麼排版和編輯讓博文顯示的更加美觀，現在正在學Markdown編輯語法，也是剛剛學編程的一個小菜鳥，目前是大二的在校生，我的初衷是把我平時所學的知識都像做筆記一樣寫下來，讓以後在學習更多知識的時候回來一看，舊的知識就可以鞏固回來了， ...
Java 集合系列（二）—— ArrayList

ArrayList ArrayList 是通過一個數組來實現的，因此它是在連續的存儲位置存放對象的引用，只不過它比 Array 更智能，能夠根據集合長度進行自動擴容。假設讓我們來實現一個簡單的能夠自動擴容的數組，我們最容易想到的點就是：實際上，ArrayList的內部實現原理也是這樣子，我們可以 ...
停止使用非版本控制的可執行代碼

開發世界現在有很多反設計模式的開發方式，比如使用可執行代碼文件作為配置文件。 ...
springboot之旅第二篇-配置

一、引言雖然springboot幫我們進行了自動配置，但配置還是不可避免的，比如最簡單的埠號，資料庫連接。但springboot的配置一般不用xml進行配置，而是yml和properties，選擇他們當然是因為他們更方便。 YAML（YAML Ain't Markup Language）是以數據 ...