既然是Python程式員找美女，就要用python程式員的方法。今天我們的目標是，爬社區的美女~而且，我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~ 1scrapy原理在寫過幾個爬蟲程式之後，我們就知道，利用爬蟲獲取數據大概的步驟：請求網頁，獲取網頁，匹配信息，下載數據，數據清洗，存入數據 ...

既然是Python程式員找美女，就要用python程式員的方法。

今天我們的目標是，爬社區的美女~而且，我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~

1scrapy原理

在寫過幾個爬蟲程式之後，我們就知道，利用爬蟲獲取數據大概的步驟：請求網頁，獲取網頁，匹配信息，下載數據，數據清洗，存入資料庫。

scrapy是一個很有名的爬蟲框架，可以很方便的進行網頁信息爬取。那麼scrapy到底是如何工作的呢？之前在網上看了不少scrapy入門的教程，大多數入門教程都配有這張圖。

_(:зゝ∠)_也不知道是這張圖實在太經典了，還是程式員們都懶得畫圖，第一次看到這個圖的時候，米醬的心情是這樣的

GIF

經過了一番深入的理解，大概知道這幅圖的意思，讓我來舉個慄子(是的，我又要舉奇怪的慄子了)：

當我們想吃東西的時候，我們會出門，走到街上，尋找一家想吃的點，然後點餐，服務員再通知廚房去做，最後菜到餐桌上，或者被打包帶走。這就是爬蟲程式在做的事，它要將所有獲取數據需要進行的操作，都寫好。

而scrapy就像一個點餐app一般的存在，在訂餐列表(spiders)選取自己目標餐廳里想吃的菜(items)，在收貨(pipeline)處寫上自己的收貨地址(存儲方式)，點餐系統(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好，由於會產生多個外賣取貨訂單(request)，系統會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。

什麼意思呢？在使用scrapy時，我們只需要設置spiders(想要爬取的內容)，pipeline(數據的清洗，數據的存儲方式)，還有一個middlewares，是各功能間對接時的一些設置，就可以不用操心其他的過程，一切交給scrapy模塊來完成。

2創建scrapy工程

安裝scrapy之後，創建一個新項目

我用的是pycharm編譯器，在spiders文件下創建zhihuxjj.py

在zhihuxjj.py這個文件中，我們要編寫我們的爬取規則。

3 爬取規則制定(spider)

創建好了項目，讓我們來看一下我們要吃的店和菜…哦不，要爬的網站和數據。

我選用了知乎作為爬取平臺，知乎是沒有用戶從1到n的序列id的，每個人可以設置自己的個人主頁id，且為唯一。所以採選了選取一枚種子用戶，爬取他的關註者，也可以關註者和粉絲一起爬，考慮到粉絲中有些三無用戶，我僅選擇了爬取關註者列表，再通過關註者主頁爬取關註者的關註者，如此遞歸。

對於程式的設計，是這樣的。

start url是scrapy中的一個標誌性的值，它用於設置爬蟲程式的開始，也就是從哪裡開始爬，按照設定，從種子用戶個人主頁開始爬便是正義，但是考慮到個人主頁的鏈接會進行重覆使用，所以在這裡我將起始url設成了知乎主頁。

之後就是種子用戶的個人主頁，知乎粉絲多的大V很多，但是關註多的人就比較難發現了，這裡我選擇了知乎的黃繼新，聯合創始人，想必關註了不少優質用戶(≖‿≖)。

分析一下個人主頁可知，個人主頁由'https://www.zhihu.com/people/' + 用戶id 組成，我們要獲取的信息是用callback回調函數(敲黑板！！劃重點！！)的方式設計，這裡一共設計了兩個回調函數：用戶的關註列表和關註者的個人信息。

使用chrome瀏覽器查看上圖的頁面可知獲取關註列表的url，以及關註者的用戶id。

將滑鼠放在用戶名上。

可以獲得個人用戶信息的url。分析url可知：

so，我們在上一節中創建的zhihuxjj.py文件中寫入以下代碼。

這裡需要劃重點的是yield的用法，以及item['name']，將爬取結果賦值給item，就是告訴系統，這是我們要選的菜…啊呸…要爬的目標數據。

4設置其他信息

在items.py文件中，按照spider中設置的目標數據item，添加對應的代碼。

在pipeline.py中添加存入資料庫的代碼(資料庫咋用上一篇文章寫了哦~)。

因為使用了pipeline.py，所以我們還需要再setting.py文件中，將ITEM_PIPELINE註釋解除，這裡起到連接兩個文件的作用。

到這裡，基本就都設置好了，程式基本上就可以跑了。不過因為scrapy是遵循robots.txt法則的，所以讓我們來觀察一下知乎的法則https://www.zhihu.com/robots.txt

emmmmmmm，看完法則了嗎，很好，然後我們在setting.py中，將ROBOTSTXT_OBEY 改成 False。(逃

好像…還忘了點什麼，對了，忘記設置headers了。通用的設置headers的方法同樣是在setting.py文件中，將DEFAULTREQUESTHEADERS的代碼註釋狀態取消，並設置模擬瀏覽器頭。知乎是要模擬登錄的，如果使用游客方式登錄，就需要添加authorization，至於這個authorization是如何獲取的，我，就，不，告，訴，你(逃