1. 微醫掛號網專家團隊數據 寫在前面 今天嘗試使用一個新的爬蟲庫進行數據的爬取,這個庫叫做 ,國人開發的,當然支持一下。 github地址: https://github.com/binux/pyspider 官方文檔地址:http://docs.pyspider.org/en/latest/ 安 ...
1. 微醫掛號網專家團隊數據----寫在前面
今天嘗試使用一個新的爬蟲庫進行數據的爬取,這個庫叫做pyspider
,國人開發的,當然支持一下。
github地址: https://github.com/binux/pyspider
官方文檔地址:http://docs.pyspider.org/en/latest/
安裝起來是非常簡單的
pip install pyspider
安裝之後,啟動 在CMD控制台
裡面敲入命令
pyspider
出現如下界面,代表運行成功,一般情況下,你的電腦如果沒有安裝 phantomjs
他會先給你安裝一下。
接下來打開瀏覽器,訪問地址輸入 127.0.0.1:5000
, 應該顯示如下界面,就可以愉快的進行編碼了~
3步創建一個項目
2. 微醫掛號網專家團隊數據----庫基本使用入門
這款工具的詳細使用,給你提供一個非常好的博文,寫的很完善了,我就不在贅述了。咱們直接進入到編碼的部分。
https://blog.csdn.net/weixin_37947156/article/details/76495144
3. 微醫掛號網專家團隊數據----爬蟲源碼
我們要爬取的目標站點是微醫掛號網專家團隊數據
網頁地址https://www.guahao.com/eteam/index
分析AJAX鏈接地址,尋找爬取規律
經過分析之後獲取到的鏈接為 https://www.guahao.com/json/white/search/eteams?q=&dept=&page=2&cid=&pid=&_=1542794523454
其中page
參數最重要,表示頁碼,實際測試中發現,當代碼翻頁到 84頁的時候,數據竟然開始重覆了,應該是網站本身系統的問題,這個沒有辦法。
爬蟲流程
- 獲取總頁數
- 迴圈爬取每頁的數據
爬取總頁數
在入口函數on_start
的位置去爬取第一頁數據,爬取成功之後調用index_page
函數
from pyspider.libs.base_handler import *
import pandas as pd
class Handler(BaseHandler):
crawl_config = {
}
@every(minutes=24 * 60)
def on_start(self):
self.crawl('https://www.guahao.com/json/white/search/eteams?page=1', callback=self.index_page,validate_cert=False)
index_page
函數用來獲取頁碼總數,並且將所有待爬取的地址存放到self.crawl中,這個地方因為數據重覆的原因,最終硬編碼為84頁數據了
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
doctors = response.json
if doctors:
if doctors["data"]:
page_count = doctors["data"]["pageCount"]
#for page in range(1,page_count+1):
for page in range(1,85):
self.crawl('https://www.guahao.com/json/white/search/eteams?page={}'.format(page),callback=self.detail_page,validate_cert=False)
最後一步,解析數據,數據爬取完畢,存放到 csv 文件裡面
@config(priority=2)
def detail_page(self, response):
doctors = response.json
data = doctors["data"]["list"]
return data
def on_result(self,result):
if result:
print("正在存儲數據....")
data = pd.DataFrame(result)
data.to_csv("專家數據.csv", mode='a', header=False, encoding='utf_8_sig')
完成的代碼預覽
回到主頁面,此時看到任務列表顯示了我們剛剛創建的任務,設置 status 為 running,然後點擊 Run 按鈕執行
執行完成後,點擊 Results 按鈕,進入到爬取結果的頁面
等著就可以了
4. 微醫掛號網專家團隊數據----最後幾步
- Web UI 控制臺上的 rate/burst 參數來調節速度,rate 是 每秒抓取的數量,burst 是併發的數量
- pyspider 爬取完畢之後,你在點擊run是不會在運行的。解決辦法如下,停止 pyspider,找到下圖的幾個文件
project.db 和 result.db 兩個文件不要刪除,刪除其他文件即可。
寫完啦~ 得到了 ·1000·多個專家團隊。
我的博客即將同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=1lpoi2p6fcu88