Python爬蟲入門教程 27-100 微醫掛號網專家團隊數據抓取pyspider

-Advertisement-

1. 微醫掛號網專家團隊數據寫在前面今天嘗試使用一個新的爬蟲庫進行數據的爬取，這個庫叫做，國人開發的，當然支持一下。 github地址： https://github.com/binux/pyspider 官方文檔地址：http://docs.pyspider.org/en/latest/ 安 ...

1. 微醫掛號網專家團隊數據----寫在前面

今天嘗試使用一個新的爬蟲庫進行數據的爬取，這個庫叫做pyspider，國人開發的，當然支持一下。

github地址： https://github.com/binux/pyspider
官方文檔地址：http://docs.pyspider.org/en/latest/

安裝起來是非常簡單的

pip install pyspider

安裝之後，啟動在CMD控制台裡面敲入命令

pyspider

出現如下界面，代表運行成功，一般情況下，你的電腦如果沒有安裝 phantomjs 他會先給你安裝一下。

在這裡插入圖片描述

接下來打開瀏覽器，訪問地址輸入 127.0.0.1:5000, 應該顯示如下界面，就可以愉快的進行編碼了~

在這裡插入圖片描述

3步創建一個項目

在這裡插入圖片描述

2. 微醫掛號網專家團隊數據----庫基本使用入門

這款工具的詳細使用，給你提供一個非常好的博文，寫的很完善了，我就不在贅述了。咱們直接進入到編碼的部分。

https://blog.csdn.net/weixin_37947156/article/details/76495144

3. 微醫掛號網專家團隊數據----爬蟲源碼

我們要爬取的目標站點是微醫掛號網專家團隊數據 網頁地址https://www.guahao.com/eteam/index

在這裡插入圖片描述

分析AJAX鏈接地址，尋找爬取規律

在這裡插入圖片描述

經過分析之後獲取到的鏈接為 https://www.guahao.com/json/white/search/eteams?q=&dept=&page=2&cid=&pid=&_=1542794523454

其中page參數最重要，表示頁碼，實際測試中發現，當代碼翻頁到 84頁的時候，數據竟然開始重覆了，應該是網站本身系統的問題，這個沒有辦法。

爬蟲流程

獲取總頁數
迴圈爬取每頁的數據

爬取總頁數

在入口函數on_start的位置去爬取第一頁數據，爬取成功之後調用index_page函數

from pyspider.libs.base_handler import *
import pandas as pd

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://www.guahao.com/json/white/search/eteams?page=1', callback=self.index_page,validate_cert=False)

index_page函數用來獲取頁碼總數，並且將所有待爬取的地址存放到self.crawl中，這個地方因為數據重覆的原因，最終硬編碼為84頁數據了

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        doctors = response.json
        if doctors:
            if doctors["data"]:
                page_count = doctors["data"]["pageCount"]
                #for page in range(1,page_count+1):
                for page in range(1,85):
                    self.crawl('https://www.guahao.com/json/white/search/eteams?page={}'.format(page),callback=self.detail_page,validate_cert=False)

最後一步，解析數據，數據爬取完畢，存放到 csv 文件裡面

    @config(priority=2)
    def detail_page(self, response):
        doctors = response.json
        data = doctors["data"]["list"]
        return data
    
    def on_result(self,result):
        if result:
            print("正在存儲數據....")
            data = pd.DataFrame(result)
            data.to_csv("專家數據.csv", mode='a', header=False, encoding='utf_8_sig')

完成的代碼預覽
在這裡插入圖片描述

回到主頁面，此時看到任務列表顯示了我們剛剛創建的任務，設置 status 為 running，然後點擊 Run 按鈕執行

在這裡插入圖片描述
執行完成後，點擊 Results 按鈕，進入到爬取結果的頁面

在這裡插入圖片描述

等著就可以了

4. 微醫掛號網專家團隊數據----最後幾步

Web UI 控制臺上的 rate/burst 參數來調節速度，rate 是每秒抓取的數量，burst 是併發的數量

在這裡插入圖片描述

pyspider 爬取完畢之後，你在點擊run是不會在運行的。解決辦法如下，停止 pyspider，找到下圖的幾個文件
project.db 和 result.db 兩個文件不要刪除，刪除其他文件即可。

在這裡插入圖片描述

寫完啦~ 得到了 ·1000·多個專家團隊。

我的博客即將同步至騰訊雲+社區，邀請大家一同入駐：https://cloud.tencent.com/developer/support-plan?invite_code=1lpoi2p6fcu88

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

vue實現菜單許可權控制

大家在做後臺管理系統時一般都會涉及到菜單的許可權控制問題。當然解決問題的方法無非兩種——前端控制和後端控制。我們公司這邊的產品迭代速度較快，所以我們是從前端控制路由迭代到後端控制路由。下麵我會分別介紹這兩種方法的優缺點以及如何實現（不熟悉vue-router API的同學可以先去官網看一波API哈）。 ...
【VIP視頻網站項目】VIP視頻網站項目v1.0.3版本發佈啦（程式一鍵安裝+電影後臺自動抓取+代碼結構調整）

線上體驗地址:http://vip.52tech.tech/ GIthub源碼：https://github.com/xiugangzhang/vip.github.io 項目預覽主頁面登錄頁面註冊頁面會員中心電影播放頁面電影彈幕功能視頻網站項目已經完功能如下： v1.0.3（當前最新 ...
vue 引入 mint-ui 簡單使用

一 npm 方式 1，安裝依賴（已有項目）如果想簡單體驗：基於vue-cli /* npm install vue -g npm install vue-cli -g // -g 是否全局安裝，如果不需要可不加 vue init webpack mint-pro (一路回車預設即可) */ np ...
如何判斷頁面是pc端還是移動端，進入不同的頁面

vue判斷是pc端還是移動端分別進入不同的頁面判斷移動端代碼如下：路由判斷分別進入pc還是移動端判斷路由代碼如下：通過user-agent值，來進行判斷，使用javascript框架中的Navigator對象的userAgent屬性還有些其他方法可以根據個人項目是改動，僅個人學習筆記，希望 ...
Easyui datagrid 實現表格記錄拖拽

datagrid 實現表格記錄拖拽 by:授客 QQ：1033553122 測試環境 jquery-easyui-1.5.3 jquery-easyui-datagrid-dnd 下載地址： http://www.jeasyui.net/demo/193.html 實現編輯datagrid-dnd ...
創建型模式：抽象工廠

個人博客原文： "創建型模式：抽象工廠" 五大創建型模式之三：抽象工廠。簡介姓名：抽象工廠英文名：Abstract Factory Pattern 價值觀：不管你有多少產品，給我就是了個人介紹： Provide an interface for creating families o ...
【分散式緩存系列】Redis實現分散式鎖的正確姿勢

一、前言在我們日常工作中，除了Spring和Mybatis外，用到最多無外乎分散式緩存框架——Redis。但是很多工作很多年的朋友對Redis還處於一個最基礎的使用和認識。所以我就像把自己對分散式緩存的一些理解和應用整理一個系列，希望可以幫助到大家加深對Redis的理解。本系列的文章思路先從Red ...
我和Session的不解之“緣”（故事型技術長文）

本文講述了一路走來對Session的認知。文章有點長，不過是故事型的，應該不枯燥。相信讀完也一定會有所收穫。（一） “當你登陸系統後，伺服器會創建一個Session，保存你的登陸信息，下次再訪問時就不需要再登陸。Session可以保存到資料庫里或文件里，必要時可以還原出來。”沒錯，這就是我十幾年前 ...