Python爬蟲入門教程 27-100 微醫掛號網專家團隊數據抓取pyspider

来源:https://www.cnblogs.com/happymeng/archive/2019/01/21/10296977.html
-Advertisement-
Play Games

1. 微醫掛號網專家團隊數據 寫在前面 今天嘗試使用一個新的爬蟲庫進行數據的爬取,這個庫叫做 ,國人開發的,當然支持一下。 github地址: https://github.com/binux/pyspider 官方文檔地址:http://docs.pyspider.org/en/latest/ 安 ...


1. 微醫掛號網專家團隊數據----寫在前面

今天嘗試使用一個新的爬蟲庫進行數據的爬取,這個庫叫做pyspider,國人開發的,當然支持一下。

github地址: https://github.com/binux/pyspider
官方文檔地址:http://docs.pyspider.org/en/latest/

安裝起來是非常簡單的

pip install pyspider 

安裝之後,啟動 在CMD控制台裡面敲入命令

pyspider

出現如下界面,代表運行成功,一般情況下,你的電腦如果沒有安裝 phantomjs 他會先給你安裝一下。

在這裡插入圖片描述

接下來打開瀏覽器,訪問地址輸入 127.0.0.1:5000, 應該顯示如下界面,就可以愉快的進行編碼了~

在這裡插入圖片描述

3步創建一個項目

在這裡插入圖片描述

2. 微醫掛號網專家團隊數據----庫基本使用入門

這款工具的詳細使用,給你提供一個非常好的博文,寫的很完善了,我就不在贅述了。咱們直接進入到編碼的部分。

https://blog.csdn.net/weixin_37947156/article/details/76495144

3. 微醫掛號網專家團隊數據----爬蟲源碼

我們要爬取的目標站點是微醫掛號網專家團隊數據 網頁地址https://www.guahao.com/eteam/index

在這裡插入圖片描述

分析AJAX鏈接地址,尋找爬取規律

在這裡插入圖片描述

經過分析之後獲取到的鏈接為 https://www.guahao.com/json/white/search/eteams?q=&dept=&page=2&cid=&pid=&_=1542794523454

其中page參數最重要,表示頁碼,實際測試中發現,當代碼翻頁到 84頁的時候,數據竟然開始重覆了,應該是網站本身系統的問題,這個沒有辦法。

爬蟲流程

  1. 獲取總頁數
  2. 迴圈爬取每頁的數據
爬取總頁數

在入口函數on_start的位置去爬取第一頁數據,爬取成功之後調用index_page函數

from pyspider.libs.base_handler import *
import pandas as pd

class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://www.guahao.com/json/white/search/eteams?page=1', callback=self.index_page,validate_cert=False)

index_page函數用來獲取頁碼總數,並且將所有待爬取的地址存放到self.crawl中,這個地方因為數據重覆的原因,最終硬編碼為84頁數據了

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        doctors = response.json
        if doctors:
            if doctors["data"]:
                page_count = doctors["data"]["pageCount"]
                #for page in range(1,page_count+1):
                for page in range(1,85):
                    self.crawl('https://www.guahao.com/json/white/search/eteams?page={}'.format(page),callback=self.detail_page,validate_cert=False)

最後一步,解析數據,數據爬取完畢,存放到 csv 文件裡面

    @config(priority=2)
    def detail_page(self, response):
        doctors = response.json
        data = doctors["data"]["list"]
        return data
    
    def on_result(self,result):
        if result:
            print("正在存儲數據....")
            data = pd.DataFrame(result)
            data.to_csv("專家數據.csv", mode='a', header=False, encoding='utf_8_sig')
       

完成的代碼預覽
在這裡插入圖片描述

回到主頁面,此時看到任務列表顯示了我們剛剛創建的任務,設置 status 為 running,然後點擊 Run 按鈕執行

在這裡插入圖片描述
執行完成後,點擊 Results 按鈕,進入到爬取結果的頁面

在這裡插入圖片描述

等著就可以了

4. 微醫掛號網專家團隊數據----最後幾步

  1. Web UI 控制臺上的 rate/burst 參數來調節速度,rate 是 每秒抓取的數量,burst 是併發的數量

在這裡插入圖片描述

  1. pyspider 爬取完畢之後,你在點擊run是不會在運行的。解決辦法如下,停止 pyspider,找到下圖的幾個文件
    project.db 和 result.db 兩個文件不要刪除,刪除其他文件即可。

在這裡插入圖片描述

寫完啦~ 得到了 ·1000·多個專家團隊。


我的博客即將同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=1lpoi2p6fcu88


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 大家在做後臺管理系統時一般都會涉及到菜單的許可權控制問題。當然解決問題的方法無非兩種——前端控制和後端控制。我們公司這邊的產品迭代速度較快,所以我們是從前端控制路由迭代到後端控制路由。下麵我會分別介紹這兩種方法的優缺點以及如何實現(不熟悉vue-router API的同學可以先去官網看一波API哈)。 ...
  • 線上體驗地址:http://vip.52tech.tech/ GIthub源碼:https://github.com/xiugangzhang/vip.github.io 項目預覽 主頁面 登錄頁面 註冊頁面 會員中心 電影播放頁面 電影彈幕功能 視頻網站項目已經完功能如下: v1.0.3(當前最新 ...
  • 一 npm 方式 1,安裝依賴 (已有項目) 如果想簡單體驗:基於vue-cli /* npm install vue -g npm install vue-cli -g // -g 是否全局安裝,如果不需要可不加 vue init webpack mint-pro (一路回車預設即可) */ np ...
  • vue判斷是pc端還是移動端分別進入不同的頁面 判斷移動端代碼如下: 路由判斷分別進入pc還是移動端 判斷路由代碼如下: 通過user-agent值,來進行判斷,使用javascript框架中的Navigator對象的userAgent屬性 還有些其他方法可以根據個人項目是改動,僅個人學習筆記,希望 ...
  • datagrid 實現表格記錄拖拽 by:授客 QQ:1033553122 測試環境 jquery-easyui-1.5.3 jquery-easyui-datagrid-dnd 下載地址: http://www.jeasyui.net/demo/193.html 實現 編輯datagrid-dnd ...
  • 個人博客原文: "創建型模式:抽象工廠" 五大創建型模式之三:抽象工廠。 簡介 姓名 :抽象工廠 英文名 :Abstract Factory Pattern 價值觀 :不管你有多少產品,給我就是了 個人介紹 : Provide an interface for creating families o ...
  • 一、前言 在我們日常工作中,除了Spring和Mybatis外,用到最多無外乎分散式緩存框架——Redis。但是很多工作很多年的朋友對Redis還處於一個最基礎的使用和認識。所以我就像把自己對分散式緩存的一些理解和應用整理一個系列,希望可以幫助到大家加深對Redis的理解。本系列的文章思路先從Red ...
  • 本文講述了一路走來對Session的認知。文章有點長,不過是故事型的,應該不枯燥。相信讀完也一定會有所收穫。 (一) “當你登陸系統後,伺服器會創建一個Session,保存你的登陸信息,下次再訪問時就不需要再登陸。Session可以保存到資料庫里或文件里,必要時可以還原出來。”沒錯,這就是我十幾年前 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...