python爬蟲實戰以及數據可視化

来源:https://www.cnblogs.com/leleChang/archive/2020/05/05/12812358.html
-Advertisement-
Play Games

需要準備的環境: (1)python3.8 (2)pycharm (3)截取網路請求信息的工具,有很多,百度一種隨便用即可。 第一:首先通過python的sqlalchemy模塊,來新建一個表。 第二:通過python中的request模塊介面的形式調取數據。 思路:(1)先獲取所有城市信息:需要用 ...


需要準備的環境:

 (1)python3.8

 (2)pycharm

 (3)截取網路請求信息的工具,有很多,百度一種隨便用即可。

 

第一:首先通過python的sqlalchemy模塊,來新建一個表。

 

第二:通過python中的request模塊介面的形式調取數據。

  思路:(1)先獲取所有城市信息:需要用request模塊中的【requests.session()】session對象保存訪問介面需要用到的信息:例如cookies等信息。
            (2)通過城市分組,再用正則表達式篩選來獲取python的崗位信息。
其中多次用到列表生成器,以後要多註意這方面的冷知識;不然會有莫名的錯誤。、

代碼思路:只要保證可復用即可,其實很簡單,畢竟Python是一門”乾凈“的語言。
       (1)先把請求方法抽集到一個方法中:
      session.get(url(地址),headers(頭信息),,timeout(時間),proxies(代理信息))
       (2)先獲取所有城市,利用列表生成器生成一個list把數據裝進去。
       (3)利用迴圈以城市分組拉去Python崗位信息。
               for city in lagou.city_list:
調用拉取崗位信息的方法。
       (4)導入multiprocessing模塊,設置多線程加速抓取:multiprocessing.Pool(自定 int or long)
需要註意的是:必須利用代理,以及多線程拉取。否則效率低下,可能導致信息不全,時間太慢。

 

 第三:將拉取的數據存入表中

  

思路:(1)由於拉取的是JSON格式,所以解讀JSON格式,也是很繁瑣的,需要把要的數據一條一條對應到固定的Key里,如圖:

  

(2)利用session對象的query方法,可以過濾查詢想要的數據。
session.query(Lagoutables.workYear).filter(Lagoutables.crawl_date==self.date).all()

  第四:利用前臺模板,將數據可視化。

   

(1)首先需要通過編寫JS文件,將幾個圖的數據放在一個方法里提高聚合,抽取出來提高可復用性。        (2)然後通過拼接把獲取到的JSON格式的數據,按key:balue格式分配出來。
代碼如下:
利用Ajax通信

 

 

 

 

 

 

結果展示:

 

 

 

 

主要代碼展示:

第一部分:拉取數據。

 (1)使用session保存cokkies信息。

self.lagou_session = requests.session()

  (2)寫一個request方法;用於請求數據。使用多線程,以及代理的方式來;否則會記錄惡意IP,不能爬蟲。

 

    def handle_request(self,method,url,data=None,info=None):
        while True:
            #加入阿布雲的動態代理
            proxyinfo = "http://%s:%s@%s:%s" % ('H1V32R6470A7G90D', 'CD217C660A9143C3', 'http-dyn.abuyun.com', '9020')
            proxy = {
                "http":proxyinfo,
                "https":proxyinfo
            }
            try:
                if method == "GET":
                    # response = self.lagou_session.get(url=url,headers=self.header,proxies=proxy,timeout=6)
                    response = self.lagou_session.get(url=url,headers=self.header,timeout=6)
                elif method == "POST":
                    # response = self.lagou_session.post(url=url,headers=self.header,data=data,proxies=proxy,timeout=6)
                     response = self.lagou_session.post(url=url,headers=self.header,data=data,timeout=6)
            except:
                # 需要先清除cookies信息
                self.lagou_session.cookies.clear()
                # 重新獲取cookies信息
                first_request_url = "https://www.lagou.com/jobs/list_python?city=%s&cl=false&fromSearch=true&labelWords=&suginput=" % info
                self.handle_request(method="GET", url=first_request_url)
                time.sleep(10)
                continue
            response.encoding = 'utf-8'
            if '頻繁' in response.text:
                print(response.text)
                #需要先清除cookies信息
                self.lagou_session.cookies.clear()
                # 重新獲取cookies信息
                first_request_url = "https://www.lagou.com/jobs/list_python?city=%s&cl=false&fromSearch=true&labelWords=&suginput="%info
                self.handle_request(method="GET",url=first_request_url)
                time.sleep(10)
                continue
            return response.text

  (3)寫一個具體的URL來拉取網頁信息。比如:

   

#獲取全國所有城市列表的方法
    def handle_city(self):
        city_search = re.compile(r'www\.lagou\.com\/.*\/">(.*?)</a>')
        city_url = "https://www.lagou.com/jobs/allCity.html"
        city_result = self.handle_request(method="GET",url=city_url)
        #使用正則表達式獲取城市列表
        self.city_list = set(city_search.findall(city_result))
        self.lagou_session.cookies.clear()

  第二部分:將拉取的數據存入資料庫。

     將資料庫欄位與獲取到的JSON數據對應,代碼簡單就不舉例了。

主要是用到資料庫的session信息;通過導包,獲得該資料庫連接的Session對象,然後操作資料庫。

#插入數據
self.mysql_session.add(data)
#提交數據到資料庫
self.mysql_session.commit()

  第三部分:將資料庫數據以Echarts工具展示出來。

   可以查看官網有教學:  https://www.echartsjs.com/zh/index.html

  主要也是去修改js文件,比較簡單;這裡就不做示範了。

 

全部代碼,可以去本人的Githup上下載。

註意:本次爬蟲教學並不是本人所原創,只是分享一下學習結果。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用CSS完成網站首頁的優化 需求分析 由於我們昨天使用表格佈局存在缺陷,那麼我們要來考慮使用DIV+CSS來對頁面進行優化 表格佈局的缺陷 1. 嵌套層級太多, 一旦出現嵌套順序錯亂, 整個頁面達不到預期效果 2. 採用表格佈局,頁面不夠靈活, 動其中某一塊,整個表格佈局的結構全都要變 技術分析 ...
  • 網站註冊頁面案例 需求分析 編寫一個HTML頁面, 顯示效果如圖所示 技術分析 表單標簽 action : 直接提交的地址 method : get 方式 預設提交方式 ,會將參數拼接在鏈接後面 , 有大小限制 ,4k post 方式 會將參數封裝在請求體中, 沒有這樣的限制 input : typ ...
  • 網站架構變遷 Intro 從最早的 html 的學習到現在從單體應用遷移到微服務架構,所經歷的網站架構也一直在變化,於是想寫一篇關於網站架構變遷的文章。 單伺服器 最早的我們的網站只有一臺伺服器,網站應用 + 資料庫 + 網站文件 都在同一臺伺服器上,有的時候一臺伺服器上也會有多個網站。 這個階段的 ...
  • 當程式運行出現異常時,會退出程式結束運行而不至於讓程式崩潰。 1. 異常類 所有異常的根類是java.lang.Throwable,其下有兩個子類:Error和Exception。 (1) Error Error是程式無法處理的錯誤,錶面系統JVM處於不可恢復的崩潰狀態,此時錯誤與代碼書寫無關。 如 ...
  • 原型模式(Prototype Pattern)也有人將原型模式稱為克隆模式,是屬於創造型設計模式,用於創建重覆的對象,提供了一種創建對象的最佳方式。原型模式需要實現Cloneable介面,來實現對象的克隆。在實際的應用中,如果應用需要反覆創建相同的對象時,並且創建這個對象需要花費大量時間或者需要訪問 ...
  • 導入相關依賴: 配置資料庫連接信息: 測試連接: 簡單使用示例: ...
  • 1首先建立Clsss類文件memcached.class.php <?phpclass Memcacheds{ //聲明靜態成員變數 private static $m = null; private static $cache = null; public function __construct ...
  • #include <iostream> #include <ctime> #include <vector> #include <algorithm> using std::cout; using std::endl; /* xx排序,空間複雜度,時間複雜度,是否原地排序,是否穩定排序 */ /* ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...