實習僧網站招聘信息爬取以及可視化操作

来源:http://www.cnblogs.com/harywood/archive/2017/05/23/6894371.html
-Advertisement-
Play Games

目標:用Python抓取實習僧網站上數據分析相關崗位信息,並用Python做可視化分析 軟體:Python 3.0 版本 一、 實習僧網站爬蟲介紹 實習僧網址:http://www.shixiseng.com/ 在搜索框輸入 數據 然後跳轉到一下頁面,Fn + f12 就能看到網頁調試工具。 刷新頁 ...


目標:用Python抓取實習僧網站上數據分析相關崗位信息,並用Python做可視化分析

軟體:Python 3.0 版本

 一、 實習僧網站爬蟲介紹 

實習僧網址:http://www.shixiseng.com/

 

在搜索框輸入 數據 然後跳轉到一下頁面,Fn + f12 就能看到網頁調試工具。

刷新頁面,然後點進第一個鏈接

url 就是我們爬蟲要用到的url, 其中k和p的含義已經解釋了。點擊尾頁,可以知道共109頁數據。

 

 

然後利用request Headers信息用來模擬瀏覽器登錄。

網頁上右鍵後查看源代碼。我們要爬取職位名稱,職位詳情網址,月薪,工作地點等信息。寫得正則表達為:

 

好了。基本工作完成,這就需要進一步構建代碼了。

 

如何翻頁,爬取下一頁呢,就是利用迴圈對參數P的調整,實現整個頁面的抓取。

 

然後就是對爬取欄位的組合,並且寫入excel文件。

需要用到: import xlwt #讀寫Excel 文件

 

最終運行代碼,得到結果,共1085條記錄,用時30秒多。

 

 

二、PTYHON數據分析

 

首先導入需要用到的包,然後讀取Excel文件

 

得到:

 

網址數據暫時用不上 因此就刪除這兩列

 

 

 

主要從薪酬,工作天數,工作地點和時間要求四個方面分析。

 

 

先看一個簡單的:

1 工作天數的要求和分佈

 

2 實習時間的要求

 

 

 

3 實習地點的分佈

 

 

What the hell?

 

過濾掉頻數小於5的

 

 

4 實習薪酬的水平

 

 

額 同樣的問題,,,

 

 

168個類別,所以擠成那個樣子了。。。過濾掉頻數小於10的。

 

 

總結一下:

實習地點:數據分析崗位實習北京和上海集中較多,然後是廣州和深圳。其次是二線城市,成都,南京,杭州等。

工作天數:要求5天/周的實習最多,占比達到44.61%,其次是4/周和3/周。

實習時間:要求至少3個月的實習最多,其次是6個月,4個月。

實習薪酬:集中在100-120元區間上的最多。超過一半的實習工資超過了100。

--------------------------------------------------

第一次寫,歡迎指正。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這兩天在用python的bottle框架開發後臺管理系統,介面約定使用RESTful風格請求,前端使用jquery ajax與介面進行交互,使用POST與GET請求時都正常,而Request Method使用PUT或DELETE請求時,直接爆“HTTP Error 405: Method Not A ...
  • Django 自稱是“最適合開發有限期的完美WEB框架”。本文參考《Django web開髮指南》,快速搭建一個blog 出來,在中間涉及諸多知識點,這裡不會詳細說明,如果你是第一次接觸Django ,本文會讓你在感性上對Django有個認識,完成本文操作後會讓你有興趣閱讀的相關書籍和文檔。 本博客 ...
  • ★★ 輸入文件:dec.in 輸出文件:dec.out 簡單對比 時間限制:1 s 記憶體限制:128 MB Description 出題是一件痛苦的事情! 題目看多了也有審美疲勞,於是我捨棄了大家所熟悉的A+B Problem,改用A-B了哈哈! 好吧,題目是這樣的:給出一串數以及一個數字C,要求計 ...
  • ★☆ 輸入文件:cjzd.in 輸出文件:cjzd.out 簡單對比 時間限制:1 s 記憶體限制:128 MB 問題描述 今年是國際數學聯盟確定的“2000——世界數學年”,又恰逢我國著名數學家華羅庚先生誕辰90周年。在華羅庚先生的家鄉江蘇金壇,組織了一場別開生面的數學智力競賽的活動,你的一個好朋友 ...
  • 問題描述 將整數n分成k份,且每份不能為空,任意兩種方案不能相同(不考慮順序)。 例如:n=7,k=3,下麵三種分法被認為是相同的。 1,1,5; 1,5,1; 5,1,1; 問有多少種不同的分法。 輸入:n,k (7≤n≤200,2≤k≤6) 輸出:一個整數,即不同的分法。 樣例 輸入: 7 3 ...
  • php-人員許可權管理(RBAC) 許可權管理可以想做vip的功能,普通用戶和vip用戶的功能是不一樣的,大致會用到五張表:用戶表、角色表、功能表,還有他們之間互相關聯的表:用戶與角色表、角色與功能表 我用到的五張表如下: 一.首先寫的是管理員頁面 1.用下拉列表顯示用戶名 2.因為上面已經造了新對象, ...
  • 1 ...
  • ★★ 輸入文件:roads.in 輸出文件:roads.out 簡單對比 時間限制:1 s 記憶體限制:128 MB 譯 by CmYkRgB123 描述 Farmer John 剛剛得到了幾個新農場!他想把這幾個農場用路連接起來,這樣他就可以通過筆直的公路從一個農場到另一個農場了。現在已經有了幾條連 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...