實習僧網站招聘信息爬取以及可視化操作

来源:http://www.cnblogs.com/harywood/archive/2017/05/23/6894371.html
-Advertisement-
Play Games

目標:用Python抓取實習僧網站上數據分析相關崗位信息,並用Python做可視化分析 軟體:Python 3.0 版本 一、 實習僧網站爬蟲介紹 實習僧網址:http://www.shixiseng.com/ 在搜索框輸入 數據 然後跳轉到一下頁面,Fn + f12 就能看到網頁調試工具。 刷新頁 ...


目標:用Python抓取實習僧網站上數據分析相關崗位信息,並用Python做可視化分析

軟體:Python 3.0 版本

 一、 實習僧網站爬蟲介紹 

實習僧網址:http://www.shixiseng.com/

 

在搜索框輸入 數據 然後跳轉到一下頁面,Fn + f12 就能看到網頁調試工具。

刷新頁面,然後點進第一個鏈接

url 就是我們爬蟲要用到的url, 其中k和p的含義已經解釋了。點擊尾頁,可以知道共109頁數據。

 

 

然後利用request Headers信息用來模擬瀏覽器登錄。

網頁上右鍵後查看源代碼。我們要爬取職位名稱,職位詳情網址,月薪,工作地點等信息。寫得正則表達為:

 

好了。基本工作完成,這就需要進一步構建代碼了。

 

如何翻頁,爬取下一頁呢,就是利用迴圈對參數P的調整,實現整個頁面的抓取。

 

然後就是對爬取欄位的組合,並且寫入excel文件。

需要用到: import xlwt #讀寫Excel 文件

 

最終運行代碼,得到結果,共1085條記錄,用時30秒多。

 

 

二、PTYHON數據分析

 

首先導入需要用到的包,然後讀取Excel文件

 

得到:

 

網址數據暫時用不上 因此就刪除這兩列

 

 

 

主要從薪酬,工作天數,工作地點和時間要求四個方面分析。

 

 

先看一個簡單的:

1 工作天數的要求和分佈

 

2 實習時間的要求

 

 

 

3 實習地點的分佈

 

 

What the hell?

 

過濾掉頻數小於5的

 

 

4 實習薪酬的水平

 

 

額 同樣的問題,,,

 

 

168個類別,所以擠成那個樣子了。。。過濾掉頻數小於10的。

 

 

總結一下:

實習地點:數據分析崗位實習北京和上海集中較多,然後是廣州和深圳。其次是二線城市,成都,南京,杭州等。

工作天數:要求5天/周的實習最多,占比達到44.61%,其次是4/周和3/周。

實習時間:要求至少3個月的實習最多,其次是6個月,4個月。

實習薪酬:集中在100-120元區間上的最多。超過一半的實習工資超過了100。

--------------------------------------------------

第一次寫,歡迎指正。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這兩天在用python的bottle框架開發後臺管理系統,介面約定使用RESTful風格請求,前端使用jquery ajax與介面進行交互,使用POST與GET請求時都正常,而Request Method使用PUT或DELETE請求時,直接爆“HTTP Error 405: Method Not A ...
  • Django 自稱是“最適合開發有限期的完美WEB框架”。本文參考《Django web開髮指南》,快速搭建一個blog 出來,在中間涉及諸多知識點,這裡不會詳細說明,如果你是第一次接觸Django ,本文會讓你在感性上對Django有個認識,完成本文操作後會讓你有興趣閱讀的相關書籍和文檔。 本博客 ...
  • ★★ 輸入文件:dec.in 輸出文件:dec.out 簡單對比 時間限制:1 s 記憶體限制:128 MB Description 出題是一件痛苦的事情! 題目看多了也有審美疲勞,於是我捨棄了大家所熟悉的A+B Problem,改用A-B了哈哈! 好吧,題目是這樣的:給出一串數以及一個數字C,要求計 ...
  • ★☆ 輸入文件:cjzd.in 輸出文件:cjzd.out 簡單對比 時間限制:1 s 記憶體限制:128 MB 問題描述 今年是國際數學聯盟確定的“2000——世界數學年”,又恰逢我國著名數學家華羅庚先生誕辰90周年。在華羅庚先生的家鄉江蘇金壇,組織了一場別開生面的數學智力競賽的活動,你的一個好朋友 ...
  • 問題描述 將整數n分成k份,且每份不能為空,任意兩種方案不能相同(不考慮順序)。 例如:n=7,k=3,下麵三種分法被認為是相同的。 1,1,5; 1,5,1; 5,1,1; 問有多少種不同的分法。 輸入:n,k (7≤n≤200,2≤k≤6) 輸出:一個整數,即不同的分法。 樣例 輸入: 7 3 ...
  • php-人員許可權管理(RBAC) 許可權管理可以想做vip的功能,普通用戶和vip用戶的功能是不一樣的,大致會用到五張表:用戶表、角色表、功能表,還有他們之間互相關聯的表:用戶與角色表、角色與功能表 我用到的五張表如下: 一.首先寫的是管理員頁面 1.用下拉列表顯示用戶名 2.因為上面已經造了新對象, ...
  • 1 ...
  • ★★ 輸入文件:roads.in 輸出文件:roads.out 簡單對比 時間限制:1 s 記憶體限制:128 MB 譯 by CmYkRgB123 描述 Farmer John 剛剛得到了幾個新農場!他想把這幾個農場用路連接起來,這樣他就可以通過筆直的公路從一個農場到另一個農場了。現在已經有了幾條連 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...