實習僧網站招聘信息爬取以及可視化操作

-Advertisement-

目標：用Python抓取實習僧網站上數據分析相關崗位信息，並用Python做可視化分析軟體：Python 3.0 版本一、實習僧網站爬蟲介紹實習僧網址：http://www.shixiseng.com/ 在搜索框輸入數據然後跳轉到一下頁面，Fn + f12 就能看到網頁調試工具。刷新頁 ...

目標：用Python抓取實習僧網站上數據分析相關崗位信息，並用Python做可視化分析

軟體：Python 3.0 版本

一、實習僧網站爬蟲介紹

實習僧網址：http://www.shixiseng.com/

在搜索框輸入數據然後跳轉到一下頁面，Fn + f12 就能看到網頁調試工具。

刷新頁面，然後點進第一個鏈接

url 就是我們爬蟲要用到的url, 其中k和p的含義已經解釋了。點擊尾頁，可以知道共109頁數據。

然後利用request Headers信息用來模擬瀏覽器登錄。

網頁上右鍵後查看源代碼。我們要爬取職位名稱，職位詳情網址，月薪，工作地點等信息。寫得正則表達為：

好了。基本工作完成，這就需要進一步構建代碼了。

如何翻頁，爬取下一頁呢，就是利用迴圈對參數P的調整，實現整個頁面的抓取。

然後就是對爬取欄位的組合，並且寫入excel文件。

需要用到： import xlwt #讀寫Excel 文件

最終運行代碼，得到結果，共1085條記錄，用時30秒多。

二、PTYHON數據分析

首先導入需要用到的包，然後讀取Excel文件

得到：

網址數據暫時用不上因此就刪除這兩列

主要從薪酬，工作天數，工作地點和時間要求四個方面分析。

先看一個簡單的：

1 工作天數的要求和分佈

2 實習時間的要求

3 實習地點的分佈

What the hell?

過濾掉頻數小於5的

4 實習薪酬的水平

額同樣的問題，，，

168個類別，所以擠成那個樣子了。。。過濾掉頻數小於10的。

總結一下：

實習地點：數據分析崗位實習北京和上海集中較多，然後是廣州和深圳。其次是二線城市，成都，南京，杭州等。

工作天數：要求5天/周的實習最多，占比達到44.61%，其次是4/周和3/周。

實習時間：要求至少3個月的實習最多，其次是6個月，4個月。

實習薪酬：集中在100-120元區間上的最多。超過一半的實習工資超過了100。

--------------------------------------------------

第一次寫，歡迎指正。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

讓python bottle框架支持jquery ajax的RESTful風格的PUT和DELETE等請求

這兩天在用python的bottle框架開發後臺管理系統，介面約定使用RESTful風格請求，前端使用jquery ajax與介面進行交互，使用POST與GET請求時都正常，而Request Method使用PUT或DELETE請求時，直接爆“HTTP Error 405: Method Not A ...
django基礎之資料庫操作

Django 自稱是“最適合開發有限期的完美WEB框架”。本文參考《Django web開髮指南》，快速搭建一個blog 出來，在中間涉及諸多知識點，這裡不會詳細說明，如果你是第一次接觸Django ，本文會讓你在感性上對Django有個認識，完成本文操作後會讓你有興趣閱讀的相關書籍和文檔。本博客 ...
610. 數對的個數

★★ 輸入文件：dec.in 輸出文件：dec.out 簡單對比時間限制：1 s 記憶體限制：128 MB Description 出題是一件痛苦的事情！題目看多了也有審美疲勞,於是我捨棄了大家所熟悉的A+B Problem,改用A-B了哈哈！好吧，題目是這樣的：給出一串數以及一個數字C，要求計 ...
87. [NOIP2000] 乘積最大

★☆ 輸入文件：cjzd.in 輸出文件：cjzd.out 簡單對比時間限制：1 s 記憶體限制：128 MB 問題描述今年是國際數學聯盟確定的“2000——世界數學年”，又恰逢我國著名數學家華羅庚先生誕辰90周年。在華羅庚先生的家鄉江蘇金壇，組織了一場別開生面的數學智力競賽的活動，你的一個好朋友 ...
93. [NOIP2001] 數的劃分

問題描述將整數n分成k份，且每份不能為空，任意兩種方案不能相同(不考慮順序)。例如：n=7，k=3，下麵三種分法被認為是相同的。 1，1，5; 1，5，1; 5，1，1; 問有多少種不同的分法。輸入：n，k (7≤n≤200，2≤k≤6) 輸出：一個整數，即不同的分法。樣例輸入： 7 3 ...
php-人員許可權管理（RBAC）

php-人員許可權管理（RBAC）許可權管理可以想做vip的功能，普通用戶和vip用戶的功能是不一樣的，大致會用到五張表：用戶表、角色表、功能表，還有他們之間互相關聯的表：用戶與角色表、角色與功能表我用到的五張表如下：一.首先寫的是管理員頁面 1.用下拉列表顯示用戶名 2.因為上面已經造了新對象， ...
php批量修改表結構

1 ...
151. [USACO Dec07] 建造路徑

★★ 輸入文件：roads.in 輸出文件：roads.out 簡單對比時間限制：1 s 記憶體限制：128 MB 譯 by CmYkRgB123 描述 Farmer John 剛剛得到了幾個新農場！他想把這幾個農場用路連接起來，這樣他就可以通過筆直的公路從一個農場到另一個農場了。現在已經有了幾條連 ...

實習僧網站招聘信息爬取以及可視化操作

一、 實習僧網站爬蟲介紹

二、PTYHON數據分析

一、實習僧網站爬蟲介紹