目標:用Python抓取實習僧網站上數據分析相關崗位信息,並用Python做可視化分析 軟體:Python 3.0 版本 一、 實習僧網站爬蟲介紹 實習僧網址:http://www.shixiseng.com/ 在搜索框輸入 數據 然後跳轉到一下頁面,Fn + f12 就能看到網頁調試工具。 刷新頁 ...
目標:用Python抓取實習僧網站上數據分析相關崗位信息,並用Python做可視化分析
軟體:Python 3.0 版本
一、 實習僧網站爬蟲介紹
實習僧網址:http://www.shixiseng.com/
在搜索框輸入 數據 然後跳轉到一下頁面,Fn + f12 就能看到網頁調試工具。
刷新頁面,然後點進第一個鏈接
url 就是我們爬蟲要用到的url, 其中k和p的含義已經解釋了。點擊尾頁,可以知道共109頁數據。
然後利用request Headers信息用來模擬瀏覽器登錄。
網頁上右鍵後查看源代碼。我們要爬取職位名稱,職位詳情網址,月薪,工作地點等信息。寫得正則表達為:
好了。基本工作完成,這就需要進一步構建代碼了。
如何翻頁,爬取下一頁呢,就是利用迴圈對參數P的調整,實現整個頁面的抓取。
然後就是對爬取欄位的組合,並且寫入excel文件。
需要用到: import xlwt #讀寫Excel 文件
最終運行代碼,得到結果,共1085條記錄,用時30秒多。
二、PTYHON數據分析
首先導入需要用到的包,然後讀取Excel文件
得到:
網址數據暫時用不上 因此就刪除這兩列
主要從薪酬,工作天數,工作地點和時間要求四個方面分析。
先看一個簡單的:
1 工作天數的要求和分佈
2 實習時間的要求
3 實習地點的分佈
What the hell?
過濾掉頻數小於5的
4 實習薪酬的水平
額 同樣的問題,,,
168個類別,所以擠成那個樣子了。。。過濾掉頻數小於10的。
總結一下:
實習地點:數據分析崗位實習北京和上海集中較多,然後是廣州和深圳。其次是二線城市,成都,南京,杭州等。
工作天數:要求5天/周的實習最多,占比達到44.61%,其次是4/周和3/周。
實習時間:要求至少3個月的實習最多,其次是6個月,4個月。
實習薪酬:集中在100-120元區間上的最多。超過一半的實習工資超過了100。
--------------------------------------------------
第一次寫,歡迎指正。