都說Python找不到工作？那這些崗位都是什麼？零基礎爬智聯！

-Advertisement-

前言作為一名準備轉行數據分析的小白，我先接觸到的是網路爬蟲學習，每次爬蟲運行都有新的bug收穫，通過不斷debug，終於稍微能爬一些數據了，在此想和大家分享一下~ 私信小編007即可獲取小編精心準備的PDF十套哦! 看看最後一頁搜索結果。 PS:小技巧，在頁面下部跳轉頁面輸入一個很大的數字，比如 ...

前言

作為一名準備轉行數據分析的小白，我先接觸到的是網路爬蟲學習，每次爬蟲運行都有新的bug收穫，通過不斷debug，終於稍微能爬一些數據了，在此想和大家分享一下~

私信小編007即可獲取小編精心準備的PDF十套哦!

看看最後一頁搜索結果

。

PS:小技巧，在頁面下部跳轉頁面輸入一個很大的數字，比如10000可以跳到最後一頁。

右鍵查看網頁源代碼，CTRL+F搜索關鍵要爬取信息，如下圖紅框內容

頁面紅框上的大數據分析師字樣竟然搜不到！！！

可能藏在json文件里了

那就再試試，搜一下數據分析師

這下總算有了

為什麼會這樣呢，經過檢查發現：

大和後面的數據分析中間有個<b>標簽，這是什麼意思，嚇得我趕緊百度了一下

設置成粗體？exm？好吧圖上確實是顯示粗體

繼續觀察源代碼，發現我想要的信息都在這（下圖紅框），看來不用抓包分析辣~

沒時間解釋了，快上車！

好吧，你根本不是司機，開始寫代碼。。。

以上是設置路徑和為最後數據寫入excel文件做鋪墊

result11=[]

result21=[]

result31=[]

result41=[]

result51=[]

建立五個空的列表放我要抓的最終信息

裡面沒有中文啊，複製出來訪問看看。

果然一樣！！！

註意到這個url最後有個p=1，這很可能是頁碼，我換成5試試吧

看上圖，果然是這樣，我試試最後第90頁

range（1，91）迴圈爬取1~90頁，p="+str(k)是為了構造迴圈網址（我要把90頁全爬下來）

通過觀察網頁構造選擇正則提取

每次提取一頁中的所有信息不斷迴圈存在result11~51的列表裡

結果如下圖

一共5221條數據，並不是網頁搜索的12354條，這活生生被吃了一半不止啊！

我又運行了一下，果然數量不一樣了，好吧。。。這個問題還有待解決，麻煩各位dalao懂的話留言提醒一下小弟

這個<b></b>標簽看著難受，用excel做點後處理

查找替換

報錯了額

原來我預設的是wps打開，換成office的excel打開之後操作結果如下

是不是好多了呢，有機會以後繼續謝謝針對本數據後續的數據分析~

完整代碼如下：

代碼運行大概15~20second

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java：JavaBean和BeanUtils

本文內容：什麼是JavaBean JavaBean的使用 BeanUitls 利用DBUtils從資料庫中自動載入數據到javabean對象中首發日期：2018-07-21 什麼是JavaBean JavaBean是一種遵循開發規範的一種類。在JavaWeb開發中，經常用來存儲實體信息，比如用戶... ...
feign中的hytrix和turbin配置

這裡我用了兩個生產者和兩個消費者進行演示,如下圖(畫的不好看,湊活看看): 這裡我就只講下怎麼註冊到dashbord和相關的配置,提供者和消費者等代碼可以去下載查看: 1.hystrix的配置: 這裡我將熔斷器(或者稱為斷路器配置到了消費者端): 啟動類: pom.xml: StuConsumerA ...
eclipse自定義工作區列表

打開eclipse,在菜單欄上找到Window,點擊Window >Perspective >Customize Perspective...,會看到彈出來的一個視窗,然後點擊最後一個Shortcuts,然後將Shortcut Categories下麵的所有選項都去掉,然後點擊左邊的每一項,右邊 ...
集合的嵌套（泛型）和遞歸演算法

1、集合的嵌套：集合的用法其實和數組的用法有很多共同之處，在使用數組的時候，二維數組就是數組的嵌套；那麼在集合之中是否也可以這樣呢？當然也是可以的，例如對於最複雜的的map集合； map<string, map<string,student>>;這樣map中就嵌套了一個map集合；其中對於 ...
Spring核心——設計模式與IoC

“Spring”——每一個Javaer開發者都繞不開的字眼，從21世紀第一個十年國內異常活躍的SSH框架，到現在以Spring Boot作為入口粘合了各種應用。Spring現在已經完成了從web入口到微服務架構再到數據處理整個生態，看著現在https://spring.io/projects上長長的 ...
Spring MVC 註解基礎（一）

@Controller @Controller 註解用於標記在 Java 類上。被 @Controller 標記過的類就是一個 SpringMVC Controller對象。DispatcherServlet 會掃描使用了該註解的類的方法，並檢查對應方法是否有 @RequestMapping 註解標 ...
Java中goto標簽的使用

編寫此文僅為以後可以複習。最近在自學Java核心技術(很好的書，推薦！！)，也是第一次從上面瞭解了goto，或許只是淺層瞭解。錯誤之處希望大佬們給予批評與建議！！謝謝！！！ Java核心技術中就提到過：無限制的使用goto語句確實是導致錯誤的根源，但是有些情況下，偶爾使用goto 跳出迴圈還是 ...
java 三大框架 hibernate部分知識實現增刪該查操作

1、三層架構表現層 web層（MVC是一個表現層的設計模型）業務層 service層持久層 dao層2、三大框架和三層架構的關係（建議學習三大框架的順序：先學習hibernate在學習struts2框架，最後學習spring 框架） hibernate框架：它是一個持久層框架 struts2框 ...