前言 作為一名準備轉行數據分析的小白,我先接觸到的是網路爬蟲學習,每次爬蟲運行都有新的bug收穫,通過不斷debug,終於稍微能爬一些數據了,在此想和大家分享一下~ 私信小編007即可獲取小編精心準備的PDF十套哦! 看看最後一頁搜索結果 。 PS:小技巧,在頁面下部跳轉頁面輸入一個很大的數字,比如 ...
前言
作為一名準備轉行數據分析的小白,我先接觸到的是網路爬蟲學習,每次爬蟲運行都有新的bug收穫,通過不斷debug,終於稍微能爬一些數據了,在此想和大家分享一下~
私信小編007即可獲取小編精心準備的PDF十套哦!
看看最後一頁搜索結果
。
PS:小技巧,在頁面下部跳轉頁面輸入一個很大的數字,比如10000可以跳到最後一頁。
右鍵查看網頁源代碼,CTRL+F搜索關鍵要爬取信息,如下圖紅框內容
頁面紅框上的 大數據分析師 字樣竟然搜不到!!!
可能藏在json文件里了
那就再試試,搜一下 數據分析師
這下總算有了
為什麼會這樣呢,經過檢查發現:
大和後面的數據分析中間有個<b>標簽,這是什麼意思,嚇得我趕緊百度了一下
設置成粗體?exm?好吧 圖上確實是顯示粗體
繼續觀察源代碼,發現我想要的信息都在這(下圖紅框),看來不用抓包分析辣~
沒時間解釋了,快上車!
好吧,你根本不是司機,開始寫代碼。。。
以上是設置路徑和為最後數據寫入excel文件做鋪墊
result11=[]
result21=[]
result31=[]
result41=[]
result51=[]
建立五個空的列表放我要抓的最終信息
裡面沒有中文啊,複製出來訪問看看。
果然一樣!!!
註意到這個url最後有個p=1,這很可能是頁碼,我換成5試試吧
看上圖,果然是這樣,我試試最後第90頁
range(1,91)迴圈爬取1~90頁,p="+str(k)是為了構造迴圈網址(我要把90頁全爬下來)
通過觀察網頁構造選擇正則提取
每次提取一頁中的所有信息不斷迴圈存在result11~51的列表裡
結果如下圖
一共5221條數據,並不是網頁搜索的12354條,這活生生被吃了一半不止啊!
我又運行了一下,果然數量不一樣了,好吧。。。這個問題還有待解決,麻煩各位dalao懂的話留言提醒一下小弟
這個<b></b>標簽看著難受,用excel做點後處理
查找替換
報錯了額
原來我預設的是wps打開,換成office的excel打開之後操作結果如下
是不是好多了呢,有機會以後繼續謝謝針對本數據後續的數據分析~
完整代碼如下:
代碼運行大概15~20second