Python-Scrapy抓取百度數據並分析

-Advertisement-

抓取智聯招聘和百度搜索的數據併進行分析,使用visual studio編寫代碼mongodb和SQLServer存儲數據。使用scrapy框架結合 selenium爬取百度搜索數據，併進行簡要的數據的分析！！爬取前的頁面分析: 打開百度搜索頁面，並查看網頁源代碼，問題便出現，無法查看到頁面源代碼， ...

抓取智聯招聘和百度搜索的數據併進行分析,使用visual studio編寫代碼mongodb和SQLServer存儲數據。使用scrapy框架結合 selenium爬取百度搜索數據，併進行簡要的數據的分析！！

爬取前的頁面分析:

打開百度搜索頁面，並查看網頁源代碼，問題便出現，無法查看到頁面源代碼，如下，只是返回一個狀態說明，這時可以確定頁面數據是動態生成，常規的爬取行不通。

在瀏覽器中進行調試分析，可以發現需要定位使用的html元素，通過這一步至少可以將以下兩個元素的XPATH或CSS Selector的表達式求解出來。

制定爬取方案

既然搜索頁面的內容是動態生成，常規的http請求後無法獲取數據，針對這種問題的解決方法：

l 通過抓包工具，進行對http請求進行分析，找到實際數據請求的js代碼後進行模擬請求獲取數據，這種方法耗時耗力，且是無法適應頁面更改的情況。

l 通過瀏覽器框架請求，並編寫程式和瀏覽器通信獲取數據分析，對於這種方法的選擇有很多，如在windows上可以使用IE Browser控制項，其他的可以使用其他內核的瀏覽器，這種方法的缺點是速度較慢。

l 這裡選取的方法是使用 Selenium + Phantomjs的方法，這個結合scrapy也算是較為經典的一種方法。並且 Selenium + Phantomjs 也是作為Web應用程式進行自動化測試的一套方案。

l Selenium : Selenium 是一個用於Web應用程式測試的工具，可以搭配主流瀏覽器進行使用，如 IE ，Chrome ，Firefox等

l Phantomjs: 一個基於webkit內核的無頭瀏覽器，即沒有UI界面，即它就是一個瀏覽器，只是其內的點擊、翻頁等人為相關操作需要程式設計實現。

編寫爬蟲代碼

開始實際編寫代碼前，對爬取步驟的梳理。

 自動填寫搜索關鍵字 – 自動觸發搜索功能 – 抓取頁面搜索數據（不包含廣告推廣項） – 分頁跳轉 …..

輸入關鍵字併進行查找，對關鍵字“IT教育”進行搜索

對第一頁右邊欄的“相關機構”（如下圖）進行抓取（首先需要觸發“展開”事件）

在開啟爬蟲，進行爬取數據的，爬取結果如下：

分析數據經過抓取，共抓取了76頁，抓取的數據如下: Json文件 [[圖片上傳中在SQLServer資料庫中。

對抓取數據進行關鍵字提取，並製作對應的標簽雲，得到的標簽雲圖為.分析工具為python，通過jieba分詞和pycloundtag兩個模塊進行，得到的分析結果如下：

分析搜索“IT教育”得到結果得出的初步結論，出現次數較多：

n 城市：北京深圳杭州武漢長沙等

n 機構：北大青鳥達內傳智播客等

n 語言： java php html5 等

github: https://github.com/Shadow-Hunter-X/Crawl-Recruit-Data

更多：https://blue-shadow.top/

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

mac開啟Airdrop的硬體要求

OS X 10.13之後，新的airdrop需要硬體支持，需要藍牙4.0 以及Wi-Fi 5GHz 開啟!!!!對於 OS X 10.12 以下的舊系統。即使是有線網路也可以使用，通過以下命令開啟有線網路下的airdrop：defaults write com.Apple.NetworkBrowse... ...
2018-02-04 AppleScript類自然語言與非英語語法設計

最早知曉是 "之前C 中文版的github討論" 里提到了AppleScript有多語言版. 昨天想起, 覺得它畢竟是為數不多(僅有的?)大公司開發的非英語語法的編程語言, 不禁好奇它的前世今生. 於是作了一點調研. 網上相關資料不多, 最早的一本AppleScript專著"AppleScript ...
[Linux] 取兩個文件的並集/交集/差集

uniq -d是只列印重覆行 -u是只列印獨一無二的行文件A : abcd文件B: cdef取並集:A + B sort A B|uniq 取交集: sort A B|uniq -d 取差集:A - B sort A B B|uniq -u 取差集:B - A sort A B A|uniq -u ...
shell的 ls命令

Linux下shell 的 ls 命令這些命令不僅僅可以單獨使用也可結合起來使用，比如 ls -al, ls -at等，功能為他們各自的功能相且。此篇博客參考《循序漸進Linux》，所有命令都是我自試過的，為了自己複習也為了讓更多的人瞭解shell的 ls 命令,若有錯誤的地方請指出，一定改正， ...
docker的簡單使用----適用於新手

Docker 1、簡介 Docker是一個開源的應用容器引擎將軟體編譯成一個鏡像；然後在鏡像里各種軟體做好配置，將鏡像發佈出去，其他的使用這就可以直接使用這個鏡像。運行中的這個鏡像叫做容器，容器啟動速度快，類似ghost操作系統，安裝好了什麼都有了； 2、Docker的核心概念 docker主機（ ...
什麼是shell和終端？

[TOC] 什麼是shell？當談到命令時，我們實際上指的是。 shell是一個接收由鍵盤輸入的命令，並將其傳遞給操作系統來執行的程式。幾乎所有的Linux發行版都提供shell程式，該程式來自於稱之為bash的GNU項目。bash是Bourne Again Shell的首字母縮寫，Bourn ...
MySQL學習之路(一)——初涉MySQL。

MySQL學習之路(一) 1.1MySQL的概述 MySQL由瑞典MySQL AB公司開發，目前屬於Oracle公司。 MySQL是一個開源的關係型資料庫管理系統。 MySQL分為社區版和企業版。 1.2MySQL的安裝與配置 1.2.1 安裝方式: msi(推薦)和zip； 1.2.2MySQL目 ...
MySQL中的自適應哈希索引

眾所周知，InnoDB使用的索引結構是B+樹，但其實它還支持另一種索引：自適應哈希索引。哈希表是數組+鏈表的形式。通過哈希函數計算每個節點數據中鍵所對應的哈希桶位置，如果出現哈希衝突，就使用拉鏈法來解決。更多內容可以參考百度百科-哈希表從以上可以知道，哈希表查找最優情況下是查找一次.而Inno ...