python爬蟲利器Selenium使用詳解

-Advertisement-

簡介：用pyhon爬取動態頁面時普通的urllib2無法實現，例如下麵的京東首頁，隨著滾動條的下拉會載入新的內容，而urllib2就無法抓取這些內容，此時就需要今天的主角selenium。 Selenium是一個用於Web應用程式測試的工具。Selenium測試直接運行在瀏覽器中，就像真正的用戶在 ...

簡介：

用pyhon爬取動態頁面時普通的urllib2無法實現，例如下麵的京東首頁，隨著滾動條的下拉會載入新的內容，而urllib2就無法抓取這些內容，此時就需要今天的主角selenium。

Selenium是一個用於Web應用程式測試的工具。Selenium測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。支持的瀏覽器包括IE、Mozilla Firefox、Mozilla Suite等。使用它爬取頁面也十分方便，只需要按照訪問步驟模擬人在操作就可以了，完全不用操心Cookie,Session的處理，它甚至可以幫助你輸入賬戶，密碼，然後點擊登陸按鈕，對於上面的滾動條，你只需要讓瀏覽器滾到到最低端，然後保存頁面就可以了。以上的這些功能在應對一些反爬蟲機制時十分有用。接下來就開始我們的講解正文，帶領大家實現一個需要登錄的動態網頁的爬取。

案例實現：

使用selnium需要選擇一個調用的瀏覽器並下載好對應的驅動，在桌面版可以選擇Chrome,FireFox等，伺服器端可以使用PhantomJS，桌面版可以直接調出來瀏覽器觀察到變化，所以一般我們可以在桌面版用Chrome等調試好之後，將瀏覽器改為PhantomJS然後上傳到伺服器使其運行，這裡我們直接以PhantomJS做演示.

首先時導入模塊：

1 from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
2 from selenium import webdriver

接下來時初始化一個瀏覽器，參數中可以指定載入網頁的一些屬性：

1 cap = webdriver.DesiredCapabilities.PHANTOMJS
2 cap["phantomjs.page.settings.resourceTimeout"] = 180
3 cap["phantomjs.page.settings.loadImages"] = False
4 
5 driver = webdriver.PhantomJS(executable_path="/home/gaorong/phantomjs-2.1.1-linux-x86_64/bin/phantomjs", desired_capabilities=cap)

上面初始了PhantomJS並設置了瀏覽器的路徑，載入屬性選擇了資源載入超時時間和不載入圖片（我們只關心網頁文本）。在這裡還可以選擇其他設置。

設置一些屬性，並下載一個網頁

1 driver.set_page_load_timeout(180)     
2 driver.get('https://otx.alienvault.com/accounts/login/')
3 time.sleep(5)
4 driver.save_screenshot('./login.png')   #為便於調試，保存網頁的截圖

由於在伺服器端運行難免出錯，可以用save_screenshot保存當前網頁的頁面便於調試。

接下來就是輸入賬戶和密碼登陸，以獲取網站的Cookies，便於後面請求。

 1 #輸入username和password 
 2 driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/input[1]").send_keys('*****')   
 3 time.sleep(1)
 4 print 'input user success!!!'
 5 
 6 driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/input[2]").send_keys('****')
 7 time.sleep(1)
 8 print 'input password success!!!'
 9 
10 driver.find_element_by_xpath("/html/body/div[1]/div[1]/login/div[2]/div/form/button").click()
11 time.sleep(5)

上面代碼使用find_element_by_xpath獲取輸入框的位置後輸入賬戶和密碼並點擊登陸鍵，可以看到一些都很方便。它會自動跳轉到下一個頁面，我們只需要sleep幾秒等待它。

我們需要爬取的網頁信息在某個特定的element里，所以我們需要判斷一下這個element是否出現：

 1  try:
 2      element = WebDriverWait(driver, 10).until(
 3          EC.presence_of_element_located((By.CLASS_NAME, 'pulses'))
 4      )
 5      print 'find element!!!'        
 6  except:
 7      print 'not find element!!!'
 8      print traceback.format_exc()
 9      driver.quit()

上面判斷 class為 'pulse' 這個element是否出現，如果等待10s後還未出現，則selenum會爆出TimeoutError錯誤。

上面就進行了基本的初始化，然後就需要處理動態的內容了，這個網頁像京東一樣會隨著下拉自動出現內容，所以我們需要實現下拉滾動條：

1 print 'begin scroll to get info page...'
2 t1 = time.time()
3 n = 60   #這裡可以控制網頁滾動距離
4 for i in range(1,n+1):
5     s = "window.scrollTo(0,document.body.scrollHeight/{0}*{1});".format(n,i)
6     #輸出滾動位置，網頁大小，和時間
7     print s, len(driver.page_source),time.time()-t1
8     driver.execute_script(s)
9     time.sleep(2)

其中driver.page_source就是獲取網頁文本。當滾動完畢後我們就可以調用它然後寫到一個文件里。這樣就完成了這個的程式邏輯。

高級：

用selenim可以應對常見的反爬蟲策略，因為相當於一個人在瀏覽網頁，但是對於驗證碼這些還需要做額外的處理，還有一點就是訪問速度不能過快，畢竟他需要調用一個瀏覽器，如果嫌他速度慢的話我們可以在必要的時候使用他，非必要時候可以使用requests庫進行操作。

這裡有兩篇博客大家可以參考查閱：Python爬蟲利器五之Selenium用法和常用函數

同時還有一個Selenum IDE可以進行腳本錄製及案例轉換，我想大家在生活中都可以用得著，參見這裡

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

不啟動VS2013，直接打開幫助文檔的方法

在使用VS2013做開發的時候，當我們需要查詢一個知識點時，直接按“F1”鍵就可以打開配套的幫助文檔。如果在沒有打開VS2013的情況想查看它的幫助文檔，我們應該怎麼辦呢？我們能否在桌面創建一個可以直接打開VS2013的快捷呢？答案肯定是可以的。需要怎麼創建這個快捷鍵？按照我們的直觀感覺肯定是，找 ...
Entity Framework 學習初級篇5--ObjectQuery查詢及方法

ObjectQuery 類支持對實體數據模型 (EDM) 執行 LINQ to Entities 和 Entity SQL 查詢。ObjectQuery還實現了一組查詢生成器方法，這些方法可用於按順序構造等效於 Entity SQL 的查詢命令。下麵是 ObjectQuery的查詢生成器方法以及等 ...
【譯著】Code First ：使用Entity. Framework編程(7)

Chapter7 Advanced Concepts 第7章高級概念 The Code First modeling functionality that you have seen so far should be enough to get you up and running with mo ...
C#實現正則表達式

尚未整理，請稍後 ...
ASP.NET Core Web API 開發-RESTful API實現

ASP.NET Core Web API 開發-RESTful API實現 REST 介紹：符合REST設計風格的Web API稱為RESTful API。具象狀態傳輸（英文：Representational State Transfer，簡稱REST）是Roy Thomas Fielding博 ...
ASP.NET Core CORS 簡單使用

CORS 全稱"跨域資源共用"（Cross-origin resource sharing）。跨域就是不同域之間進行數據訪問，比如 a.sample.com 訪問 b.sample.com 中的數據，我們如果不做任何處理的話，就會出現下麵的錯誤： XMLHttpRequest cannot loa ...
HTTP Error 503. The service is unavailable

今天發佈了MVC4網站，設置好IIS後老是提示“HTTP Error 503. The service is unavailable”，網上找了好多資料都不行，最後改變一下應用池的ID就可以了。 ...
ASP.NET Web API（一）：使用初探，GET和POST數據

概述 REST(Representational State Transfer表述性狀態轉移)而產生的REST API的討論越來越多，微軟在ASP.NET中也添加了Web API的功能。我們看dudu的文章HttpClient + ASP.NET Web API, WCF之外的另一個選擇知道了博客 ...