使用scrapy-selenium, chrome-headless抓取動態網頁

-Advertisement-

在使用scrapy抓取網頁時, 如果遇到使用js動態渲染的頁面, 將無法提取到在瀏覽器中看到的內容. 針對這個問題scrapy官方給出的方案是scrapy selenium, 這是一個把selenium集成到scrapy的開源項目, 它使用selenium抓取已經渲染好(js代碼已經執行完成)的動態 ...

在使用scrapy抓取網頁時, 如果遇到使用js動態渲染的頁面, 將無法提取到在瀏覽器中看到的內容. 針對這個問題scrapy官方給出的方案是scrapy-selenium, 這是一個把selenium集成到scrapy的開源項目, 它使用selenium抓取已經渲染好(js代碼已經執行完成)的動態網頁.

事實上selenium自己也沒有渲染動態網頁的能力，它還是得依賴瀏覽器, 用瀏覽器作為動態網頁的渲染引擎. 目前主流的瀏覽器都能以headless模式運行, 即沒有圖形界面只有命令行界面. 同時提供了驅動程式和headless模式運行的瀏覽器交互的驅動, 驅動程式提供了一些API, 用於控制瀏覽器的行為, 如: 拖動滾動條, 生成網頁縮略圖等. selenium整合了這些瀏覽器驅動, 讓用戶可以用統一的介面和不同的瀏覽器進行交互, 所以selenium本質上就是一個adapter.

本文以chrome瀏覽器為網頁渲染引擎, 完整地講解抓取動態網頁的方法.

第一步安裝chrome

    本人長期在linux伺服器平臺下工作, 所以使用的環境是ubuntu-18.04.3-live-server. 以前還沒在伺服器安裝過瀏覽器, 也挺陌生的. 首先進入chrome的官網https://www.google.cn/chrome/ 下載安裝包google-chrome-stable_current_amd64.deb. 在頁面底部，有個”其他平臺“鏈接, 點進去找到這個安裝包.

    安裝chrome: sudo dpkg -i google-chrome-stable_current_amd64.deb
    出現依賴問題, 修複: sudo apt --fix-broken install
    再次安裝就可以了.

    找個網站驗證一下chrome是否能夠正常工作:
    google-chrome --headless --no-sandbox --disable-gpu --dump-dom https://www.gushiwen.org/ >> index.html
    如果在當前目錄下能夠正常的生成index.html文件，表示chrome已經安裝成功.

第二步安裝scrapy-selenium, chromedriver

     安裝scrapy-selenium: pip install scrapy-selenium
     查看你的chrome版本: google-chrome --version
     Google Chrome 80.0.3987.149
    在這裡http://chromedriver.storage.googleapis.com/index.html找到對應版本的chromedriver. 我用的dirver是http://chromedriver.storage.googleapis.com/80.0.3987.16/chromedriver_linux64.zip.

    手動安裝dirver:
    unzip chromedriver_linux64.zip
    chmod a+x chromedriver
    cp chromedriver /usr/bin/
    這樣就把chromedriver安裝到/usr/bin目錄下了.

第三步為你的scrapy項目配置好scrapy-selenium

在scrapy項目的settings.py文件中添加如下代碼配置scrapy-selenium

SELENIUM_DRIVER_NAME = 'chrome' #瀏覽器driver名字
SELENIUM_DRIVER_EXECUTABLE_PATH = '/usr/bin/chromedriver' #瀏覽器driver的位置
#chrome瀏覽器的參數
SELENIUM_DRIVER_ARGUMENTS=['--headless', '--no-sandbox', '--disable-gpu'] 

#下載器中間件配置
DOWNLOADER_MIDDLEWARES = {
    'scrapy_selenium.SeleniumMiddleware': 800
}

創建一個spider驗證一下scrapy-selenium是否可用

import scrapy
from scrapy_selenium import SeleniumRequest

class Myspider(scrapy.Spider):
    name = "myspider"
    
    def start_requests(self):
        #這裡使用SeleniumRequest抓取頁面, 在parse中抓取頁面也要用它
        yield SeleniumRequest(url='https://www.gushiwen.org/', callback=self.parse)

   def parse(self, response):
       with open('index.html', 'wb') as f:
            f.write(response.body)

     運行這個spider
     scrapy crawl myspider
     在當前目錄就會有一個index.html文件. 如果正常的話會發現使用js動態生成的內容已經被渲染到dom文檔中了.
     現在已經成功地抓取到一個動態頁面啦!

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

[python第二課]語言元素

print("電腦硬體系統分五大部分組成：\n1、運算器\n2、控制器\n3、存儲器\n4、輸入設備\n5、輸出設備\n\n馮·諾依曼結構關鍵點：\n1、要將存儲設備與中央處理器分開；\n2、將數據以二進位方式編碼\n")print("變數和類型\n1、整形：python2.x中有int和long ...
[python第一課]初識python

print("1、第一章：初識python\npython歷史：\n1、python是用c語言寫的\n2、python是可以調用c語言庫函數\n3、Python1.0是1994年1月\n4、Python2.0是2000年10月16日\n5、Python3.0是2008年12月3日\n5、當前用的Py ...
C 實戰練習題目2

題目：企業發放的獎金根據利潤提成。利潤(I)低於或等於10萬元時，獎金可提10%；利潤高於10萬元，低於20萬元時，低於10萬元的部分按10%提成，高於10萬元的部分，可提成7.5%； 20萬到40萬之間時，高於20萬元的部分，可提成5%； 40萬到60萬之間時高於40萬元的部分，可提成3%； ...
go：數據類型

Go語言中有豐富的數據類型，除了基本的整型、浮點型、布爾型、字元串外，還有數組、切片、結構體、函數、map、通道（channel）等。Go 語言的基本類型和其他語言大同小異。 1.基本數據類型整型整型分為以下兩個大類：按長度分為：int8、int16、int32、int64 對應的無符號整型： ...
Window中的shellcode編寫框架（入門篇）

Shellcode 定義是一段可註入的指令（opcode），可以在被攻擊的程式內運行。特點短小精悍，靈活多變，獨立存在，無需任何文件格式的包裝，因為shellcode直接操作寄存器和函數，所以opcode必須是16進位形式。因此也不能用高級語言編寫shellcode。在記憶體中運行，無需運行在固 ...
Java - Java開發中的安全編碼問題

近年來，網路安全越來越受到開發者的重視。關註安全編碼能很大程度上避免安全漏洞的產生，也能有效保護用戶的利益不被輕易侵犯。本文從6個方面簡述了Java安全編碼的問題，歡迎交流指正。 ...
利用Python獲取文件類型

這裡選擇使用使用filetype獲取文件的類型。使用filetype之前，先用pip安裝filetype。 #!/usr/bin/python3 import filetype import argparse import sys def get_parameter(): parser=argpa ...
聽說用 Lombok 可以早點下班？

聽說隔壁用 Lombok 的六點就下班了，我也想六點下班！好的，那麼這篇文章就介紹下什麼是 Lombok ， Lombok 做了什麼以及 Lombok 是怎麼做的？在介紹之前，先通過是否使用 Lombok 的效果來看下對比，首先來看下沒有 Lombok 之前，我們的一個簡單的 Java 對 ...

使用scrapy-selenium, chrome-headless抓取動態網頁

第一步 安裝chrome

第二步 安裝scrapy-selenium, chromedriver

第三步 為你的scrapy項目配置好scrapy-selenium

第一步安裝chrome

第二步安裝scrapy-selenium, chromedriver

第三步為你的scrapy項目配置好scrapy-selenium