使用scrapy-selenium, chrome-headless抓取動態網頁

来源:https://www.cnblogs.com/brandonli/archive/2020/03/31/12609086.html
-Advertisement-
Play Games

在使用scrapy抓取網頁時, 如果遇到使用js動態渲染的頁面, 將無法提取到在瀏覽器中看到的內容. 針對這個問題scrapy官方給出的方案是scrapy selenium, 這是一個把selenium集成到scrapy的開源項目, 它使用selenium抓取已經渲染好(js代碼已經執行完成)的動態 ...


    在使用scrapy抓取網頁時, 如果遇到使用js動態渲染的頁面, 將無法提取到在瀏覽器中看到的內容. 針對這個問題scrapy官方給出的方案是scrapy-selenium, 這是一個把selenium集成到scrapy的開源項目, 它使用selenium抓取已經渲染好(js代碼已經執行完成)的動態網頁.

    事實上selenium自己也沒有渲染動態網頁的能力,它還是得依賴瀏覽器, 用瀏覽器作為動態網頁的渲染引擎. 目前主流的瀏覽器都能以headless模式運行, 即沒有圖形界面只有命令行界面. 同時提供了驅動程式和headless模式運行的瀏覽器交互的驅動, 驅動程式提供了一些API, 用於控制瀏覽器的行為, 如: 拖動滾動條, 生成網頁縮略圖等. selenium整合了這些瀏覽器驅動, 讓用戶可以用統一的介面和不同的瀏覽器進行交互, 所以selenium本質上就是一個adapter.

    本文以chrome瀏覽器為網頁渲染引擎, 完整地講解抓取動態網頁的方法.

第一步 安裝chrome

    本人長期在linux伺服器平臺下工作, 所以使用的環境是ubuntu-18.04.3-live-server. 以前還沒在伺服器安裝過瀏覽器, 也挺陌生的. 首先進入chrome的官網https://www.google.cn/chrome/ 下載安裝包google-chrome-stable_current_amd64.deb. 在頁面底部,有個”其他平臺“鏈接, 點進去找到這個安裝包.

    安裝chrome: sudo dpkg -i google-chrome-stable_current_amd64.deb
    出現依賴問題, 修複: sudo apt --fix-broken install
    再次安裝就可以了.

    找個網站驗證一下chrome是否能夠正常工作:
    google-chrome --headless --no-sandbox --disable-gpu --dump-dom https://www.gushiwen.org/ >> index.html
    如果在當前目錄下能夠正常的生成index.html文件,表示chrome已經安裝成功.


第二步 安裝scrapy-selenium, chromedriver

     安裝scrapy-selenium: pip install scrapy-selenium
     查看你的chrome版本: google-chrome --version
     Google Chrome 80.0.3987.149
    在這裡http://chromedriver.storage.googleapis.com/index.html找到對應版本的chromedriver. 我用的dirver是http://chromedriver.storage.googleapis.com/80.0.3987.16/chromedriver_linux64.zip.

    手動安裝dirver:
    unzip chromedriver_linux64.zip
    chmod a+x chromedriver
    cp chromedriver /usr/bin/
    這樣就把chromedriver安裝到/usr/bin目錄下了.

第三步 為你的scrapy項目配置好scrapy-selenium

    在scrapy項目的settings.py文件中添加如下代碼配置scrapy-selenium

SELENIUM_DRIVER_NAME = 'chrome' #瀏覽器driver名字
SELENIUM_DRIVER_EXECUTABLE_PATH = '/usr/bin/chromedriver' #瀏覽器driver的位置
#chrome瀏覽器的參數
SELENIUM_DRIVER_ARGUMENTS=['--headless', '--no-sandbox', '--disable-gpu'] 

#下載器中間件配置
DOWNLOADER_MIDDLEWARES = {
    'scrapy_selenium.SeleniumMiddleware': 800
}

    創建一個spider驗證一下scrapy-selenium是否可用

import scrapy
from scrapy_selenium import SeleniumRequest

class Myspider(scrapy.Spider):
    name = "myspider"
    
    def start_requests(self):
        #這裡使用SeleniumRequest抓取頁面, 在parse中抓取頁面也要用它
        yield SeleniumRequest(url='https://www.gushiwen.org/', callback=self.parse)

   def parse(self, response):
       with open('index.html', 'wb') as f:
            f.write(response.body)

     運行這個spider
     scrapy crawl myspider
     在當前目錄就會有一個index.html文件. 如果正常的話會發現使用js動態生成的內容已經被渲染到dom文檔中了.
     現在已經成功地抓取到一個動態頁面啦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • print("電腦硬體系統分五大部分組成:\n1、運算器\n2、控制器\n3、存儲器\n4、輸入設備\n5、輸出設備\n\n馮·諾依曼結構關鍵點:\n1、要將存儲設備與中央處理器分開;\n2、將數據以二進位方式編碼\n")print("變數和類型\n1、整形:python2.x中有int和long ...
  • print("1、第一章:初識python\npython歷史:\n1、python是用c語言寫的\n2、python是可以調用c語言庫函數\n3、Python1.0是1994年1月\n4、Python2.0是2000年10月16日\n5、Python3.0是2008年12月3日\n5、當前用的Py ...
  • 題目:企業發放的獎金根據利潤提成。 利潤(I)低於或等於10萬元時,獎金可提10%; 利潤高於10萬元,低於20萬元時,低於10萬元的部分按10%提成,高於10萬元的部分,可提成7.5%; 20萬到40萬之間時,高於20萬元的部分,可提成5%; 40萬到60萬之間時高於40萬元的部分,可提成3%; ...
  • Go語言中有豐富的數據類型,除了基本的整型、浮點型、布爾型、字元串外,還有數組、切片、結構體、函數、map、通道(channel)等。Go 語言的基本類型和其他語言大同小異。 1.基本數據類型 整型 整型分為以下兩個大類: 按長度分為:int8、int16、int32、int64 對應的無符號整型: ...
  • Shellcode 定義 是一段可註入的指令(opcode),可以在被攻擊的程式內運行。 特點 短小精悍,靈活多變,獨立存在,無需任何文件格式的包裝,因為shellcode直接操作寄存器和函數,所以opcode必須是16進位形式。因此也不能用高級語言編寫shellcode。在記憶體中運行,無需運行在固 ...
  • 近年來,網路安全越來越受到開發者的重視。關註安全編碼能很大程度上避免安全漏洞的產生,也能有效保護用戶的利益不被輕易侵犯。本文從6個方面簡述了Java安全編碼的問題,歡迎交流指正。 ...
  • 這裡選擇使用使用filetype獲取文件的類型。 使用filetype之前,先用pip安裝filetype。 #!/usr/bin/python3 import filetype import argparse import sys def get_parameter(): parser=argpa ...
  • 聽說隔壁用 Lombok 的六點就下班了,我也想六點下班! 好的,那麼這篇文章就介紹下 什麼是 Lombok , Lombok 做了什麼 以及 Lombok 是怎麼做的 ? 在介紹之前,先通過是否使用 Lombok 的效果來看下對比,首先來看下沒有 Lombok 之前,我們的一個簡單的 Java 對 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...