使用scrapy-selenium, chrome-headless抓取動態網頁

来源:https://www.cnblogs.com/brandonli/archive/2020/03/31/12609086.html
-Advertisement-
Play Games

在使用scrapy抓取網頁時, 如果遇到使用js動態渲染的頁面, 將無法提取到在瀏覽器中看到的內容. 針對這個問題scrapy官方給出的方案是scrapy selenium, 這是一個把selenium集成到scrapy的開源項目, 它使用selenium抓取已經渲染好(js代碼已經執行完成)的動態 ...


    在使用scrapy抓取網頁時, 如果遇到使用js動態渲染的頁面, 將無法提取到在瀏覽器中看到的內容. 針對這個問題scrapy官方給出的方案是scrapy-selenium, 這是一個把selenium集成到scrapy的開源項目, 它使用selenium抓取已經渲染好(js代碼已經執行完成)的動態網頁.

    事實上selenium自己也沒有渲染動態網頁的能力,它還是得依賴瀏覽器, 用瀏覽器作為動態網頁的渲染引擎. 目前主流的瀏覽器都能以headless模式運行, 即沒有圖形界面只有命令行界面. 同時提供了驅動程式和headless模式運行的瀏覽器交互的驅動, 驅動程式提供了一些API, 用於控制瀏覽器的行為, 如: 拖動滾動條, 生成網頁縮略圖等. selenium整合了這些瀏覽器驅動, 讓用戶可以用統一的介面和不同的瀏覽器進行交互, 所以selenium本質上就是一個adapter.

    本文以chrome瀏覽器為網頁渲染引擎, 完整地講解抓取動態網頁的方法.

第一步 安裝chrome

    本人長期在linux伺服器平臺下工作, 所以使用的環境是ubuntu-18.04.3-live-server. 以前還沒在伺服器安裝過瀏覽器, 也挺陌生的. 首先進入chrome的官網https://www.google.cn/chrome/ 下載安裝包google-chrome-stable_current_amd64.deb. 在頁面底部,有個”其他平臺“鏈接, 點進去找到這個安裝包.

    安裝chrome: sudo dpkg -i google-chrome-stable_current_amd64.deb
    出現依賴問題, 修複: sudo apt --fix-broken install
    再次安裝就可以了.

    找個網站驗證一下chrome是否能夠正常工作:
    google-chrome --headless --no-sandbox --disable-gpu --dump-dom https://www.gushiwen.org/ >> index.html
    如果在當前目錄下能夠正常的生成index.html文件,表示chrome已經安裝成功.


第二步 安裝scrapy-selenium, chromedriver

     安裝scrapy-selenium: pip install scrapy-selenium
     查看你的chrome版本: google-chrome --version
     Google Chrome 80.0.3987.149
    在這裡http://chromedriver.storage.googleapis.com/index.html找到對應版本的chromedriver. 我用的dirver是http://chromedriver.storage.googleapis.com/80.0.3987.16/chromedriver_linux64.zip.

    手動安裝dirver:
    unzip chromedriver_linux64.zip
    chmod a+x chromedriver
    cp chromedriver /usr/bin/
    這樣就把chromedriver安裝到/usr/bin目錄下了.

第三步 為你的scrapy項目配置好scrapy-selenium

    在scrapy項目的settings.py文件中添加如下代碼配置scrapy-selenium

SELENIUM_DRIVER_NAME = 'chrome' #瀏覽器driver名字
SELENIUM_DRIVER_EXECUTABLE_PATH = '/usr/bin/chromedriver' #瀏覽器driver的位置
#chrome瀏覽器的參數
SELENIUM_DRIVER_ARGUMENTS=['--headless', '--no-sandbox', '--disable-gpu'] 

#下載器中間件配置
DOWNLOADER_MIDDLEWARES = {
    'scrapy_selenium.SeleniumMiddleware': 800
}

    創建一個spider驗證一下scrapy-selenium是否可用

import scrapy
from scrapy_selenium import SeleniumRequest

class Myspider(scrapy.Spider):
    name = "myspider"
    
    def start_requests(self):
        #這裡使用SeleniumRequest抓取頁面, 在parse中抓取頁面也要用它
        yield SeleniumRequest(url='https://www.gushiwen.org/', callback=self.parse)

   def parse(self, response):
       with open('index.html', 'wb') as f:
            f.write(response.body)

     運行這個spider
     scrapy crawl myspider
     在當前目錄就會有一個index.html文件. 如果正常的話會發現使用js動態生成的內容已經被渲染到dom文檔中了.
     現在已經成功地抓取到一個動態頁面啦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • print("電腦硬體系統分五大部分組成:\n1、運算器\n2、控制器\n3、存儲器\n4、輸入設備\n5、輸出設備\n\n馮·諾依曼結構關鍵點:\n1、要將存儲設備與中央處理器分開;\n2、將數據以二進位方式編碼\n")print("變數和類型\n1、整形:python2.x中有int和long ...
  • print("1、第一章:初識python\npython歷史:\n1、python是用c語言寫的\n2、python是可以調用c語言庫函數\n3、Python1.0是1994年1月\n4、Python2.0是2000年10月16日\n5、Python3.0是2008年12月3日\n5、當前用的Py ...
  • 題目:企業發放的獎金根據利潤提成。 利潤(I)低於或等於10萬元時,獎金可提10%; 利潤高於10萬元,低於20萬元時,低於10萬元的部分按10%提成,高於10萬元的部分,可提成7.5%; 20萬到40萬之間時,高於20萬元的部分,可提成5%; 40萬到60萬之間時高於40萬元的部分,可提成3%; ...
  • Go語言中有豐富的數據類型,除了基本的整型、浮點型、布爾型、字元串外,還有數組、切片、結構體、函數、map、通道(channel)等。Go 語言的基本類型和其他語言大同小異。 1.基本數據類型 整型 整型分為以下兩個大類: 按長度分為:int8、int16、int32、int64 對應的無符號整型: ...
  • Shellcode 定義 是一段可註入的指令(opcode),可以在被攻擊的程式內運行。 特點 短小精悍,靈活多變,獨立存在,無需任何文件格式的包裝,因為shellcode直接操作寄存器和函數,所以opcode必須是16進位形式。因此也不能用高級語言編寫shellcode。在記憶體中運行,無需運行在固 ...
  • 近年來,網路安全越來越受到開發者的重視。關註安全編碼能很大程度上避免安全漏洞的產生,也能有效保護用戶的利益不被輕易侵犯。本文從6個方面簡述了Java安全編碼的問題,歡迎交流指正。 ...
  • 這裡選擇使用使用filetype獲取文件的類型。 使用filetype之前,先用pip安裝filetype。 #!/usr/bin/python3 import filetype import argparse import sys def get_parameter(): parser=argpa ...
  • 聽說隔壁用 Lombok 的六點就下班了,我也想六點下班! 好的,那麼這篇文章就介紹下 什麼是 Lombok , Lombok 做了什麼 以及 Lombok 是怎麼做的 ? 在介紹之前,先通過是否使用 Lombok 的效果來看下對比,首先來看下沒有 Lombok 之前,我們的一個簡單的 Java 對 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...