使用selenium和python，實現靜態、多級、動態網頁的信息爬取

-Advertisement-

前言其中的過程適用於靜態網頁（豆瓣電影信息、嗶哩嗶哩評論區等）、動態頁面（百度圖片滾輪觸發頁面更新、下拉框觸發頁面更新等url不變但通過滑鼠互動，致使信息更新等場景）的信息爬取。基本適用於所有網頁信息的爬取，但代碼不夠簡潔，下述流程不夠詳細。 1 Selenium安裝 Python學習交流Q群 ...

前言

其中的過程適用於靜態網頁（豆瓣電影信息、嗶哩嗶哩評論區等）、動態頁面（百度圖片滾輪觸發頁面更新、下拉框觸發頁面更

新等url不變但通過滑鼠互動，致使信息更新等場景）的信息爬取。

基本適用於所有網頁信息的爬取，但代碼不夠簡潔，下述流程不夠詳細。

在這裡插入圖片描述

1 Selenium安裝

Python學習交流Q群：906715085####
（1）pip install selenium

（2）以edge為例，安裝驅動。url：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

（3）Selenium的網頁信息定位主要使用xpath表達式，需要對其有所瞭解，利用edge中的擴展，可以極大的簡化定位過程，但是不能取代個人工作，還是要對xpath有所瞭解，擴展如圖1。

在這裡插入圖片描述

2 案例：以經合組織（OECD）為例，如圖1

url: https://stats.oecd.org/Index.aspx?DataSetCode=CS_BAROMETER#

在這裡插入圖片描述

最終結果：

原頁面數據：

在這裡插入圖片描述

爬取到的數據（簡潔起見，以international trade index為例，但是爬取的各個過程均有涉及，其他指標、數據以及網頁只要做簡單

推廣即可，這個流程基本可以實現所有網頁信息的爬取）：

在這裡插入圖片描述

3 流程

（1）需要的python庫；

在這裡插入圖片描述

（2）獲取初始網頁；

在這裡插入圖片描述

（3）展開指標欄，並選取international trade index；

在這裡插入圖片描述

（4）將時間定位到2021年，其餘時間不要；

在這裡插入圖片描述

（5）獲取表頭：年月/國家信息；

在這裡插入圖片描述

（6）獲取指標信息；

在這裡插入圖片描述

Notice：

1.註意隱藏數據。利用xpth定位源代碼時，明明沒有任何問題，但python報錯，顯示無此元素，此時應註意是否是隱藏元素，查看是否在iframe內，上述代碼中對這一問題做了處理；

2.註意每個網頁的刷新時間，需根據時間設置time.sleep或者WebDriverWait；
在這裡插入圖片描述

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

IOS – OpenGL ES 調節圖像色度 GPUImageHueFilter

目錄一.簡介二.效果演示三.源碼下載二.猜你喜歡零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場零基礎 O ...
Java案例——隨機點名器

需求：將一個寫著班級內學生姓名的文件(每個名字占一行)，進行隨機點名分析： 1、創建字元緩衝輸入流對象 2、創建ArrayList集合對象 3、調用字元緩衝輸入流對象方法進行讀取數據 4、將讀到的數據存儲在集合中 5、釋放資源 6、生成一個隨機數，範圍在0-集合.size 7、通過產生的隨機數當作 ...
python中的數值列表及切片

列表也非常適合存儲一組數字，尤其是大數據處理，處理的幾乎都是由數字(如氣溫、距離、人口數量、經濟等)組成的集合。 Python提供很多工具，在數據可視化中，可高效地處理數字列表。一、數值列表 range() 讓你能夠輕鬆地生成一系列的數字 for value in range(1,6): prin ...
事件的監聽與發佈

有些時候，我們希望某件事情發生的時候能夠觸發一個事件，讓這個事件幫我們做些事情。比如，在晚上十一點到晚上十二點這段時間，假如還有人在使用我們的軟體，我們就觸發一個事件播放一首美妙的音樂，希望用戶聽了之後能夠做個好夢，美美睡上一覺。而這，我們需要做好三件事情： 1.定義一個事件。 2.定義一個事件監聽 ...
基於HiKariCP組件，分析連接池原理

HiKariCP作為SpringBoot2框架的預設連接池，號稱是跑的最快的連接池，資料庫連接池與之前兩篇提到的線程池和對象池，從設計的原理上都是基於池化思想，只是在實現方式上有各自的特點； ...
Bean的作用域

Spring容器創建的Bean預設是單例的。Spring容器調用配置方法完成Bean的創建之後，Bean就緩存在Spring容器里。之後每次調用同一配置方法創建Bean，Spring容器只會返回緩存在Spring容器里的Bean，不再創建新的Bean。這意味著同一配置方法在同一Spring容器里無論 ...
Python實現電影訂票系統

一、前言大家都喜歡看電影吧，一部新劇上場的時候往往會搶不到票，今天通過Python實現一個電影訂票系統，滿足你想看電影的心。二、整體結構圖三、代碼分解 3.1 infos.py 一部電影的詳細信息適合用字典結構來存儲，我們可以給字典里添加多個鍵值對來保存電影的名稱、座位表和宣傳時用的字元 ...
Python 國家地震台網地震數據集完整分析、pyecharts、plotly，分析強震次數、震級分佈、震級震源關係、發生位置、發生時段、最大震級、平均震級

記錄自己是如何分析地震數據集，使用模塊，剋服一系列 bug 的過程。經緯度轉換省份城市、讀取 csv、多圖表合併 pyecharts、導入模塊、省份強震次數圖、地震震級分佈圖、國內前十大地震、震級震源深度散點圖、世界地震熱力圖、中國地震熱力圖、年月地震次數曲線圖、24小時段地震發生百分比圖、最大震級... ...