Python 抓取動態網頁表格信息

来源:https://www.cnblogs.com/python0921/archive/2020/05/04/12828271.html
-Advertisement-
Play Games

PS:不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包!包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。 五一假期,研究了下Python抓取動態網頁信息的相關操作,結合封面的參考書、網上教程編寫出可以滿足需求的代碼。由於初涉python,過程中曲折很 ...


 

Python 抓取動態網頁表格信息

 

 PS:不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包!包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。

五一假期,研究了下Python抓取動態網頁信息的相關操作,結合封面的參考書、網上教程編寫出可以滿足需求的代碼。由於初涉python,過程中曲折很多,為了避免以後遇到問題找不到相關的信息創建本文。

準備工具:

  1. Python 3.8
  2. Google Chrome瀏覽器
  3. Googledriver

測試網站:

1.集思錄(https://www.jisilu.cn/data/cbnew/#cb)

測試前準備:

1.配置python運行的環境變數,參照鏈接(https://www.runoob.com/python3/python3-install.html)

 

*本次測試主要採取兩種方式抓取動態網頁數據,一是requests及json分析的方式;一是selenium的方式。requests方式速度快,但有一些元素的鏈接信息抓取不到;selenium方式通過模擬打開瀏覽器的方式進行數據的抓取,由於要打開瀏覽器因此速度相對較慢,但是可抓取的信息比較全面。

 

主要抓取的內容如下:(網站中的一些可轉債數據)

 

Python 抓取動態網頁表格信息

 

requests 方式抓取網站信息:

Python需要安裝的相關腳本:Requests

安裝方式:管理員身份運行cmd;輸入 pip install requests 命令,安裝成功後會有提醒。如果一次不能安裝成功就多安裝幾次

(前提相關的埠沒有封閉)。如果pip版本不是最新的,會提醒更新pip的版本,pip的環境變數也要設置,設置方式參照python的設置方式。

 

requests抓取代碼如下:

import requests
import json
url='https://www.jisilu.cn/data/cbnew/cb_list/?___jsl=LST___'
return_data = requests.get(url,verify = False)
js=return_data.json()
for i in js['rows']:
    print(i['id']+" "+i['cell']['bond_nm']+" "+i['cell']['price'])

 

最終結果如下:

Python 抓取動態網頁表格信息

 

註意兩個要點:

找到正確的url:chrome打開集思錄網站(https://www.jisilu.cn/data/cbnew/#cb)。點擊F12鍵,彈出的開發工具視窗中選network,然後選XHR,點F5鍵刷新。在name的那一欄里逐個點擊,找到所需的XHR。通過preview可發現“?__jsl=LST”對應的XHR就是我們要尋找的,在headers里可以查到對應的url。

Python 抓取動態網頁表格信息

 

json將requests的數據格式進行轉化,方便數據查找。通過json格式轉化之後,requestes的數據格式與preview的格式一致。如果要定位到“國軒轉債”那欄數據,則使用代碼js['rows']['cell']['bond_nm']*selenium抓取網頁數據:

Python 抓取動態網頁表格信息

 

python 需安裝的腳本:selenium(安裝方式參照requests安裝)

配置與瀏覽器相對應的webdriver。以chrome為例,下載與chrome版本對應(在地址欄輸入chrome://version後回車查看chrome的版本)的driver。放在chrome安裝的文件夾下,並設置環境變數。

 

selenium抓取代碼如下:

from selenium import webdriver
import time
driver=webdriver.Chrome()
url1='https://www.jisilu.cn/data/cbnew/#cb'
bes=driver.get(url1)
time.sleep(5)  #增加延時命令,等待元素載入
driver.find_element_by_tag_name("tr").click()  #增加延時,等待元素載入
table_tr_list=driver.find_element_by_xpath("//*[@id='flex_cb']").find_elements_by_tag_name("tr") #後面一個element改成elements
for tr in table_tr_list:
    if len(tr.get_attribute('id'))>0:
        print(tr.find_element_by_xpath("//*[@id=%d]/td[1]/a"%(int(tr.get_attribute('id')))).text+" "+tr.find_element_by_xpath("//*[@id=%d]/td[2]"%(int(tr.get_attribute('id')))).text)
driver.quit()

 

 

運行結果如下:

Python 抓取動態網頁表格信息

 

 

註意三個要點:

1、要加上延時命令( time.sleep(5) ),否則可能出現尋找不到元素的報錯(NoSuchElementException異常)

 

2、利用find_element_by_xpath時,可以在網頁開發器中右擊copy xpath,確認該元素的路徑。

 

Python 抓取動態網頁表格信息

 

 

3、傳送ID時,將字元轉為數值,並註意清除空字元

抓取的數據也可通過python 保存到excel里。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 構造函數中的方法每當new一個對象的時候,就會創建一個構造函數里的方法,如果多個實例對象就會創建多個方法,占用記憶體,沒有提高代碼的復用性; 將方法定義到構造函數的原型對象里,創建多個實例對象而共用一個方法,方法創建了一次。 <script> function Persion(name, age) { ...
  • 初識前端 前端開發工作已經變的越來越複雜,僅僅是想羅列一份前端開發的學習列表就已經是一件艱巨的工作。曾經只要會編寫 HTML, CSS 和Javascript 就是能夠找到一份前端開發工作的全部要求。而現在,web 開發遠遠不止是簡單編碼。因為我們的互聯網上有了更多的內容,也因為有更多的人、更多設備 ...
  • 定義: 外觀模式(Facade):又叫門面模式,為子系統中的一組介面提供一個一致的界面,此模式定義了一個高層介面,這個介面使得這一子系統更加容易使用。 代碼實例: 假設實現一個功能需要用到子系統中的四個方法。 /** * Class SubSystemOne */ class SubSystemOn ...
  • 定義: 裝飾器模式(Decorator):動態的給一個對象添加一些額外的職責,就增加功能來說,裝飾器比生成子類更加靈活。 結構: Component:定義一個對象介面,可以給這些對象動態地添加職責。 ConcreteComponent:定義了一個具體的對象,也可以給這個對象添加一些職責。 Decor ...
  • 一、enum關鍵字 enum關鍵字是在Java1.5也就是Java SE5之後引入的一個新特性:它通過關鍵字enum來定義一個枚舉類,這個被定義的枚舉類繼承Enum類,這個枚舉類算是一種特殊類,它同樣能像其他普通類一樣擁有構造器、方法,也能夠實現介面,但是它不能再繼承其他別的類,因為它的直接父類是E ...
  • 1.編譯 如果你已經是一位程式員,並且對語言有了大概的概念,那麼不推薦你從這裡開始看,因為那樣可能會 浪費你的時間,從這裡開始是將是我幾乎為零的起點開始描述記錄的。對於以及有經驗的來說,並不重要 。如果你瞭解過編成,那麼也許會知道,幾乎所有編成語言大可分為兩類, 編譯型語言和解析性語言。 而C語言屬 ...
  • 1. jupyter提供導出的格式有.py、.html、.md、.pdf等。 2.需要先安裝MiKTeX,Windows版一路next安裝就行,安裝包有190MB,安裝過程還是耗費些時間的,下載路徑:https://miktex.org/download 3.ipynb文件編譯為tex,在命令行中定 ...
  • 上文我們介紹了IOC和DI,IOC是一種設計模式,DI是它的具體實現,有很多的框架都有這樣的實現,本文主要以spring框架的實現,來看具體的註入實現邏輯。 spring是如何將對象加入容器的 spring將對象加入容器的方式有很多種,最主要的是xml和註解的形式,而當下註解的形式應用更加的廣泛,所 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...