Python 抓取動態網頁表格信息_ZenDei技術網路在線

Python 抓取動態網頁表格信息

-Advertisement-

PS：不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包！包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。五一假期，研究了下Python抓取動態網頁信息的相關操作，結合封面的參考書、網上教程編寫出可以滿足需求的代碼。由於初涉python，過程中曲折很 ...

PS：不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包！包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。

五一假期，研究了下Python抓取動態網頁信息的相關操作，結合封面的參考書、網上教程編寫出可以滿足需求的代碼。由於初涉python，過程中曲折很多，為了避免以後遇到問題找不到相關的信息創建本文。

準備工具：

Python 3.8
Google Chrome瀏覽器
Googledriver

測試網站：

1.集思錄（https://www.jisilu.cn/data/cbnew/#cb）

測試前準備：

1.配置python運行的環境變數，參照鏈接（https://www.runoob.com/python3/python3-install.html）

*本次測試主要採取兩種方式抓取動態網頁數據，一是requests及json分析的方式；一是selenium的方式。requests方式速度快，但有一些元素的鏈接信息抓取不到；selenium方式通過模擬打開瀏覽器的方式進行數據的抓取，由於要打開瀏覽器因此速度相對較慢，但是可抓取的信息比較全面。

主要抓取的內容如下：（網站中的一些可轉債數據）

requests 方式抓取網站信息：

Python需要安裝的相關腳本：Requests

安裝方式：管理員身份運行cmd；輸入 pip install requests 命令，安裝成功後會有提醒。如果一次不能安裝成功就多安裝幾次

（前提相關的埠沒有封閉）。如果pip版本不是最新的，會提醒更新pip的版本，pip的環境變數也要設置，設置方式參照python的設置方式。

requests抓取代碼如下：

import requests
import json
url='https://www.jisilu.cn/data/cbnew/cb_list/?___jsl=LST___'
return_data = requests.get(url,verify = False)
js=return_data.json()
for i in js['rows']:
    print(i['id']+" "+i['cell']['bond_nm']+" "+i['cell']['price'])

最終結果如下：

註意兩個要點：

找到正確的url：chrome打開集思錄網站（https://www.jisilu.cn/data/cbnew/#cb）。點擊F12鍵，彈出的開發工具視窗中選network，然後選XHR，點F5鍵刷新。在name的那一欄里逐個點擊，找到所需的XHR。通過preview可發現“？__jsl=LST”對應的XHR就是我們要尋找的，在headers里可以查到對應的url。

json將requests的數據格式進行轉化，方便數據查找。通過json格式轉化之後，requestes的數據格式與preview的格式一致。如果要定位到“國軒轉債”那欄數據，則使用代碼js['rows']['cell']['bond_nm']*selenium抓取網頁數據：

python 需安裝的腳本：selenium（安裝方式參照requests安裝）

配置與瀏覽器相對應的webdriver。以chrome為例，下載與chrome版本對應（在地址欄輸入chrome://version後回車查看chrome的版本）的driver。放在chrome安裝的文件夾下，並設置環境變數。

selenium抓取代碼如下：

from selenium import webdriver
import time
driver=webdriver.Chrome()
url1='https://www.jisilu.cn/data/cbnew/#cb'
bes=driver.get(url1)
time.sleep(5)  #增加延時命令，等待元素載入
driver.find_element_by_tag_name("tr").click()  #增加延時，等待元素載入
table_tr_list=driver.find_element_by_xpath("//*[@id='flex_cb']").find_elements_by_tag_name("tr") #後面一個element改成elements
for tr in table_tr_list:
    if len(tr.get_attribute('id'))>0:
        print(tr.find_element_by_xpath("//*[@id=%d]/td[1]/a"%(int(tr.get_attribute('id')))).text+" "+tr.find_element_by_xpath("//*[@id=%d]/td[2]"%(int(tr.get_attribute('id')))).text)
driver.quit()

運行結果如下：

註意三個要點：

1、要加上延時命令（ time.sleep(5) ），否則可能出現尋找不到元素的報錯（NoSuchElementException異常）

2、利用find_element_by_xpath時，可以在網頁開發器中右擊copy xpath，確認該元素的路徑。

3、傳送ID時，將字元轉為數值，並註意清除空字元

抓取的數據也可通過python 保存到excel里。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JS中構造函數的方法定義在原型對象里

構造函數中的方法每當new一個對象的時候，就會創建一個構造函數里的方法，如果多個實例對象就會創建多個方法，占用記憶體，沒有提高代碼的復用性；將方法定義到構造函數的原型對象里，創建多個實例對象而共用一個方法，方法創建了一次。 <script> function Persion(name, age) { ...
web前端工程師的學習路徑，每個階段都需要學什麼？

初識前端前端開發工作已經變的越來越複雜，僅僅是想羅列一份前端開發的學習列表就已經是一件艱巨的工作。曾經只要會編寫 HTML, CSS 和Javascript 就是能夠找到一份前端開發工作的全部要求。而現在，web 開發遠遠不止是簡單編碼。因為我們的互聯網上有了更多的內容，也因為有更多的人、更多設備 ...
PHP設計模式—外觀模式

定義：外觀模式（Facade）：又叫門面模式，為子系統中的一組介面提供一個一致的界面，此模式定義了一個高層介面，這個介面使得這一子系統更加容易使用。代碼實例：假設實現一個功能需要用到子系統中的四個方法。 /** * Class SubSystemOne */ class SubSystemOn ...
PHP設計模式—裝飾器模式

定義：裝飾器模式（Decorator）：動態的給一個對象添加一些額外的職責，就增加功能來說，裝飾器比生成子類更加靈活。結構： Component：定義一個對象介面，可以給這些對象動態地添加職責。 ConcreteComponent：定義了一個具體的對象，也可以給這個對象添加一些職責。 Decor ...
【面試題】Java單例設計模式-餓漢式枚舉(enum)單例

一、enum關鍵字 enum關鍵字是在Java1.5也就是Java SE5之後引入的一個新特性：它通過關鍵字enum來定義一個枚舉類，這個被定義的枚舉類繼承Enum類，這個枚舉類算是一種特殊類，它同樣能像其他普通類一樣擁有構造器、方法，也能夠實現介面，但是它不能再繼承其他別的類，因為它的直接父類是E ...
linux C語言程式設計從入門到放棄——入門第一章

1.編譯如果你已經是一位程式員，並且對語言有了大概的概念，那麼不推薦你從這裡開始看，因為那樣可能會浪費你的時間，從這裡開始是將是我幾乎為零的起點開始描述記錄的。對於以及有經驗的來說，並不重要。如果你瞭解過編成，那麼也許會知道，幾乎所有編成語言大可分為兩類，編譯型語言和解析性語言。而C語言屬 ...
jupyter notebook導出pdf並支持中文

1. jupyter提供導出的格式有.py、.html、.md、.pdf等。 2.需要先安裝MiKTeX，Windows版一路next安裝就行，安裝包有190MB，安裝過程還是耗費些時間的，下載路徑：https://miktex.org/download 3.ipynb文件編譯為tex，在命令行中定 ...
Spring IOC的核心機制：實例化與註入

上文我們介紹了IOC和DI，IOC是一種設計模式，DI是它的具體實現，有很多的框架都有這樣的實現，本文主要以spring框架的實現，來看具體的註入實現邏輯。 spring是如何將對象加入容器的 spring將對象加入容器的方式有很多種，最主要的是xml和註解的形式，而當下註解的形式應用更加的廣泛，所 ...