PS:不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包!包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。 五一假期,研究了下Python抓取動態網頁信息的相關操作,結合封面的參考書、網上教程編寫出可以滿足需求的代碼。由於初涉python,過程中曲折很 ...
PS:不管你是零基礎還是有基礎都可以獲取到自己相對應的學習禮包!包括Python軟體工具和2020最新入門到實戰教程。加群695185429即可免費獲取。
五一假期,研究了下Python抓取動態網頁信息的相關操作,結合封面的參考書、網上教程編寫出可以滿足需求的代碼。由於初涉python,過程中曲折很多,為了避免以後遇到問題找不到相關的信息創建本文。
準備工具:
- Python 3.8
- Google Chrome瀏覽器
- Googledriver
測試網站:
1.集思錄(https://www.jisilu.cn/data/cbnew/#cb)
測試前準備:
1.配置python運行的環境變數,參照鏈接(https://www.runoob.com/python3/python3-install.html)
*本次測試主要採取兩種方式抓取動態網頁數據,一是requests及json分析的方式;一是selenium的方式。requests方式速度快,但有一些元素的鏈接信息抓取不到;selenium方式通過模擬打開瀏覽器的方式進行數據的抓取,由於要打開瀏覽器因此速度相對較慢,但是可抓取的信息比較全面。
主要抓取的內容如下:(網站中的一些可轉債數據)
requests 方式抓取網站信息:
Python需要安裝的相關腳本:Requests
安裝方式:管理員身份運行cmd;輸入 pip install requests 命令,安裝成功後會有提醒。如果一次不能安裝成功就多安裝幾次
(前提相關的埠沒有封閉)。如果pip版本不是最新的,會提醒更新pip的版本,pip的環境變數也要設置,設置方式參照python的設置方式。
requests抓取代碼如下:
import requests import json url='https://www.jisilu.cn/data/cbnew/cb_list/?___jsl=LST___' return_data = requests.get(url,verify = False) js=return_data.json() for i in js['rows']: print(i['id']+" "+i['cell']['bond_nm']+" "+i['cell']['price'])
最終結果如下:
註意兩個要點:
找到正確的url:chrome打開集思錄網站(https://www.jisilu.cn/data/cbnew/#cb)。點擊F12鍵,彈出的開發工具視窗中選network,然後選XHR,點F5鍵刷新。在name的那一欄里逐個點擊,找到所需的XHR。通過preview可發現“?__jsl=LST”對應的XHR就是我們要尋找的,在headers里可以查到對應的url。
json將requests的數據格式進行轉化,方便數據查找。通過json格式轉化之後,requestes的數據格式與preview的格式一致。如果要定位到“國軒轉債”那欄數據,則使用代碼js['rows']['cell']['bond_nm']*selenium抓取網頁數據:
python 需安裝的腳本:selenium(安裝方式參照requests安裝)
配置與瀏覽器相對應的webdriver。以chrome為例,下載與chrome版本對應(在地址欄輸入chrome://version後回車查看chrome的版本)的driver。放在chrome安裝的文件夾下,並設置環境變數。
selenium抓取代碼如下:
from selenium import webdriver import time driver=webdriver.Chrome() url1='https://www.jisilu.cn/data/cbnew/#cb' bes=driver.get(url1) time.sleep(5) #增加延時命令,等待元素載入 driver.find_element_by_tag_name("tr").click() #增加延時,等待元素載入 table_tr_list=driver.find_element_by_xpath("//*[@id='flex_cb']").find_elements_by_tag_name("tr") #後面一個element改成elements for tr in table_tr_list: if len(tr.get_attribute('id'))>0: print(tr.find_element_by_xpath("//*[@id=%d]/td[1]/a"%(int(tr.get_attribute('id')))).text+" "+tr.find_element_by_xpath("//*[@id=%d]/td[2]"%(int(tr.get_attribute('id')))).text) driver.quit()
運行結果如下:
註意三個要點:
1、要加上延時命令( time.sleep(5) ),否則可能出現尋找不到元素的報錯(NoSuchElementException異常)
2、利用find_element_by_xpath時,可以在網頁開發器中右擊copy xpath,確認該元素的路徑。
3、傳送ID時,將字元轉為數值,並註意清除空字元
抓取的數據也可通過python 保存到excel里。