軟科高校數據獲取

来源:https://www.cnblogs.com/yujie168/archive/2023/06/10/17472216.html
-Advertisement-
Play Games

軟科高校數據獲取 主要獲取頁面五個欄位;分別是:校名、地區、管理部門、類別、雙一流 在這裡有一個坑就是後續的一些院校在類別和雙一流這個標簽上面都沒有這個值,所以使用try...except...來進行判斷的話會很慢很慢,如果有解決問題的小伙伴歡迎留言一起探討解決方案! 這個項目採用的是Seleniu ...


軟科高校數據獲取

主要獲取頁面五個欄位;分別是:校名、地區、管理部門、類別、雙一流

在這裡有一個坑就是後續的一些院校在類別和雙一流這個標簽上面都沒有這個值,所以使用try...except...來進行判斷的話會很慢很慢,如果有解決問題的小伙伴歡迎留言一起探討解決方案!

這個項目採用的是Selenium自動翻頁獲取數據,軟科這個網站的所有數據都在一個JSON文件裡面,但是在抓包的時候會發現有個參數是隨機變化的,除非弄明白這個參數是如何生成的否則很難獲取到,直接上代碼(ps:真的很慢!!!)

import csv
import time
import pandas as pd
from selenium import webdriver
from selenium.common import NoSuchElementException
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("http://www.shanghairanking.cn/institution")
# 等待瀏覽器載入渲染頁面
driver.implicitly_wait(2)
# 下拉頁面到底部
js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight'
driver.execute_script(js)
college_header = ['校名', '地區', '管理部門', '類別', '雙一流']


def get_college_data():
    college_data = []
    divs = driver.find_elements(By.CSS_SELECTOR, ".univ-main")
    for div in divs:
        # 校名
        college_name = div.find_element(By.XPATH, "./div/div[2]/div[1]/span").text
        # 地區
        college_area = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[1]").text
        # 管理部門
        college_section = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[2]").text
        # 類別
        try:
            college_category = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[3]").text
        except NoSuchElementException:
            college_category = "Null"
        # 雙一流
        try:
            college_grade = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[4]").text
        except NoSuchElementException:
            college_grade = "Null"
        college_data.append([
            college_name,
            college_area,
            college_section,
            college_category,
            college_grade
        ])
    college_data = pd.DataFrame(columns=college_header, data=college_data)
    return college_data


college_datas = []
for page in range(1,10):
    time.sleep(1)
    print(f"正在獲取{page}頁!")
    data = get_college_data()
    college_datas.append(data)
    driver.find_element(By.CLASS_NAME, "ant-pagination-next").click()

csv_file = pd.concat(college_datas, ignore_index=True)
csv_file.to_csv('college_data.csv', mode='w', index=False, sep=',')

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 隨著數據量和數據複雜性的不斷增加,越來越多的企業開始使用OLAP(聯機分析處理)引擎來處理大規模數據並提供即時分析結果。在選擇OLAP引擎時,性能是一個非常重要的因素。 因此,本文將使用TPC-DS基準測試的99個查詢語句來對比開源的ClickHouse、Doris、Presto以及ByCon... ...
  • ## 懶人篇(搞機工具箱) 官網地址:[晨鐘網路科技 - 致力於開發小眾實用軟體 (jamcz.com)](http://jamcz.com/) 工具箱是一個GUI界面,集成abd環境,開箱即用,不用再折騰環境之類的,懶人必備,安裝包一共不到7MB。 ![image-2023052823061003 ...
  • # CSS三大特性 ## 1、繼承性 [CSS_特性繼承和層疊 - Bublly - 博客園 (cnblogs.com)](https://www.cnblogs.com/ZWeva/p/17471809.html) ## 2、層疊性 [CSS_特性繼承和層疊 - Bublly - 博客園 (cnb ...
  • # CSS特性 ## 1、繼承性 ##### 特性: 1、子元素有預設繼承父元素樣式的特點(**子承父業**) 2、可以繼承的常見屬性(文字控制屬性都可以繼承) 1.color 2.font-style、font-weight、font-size、font-family 3.text-indent, ...
  • # 一、顯示模塊 ## 1、塊級元素 #### 特點: 1.獨占一行(一行只能顯示一個) 2.寬度預設是父元素的寬度,高度預設由內容撐開 3.可以設置寬高 #### 例如: ``` div、p、h系列、ul、li、dl、dt、dd、form、header、.nav、footer. ``` ## 2、 ...
  • 📝背景 公司高級表單組件ProForm高階組件都建立在jsx的運用配置上,項目在實踐落地過程中積累了豐富的經驗,也充分感受到了jsx語法的靈活便捷和可維護性強大,享受到了用其開發的樂趣,獨樂樂不如眾樂樂,為了幫助大家更好的運用jsx,開發提效,特此總結分享。 💎效果對比 以前 以往我們開發一個列 ...
  • >譯者註:在微服務架構設計,構建API和服務間通信技術選型時,對 REST 和 gRPC 的理解和應用還存在知識盲區,近期看到國外的這篇文章:[A detailed comparison of REST and gRPC](https://kreya.app/blog/rest-vs-grpc/), ...
  • ## 矩陣乘法 |0|1| | | | |1|1| 這是一個矩陣,那麼我要讓它乘以一個這樣的矩陣 |1|0| | | | |0|1| 那麼它的結果就是 |0|1| | | | |1|1| 如果乘以它自身,那麼它的結果就是 |1|1| | | | |1|2| 那麼矩陣乘法的公式就應該是 ![](htt ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...