Pandas:如何讓你的代碼性能飆升

来源:https://www.cnblogs.com/wang_yb/p/18081105
-Advertisement-
Play Games

在數據分析相關的工作中,Pandas無疑是一個強大的工具,它的易用性和靈活性廣受青睞。然而,隨著數據量的不斷增長和計算需求的日益複雜,Pandas代碼的性能問題也逐漸浮出水面。如何讓Pandas代碼運行得更快、更高效,成為了每一個人使用者都需要面對的挑戰。 今天,本文就一個簡化版的實際分析案例,來一 ...


在數據分析相關的工作中,Pandas無疑是一個強大的工具,它的易用性和靈活性廣受青睞。
然而,隨著數據量的不斷增長和計算需求的日益複雜,Pandas代碼的性能問題也逐漸浮出水面。
如何讓Pandas代碼運行得更快、更高效,成為了每一個人使用者都需要面對的挑戰。

今天,本文就一個簡化版的實際分析案例,來一起探討Pandas代碼如何寫才能性能更好,讓你的數據處理流程更加順滑,不再為漫長的等待運行而煩惱。

1. 案例介紹

假設有個股票分析的場景,我們需要給所有的股票每天的交易情況做一個評估,評估的結果有3個級別:
其中,“優”的條件是當天成交額大於10億收盤價大於開盤價,也就是股票上漲;
“差”的條件是當天成交額小於1億收盤價小於開盤價,也就是股票下跌;
除此之外的情況就是“中”

再次強調一下,這是一個簡化的評估方法,主要是為了下麵演示Pandas的代碼性能,真實的評估不會如此粗糙。

股票交易的數據來自A股2024年1,2月份的日交易數據,大約20多萬條。
數據可從地址 https://databook.top/stock/2024 下載。

導入數據:

import pandas as pd

# 這個路徑根據實際情況修改
fp = r'D:\data\2024\歷史行情數據-東財-不復權-2024.csv'

df = pd.read_csv(fp)
df = df.loc[:, ["股票代碼", "日期", "開盤", "收盤", "最高", "最低", "成交量"]]
df

image.png

2. 不同寫法的性能比較

下麵是3種代碼的寫法都是基於pandas的,完成的功能也是一樣的。

2.1. 迴圈遍歷

給每條數據加一個評估的指標,最直接想到的方法就是遍歷所有的數據,然後根據每條數據的情況,
給予一個評估指標(優,中,差)。

首先,封裝一個評估一條數據的函數:

def eval_stock(row):
    """
    評估一條的數據
    """
    # 成交額
    volumn = row["收盤"] * row["成交量"]
    
    if volumn > 1_000_000_000 and row["收盤"] > row["開盤"]:
        return "優"

    if volumn < 100_000_000 and row["收盤"] < row["開盤"]:
        return "差"

    return "中"

然後用遍歷的方式評估我們準備的數據(A股2024年1,2月份的日交易數據)。

for idx, row in df.iterrows():
    df.loc[idx, "評估"] = eval_stock(row)

df

image.png

雖然只有20多萬條數據,但是執行時間還挺長的,在jupyter notebook 中用 %%timeit 魔法函數測試性能如下。

%%timeit
for idx, row in df.iterrows():
    df.loc[idx, "評估"] = eval_stock(row)

運行結果:

36.4 s ± 367 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

執行一次要36秒多,效率很低。

2.2. apply方法

apply方法是pandas提供的一種靈活處理數據的介面,它允許我們傳入一個自定義函數來處理數據。
下麵我們看看這種方式的性能如何。

%%timeit
df["評估"] = df.apply(eval_stock, axis=1)

運行結果:

4.9 s ± 86.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

性能提升非常明顯(36.4秒->4.9秒),代碼也變得更加簡潔。

2.3. 向量化方法

最後,我們看看終極的寫法,這種寫法把pandas的數據結構DataFrame看成是一個一維的向量數組(每列一個向量),而不是一個二維的數值數組。
這樣,我們操作數據是以為單位來操作,看看這樣寫的性能如何:

%%timeit
df["評估"] = "中"
df.loc[
    (df["收盤"] * df["成交量"] > 1_000_000_000) & (df["收盤"] > df["開盤"]),
    "評估",
] = "優"
df.loc[
    (df["收盤"] * df["成交量"] < 100_000_000) & (df["收盤"] < df["開盤"]), "評估"
] = "差"

運行結果:

8.22 ms ± 434 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

運行時間幾乎可以忽略不計

3. 總結

同樣使用pandas寫數據分析的代碼,性能差距居然會如此天差地別。

可見,學習pandas,不僅僅是學習它的各種介面和函數,
更重要的是瞭解從pandas執行的角度應該如何看待數據,是把數據看成一個一個獨立的值,還是一行一行或一列一列的向量。
只有這樣,才能用pandas高效的處理數據,這在數據量膨脹之後,會大大提高我們分析的效率。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄前言餓漢式懶漢式懶漢式DCLP局部靜態式(Meyers' Singleton)單例模板參考文章 前言 單例模式,其核心目標是確保在程式運行的過程中,有且只有存在一個實例才能保證他們的邏輯正確性以及良好的效率。因此單例模式的實現思路就是確保一個類有且只有一個實例,並提供一個該實例的全局訪問點。 單 ...
  • 相信有很多小伙伴都有小貓這樣的體會,尤其是接手一個老的系統的時候,總是會吐槽當前的系統很爛,恨不得馬上將其完完全全重構掉。 ...
  • 目錄前言指令重排簡介指令重排對單例模式的影響改進方法std::call_once和std::once_flagstd::atomic和記憶體順序局部靜態變數總結參考文章 前言 在《單例模式學習》中曾提到懶漢式DCLP的單例模式實際也不是線程安全的,這是編譯器的指令重排導致的,本文就簡單討論一下指令重排 ...
  • python基礎學習 Created: November 28, 2023 6:48 PM Tags: Beginning 值得思考的一些事情 構建一項軟體設計有兩種方式:一種是將軟體設計得足夠簡單以至於明顯找不到缺陷;另一種是軟體設計得足夠複雜以至於找不到明顯的缺陷。 ——查爾斯·安東尼·理 ...
  • 虛函數表,以及虛函數指針是實現多態性(Polymorphism)的關鍵機制。多態性允許我們通過基類的指針或引用來調用派生類的函數 定義 虛函數(Virtual Function) 定義:類中使用virtual 關鍵字修飾的函數 叫做虛函數 語法: class Base { public: virtu ...
  • 拓展閱讀 junit5 系列教程 基於 junit5 實現 junitperf 源碼分析 Auto generate mock data for java test.(便於 Java 測試自動生成對象信息) Junit performance rely on junit5 and jdk8+.(ja ...
  • https://leetcode.cn/problems/h-index/description/?envType=study-plan-v2&envId=top-interview-150 註:題目有點難理解,多讀幾遍 可以這樣考慮,建立另一個臨時數組temp,當第i篇文章被引用citiation ...
  • Java 文件操作 文件處理簡介 文件處理是任何應用程式的重要部分。Java 提供了許多用於創建、讀取、更新和刪除文件的方法。 Java 文件處理 Java 中的文件處理主要通過 java.io 包中的 File 類完成。該類允許我們處理文件,包括創建、讀取、寫入和刪除文件。 創建 File 對象 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...