在數據分析相關的工作中,Pandas無疑是一個強大的工具,它的易用性和靈活性廣受青睞。然而,隨著數據量的不斷增長和計算需求的日益複雜,Pandas代碼的性能問題也逐漸浮出水面。如何讓Pandas代碼運行得更快、更高效,成為了每一個人使用者都需要面對的挑戰。 今天,本文就一個簡化版的實際分析案例,來一 ...
在數據分析相關的工作中,Pandas
無疑是一個強大的工具,它的易用性和靈活性廣受青睞。
然而,隨著數據量的不斷增長和計算需求的日益複雜,Pandas
代碼的性能問題也逐漸浮出水面。
如何讓Pandas
代碼運行得更快、更高效,成為了每一個人使用者都需要面對的挑戰。
今天,本文就一個簡化版的實際分析案例,來一起探討Pandas
代碼如何寫才能性能更好,讓你的數據處理流程更加順滑,不再為漫長的等待運行而煩惱。
1. 案例介紹
假設有個股票分析的場景,我們需要給所有的股票每天的交易情況做一個評估,評估的結果有3個級別:優,中,差。
其中,“優”的條件是當天成交額大於10億且收盤價大於開盤價,也就是股票上漲;
“差”的條件是當天成交額小於1億且收盤價小於開盤價,也就是股票下跌;
除此之外的情況就是“中”。
再次強調一下,這是一個簡化的評估方法,主要是為了下麵演示Pandas的代碼性能,真實的評估不會如此粗糙。
股票交易的數據來自A股2024年1,2月份的日交易數據,大約20多萬條。
數據可從地址 https://databook.top/stock/2024 下載。
導入數據:
import pandas as pd
# 這個路徑根據實際情況修改
fp = r'D:\data\2024\歷史行情數據-東財-不復權-2024.csv'
df = pd.read_csv(fp)
df = df.loc[:, ["股票代碼", "日期", "開盤", "收盤", "最高", "最低", "成交量"]]
df
2. 不同寫法的性能比較
下麵是3種代碼的寫法都是基於pandas
的,完成的功能也是一樣的。
2.1. 迴圈遍歷
給每條數據加一個評估的指標,最直接想到的方法就是遍歷所有的數據,然後根據每條數據的情況,
給予一個評估指標(優,中,差)。
首先,封裝一個評估一條數據的函數:
def eval_stock(row):
"""
評估一條的數據
"""
# 成交額
volumn = row["收盤"] * row["成交量"]
if volumn > 1_000_000_000 and row["收盤"] > row["開盤"]:
return "優"
if volumn < 100_000_000 and row["收盤"] < row["開盤"]:
return "差"
return "中"
然後用遍歷的方式評估我們準備的數據(A股2024年1,2月份的日交易數據)。
for idx, row in df.iterrows():
df.loc[idx, "評估"] = eval_stock(row)
df
雖然只有20多萬條數據,但是執行時間還挺長的,在jupyter notebook
中用 %%timeit
魔法函數測試性能如下。
%%timeit
for idx, row in df.iterrows():
df.loc[idx, "評估"] = eval_stock(row)
運行結果:
36.4 s ± 367 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
執行一次要36秒多,效率很低。
2.2. apply方法
apply
方法是pandas
提供的一種靈活處理數據的介面,它允許我們傳入一個自定義函數來處理數據。
下麵我們看看這種方式的性能如何。
%%timeit
df["評估"] = df.apply(eval_stock, axis=1)
運行結果:
4.9 s ± 86.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
性能提升非常明顯(36.4秒->4.9秒),代碼也變得更加簡潔。
2.3. 向量化方法
最後,我們看看終極的寫法,這種寫法把pandas
的數據結構DataFrame
看成是一個一維的向量數組(每列一個向量),而不是一個二維的數值數組。
這樣,我們操作數據是以列為單位來操作,看看這樣寫的性能如何:
%%timeit
df["評估"] = "中"
df.loc[
(df["收盤"] * df["成交量"] > 1_000_000_000) & (df["收盤"] > df["開盤"]),
"評估",
] = "優"
df.loc[
(df["收盤"] * df["成交量"] < 100_000_000) & (df["收盤"] < df["開盤"]), "評估"
] = "差"
運行結果:
8.22 ms ± 434 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
運行時間幾乎可以忽略不計。
3. 總結
同樣使用pandas
寫數據分析的代碼,性能差距居然會如此天差地別。
可見,學習pandas
,不僅僅是學習它的各種介面和函數,
更重要的是瞭解從pandas
執行的角度應該如何看待數據,是把數據看成一個一個獨立的值,還是一行一行或一列一列的向量。
只有這樣,才能用pandas
高效的處理數據,這在數據量膨脹之後,會大大提高我們分析的效率。