pandas：如何保存數據比較好？

-Advertisement-

我們在使用pandas處理完數據之後，最終總是要把數據作為一個文件保存下來，那麼，保存數據最常用的文件是什麼呢？我想大部分人一定會選擇csv或者excel。剛接觸數據分析時，我也是這麼選擇的，不過，今天將介紹幾種不一樣的存儲數據的文件格式。這些文件格式各有自己的一些優點，希望本文能讓你以後的數據存 ...

我們在使用pandas處理完數據之後，最終總是要把數據作為一個文件保存下來，
那麼，保存數據最常用的文件是什麼呢？
我想大部分人一定會選擇csv或者excel。

剛接觸數據分析時，我也是這麼選擇的，不過，今天將介紹幾種不一樣的存儲數據的文件格式。
這些文件格式各有自己的一些優點，希望本文能讓你以後的數據存儲方式能有不一樣的選擇，從而存儲的更加專業。

1. 準備數據

本次使用的數據來自A股2023年全年的日交易數據。
數據下載地址：https://databook.top/。

導入數據：

import pandas as pd

fp = "d:/share/歷史行情數據-不復權-2023.csv"

df = pd.read_csv(fp)
df

總共大約120多萬條數據。

準備好測試數據之後，開始測試各種文件的效果。

2. CSV

使用pandas做數據分析時，保存數據最常用的格式一定是CSV（或者excel）。
因為CSV格式易於分享，用excel或者文本編輯器都能直接打開。

但是當數據集規模比較大時，它的磁碟利用率和讀寫效率究竟如何呢？
首先我們把準備的數據保存為一個測試用的test.csv文件。

df = pd.read_csv(fp)
df.to_csv("d:/share/test.csv", index=None)

看看文件大小：

ls .\test.csv


    目錄: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  10:41:27      101411037 test.csv

test.csv文件大約:\(101411037/1024/1024 \approx 96.7MB\)

讀取效率：

%%timeit
df = pd.read_csv("d:/share/test.csv")

1.73 s ± 54.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

寫入的效率：

%%timeit
df.to_csv("d:/share/test.csv", index=None)

13.2 s ± 402 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

3. Pickle

Pickle格式是一種用於序列化和反序列化Python對象結構的二進位格式。
它的主要特點是能夠將程式中運行的對象信息保存到文件中。

下麵，我們先把準備的數據保存為一個測試用的test.pkl文件。

# pickle file
df = pd.read_csv(fp)
df.to_pickle("d:/share/test.pkl")

文件大小：

ls .\test.pkl


    目錄: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  10:49:09      116904470 test.pkl

test.pkl文件大約:\(116904470/1024/1024 \approx 111.5MB\)

讀取效率：

%%timeit
df = pd.read_pickle("d:/share/test.pkl")

136 ms ± 5.09 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

寫入效率：

%%timeit
df.to_pickle("d:/share/test.pkl")

182 ms ± 7.42 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

4. Parquet

Parquet格式是一種列式存儲格式，被廣泛應用於大數據處理領域。
它採用了壓縮和編碼技術，能夠有效地存儲和壓縮數據，同時保持數據的結構和模式。

下麵，我們先把準備的數據保存為一個測試用的test.parquet文件。

# parquet file
df = pd.read_csv(fp)
df.to_parquet("d:/share/test.parquet")

文件大小：

ls .\test.parquet


    目錄: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  10:52:08       32964728 test.parquet

test.parquet文件大約:\(32964728/1024/1024 \approx 31.4MB\)

讀取效率：

%%timeit
df = pd.read_parquet("d:/share/test.parquet")

200 ms ± 8.54 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

寫入效率：

%%timeit
df.to_parquet("d:/share/test.parquet")

1.23 s ± 62.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

5. Feather

Feather格式是一種高速、輕量且易於使用的二進位文件格式，專門用於存儲數據幀。
Feather的主要目標是提供高性能的讀寫操作。

下麵，我們先把準備的數據保存為一個測試用的test.feather文件。

# feather file
df = pd.read_csv(fp)
df.to_feather("d:/share/test.feather")

文件大小：

ls .\test.feather


    目錄: D:\share


Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
-a----        2024/03/15  11:17:15       57347098 test.feather

test.feather文件大約:\(57347098/1024/1024 \approx 54.7MB\)

讀取效率：

%%timeit
df = pd.read_feather("d:/share/test.feather")

130 ms ± 5.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

寫入效率：

%%timeit
df.to_feather("d:/share/test.feather")

277 ms ± 14.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

6. 總結

pandas能夠保存的文件格式有很多，比如還有XML，JSON，HTML等等，
上面列出的4種是我認為比較典型，且在數據分析領域用的比較多的格式。

4種格式的比較總結如下：

	磁碟占用	讀取效率	寫入效率
csv	96.7 MB	1.73 s ± 54.7 ms	13.2 s ± 402 ms
pickle	111.5 MB	136 ms ± 5.09 ms	182 ms ± 7.42 ms
parquet	31.4 MB	200 ms ± 8.54 ms	1.23 s ± 62.4 ms
feather	54.7 MB	130 ms ± 5.29 ms	277 ms ± 14.8 ms

綜合來看，當我們的數據量不大的時候，用CSV格式比較好，分享方便，可以用多種編輯器直接打開查看。
當數據規模變大了之後，如果數據需要長期存儲，而且不需要經常的更新寫入，那麼用parquet格式（它的磁碟占用最低，讀取性能好，寫入性能略遜）；
如果只要短期存儲的話，用fetdher格式更好（磁碟占用不算高，讀寫性能都不錯）。

至於pickle格式，它的讀寫性能也不錯，但它的最大優勢是可以保存python對象的狀態，只用來保存數據的話，這個優勢難以體現。
而且它的磁碟占用比較大，單純保存數據的話，不建議使用這種格式。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

深入理解 Java 多線程、Lambda 表達式及線程安全最佳實踐

Java 線程線程使程式能夠通過同時執行多個任務而更有效地運行。線程可用於在不中斷主程式的情況下在後臺執行複雜的任務。創建線程有兩種創建線程的方式。擴展Thread類可以通過擴展Thread類並覆蓋其run()方法來創建線程： public class MyThread extends ...
起飛前檢查

OI 一場空，不開 long long 見祖宗 cmp,一定要在 sort 里寫入打 st 表一定要算空間複雜度打倍增 LCA 一定要算空間複雜度註意 ÷0 線段樹 4 倍空間無向圖，鏈式前向星 2 倍空間樹鏈剖分要註意是原編號還是 dfn 序的編號鏈式前向星遍歷圖的時間複雜度永遠為 + ...
【Django開發】前後端分離美多商城項目第2篇：項目準備【附代碼文檔】

一、數據類型定義：就是用了保存數據的一個類型，一種數據類型，只能保存該類型數據值作用：只有瞭解數據類型，才能選擇合適的類型存放數據，才能更好的利用電腦硬體資源(記憶體和硬碟等)。不同的數據類型存放數據大小是不同的。數據類型的使用方式就是用來聲明一個變數，裝數據的。常用的整數類型是 in ...
Python 下 Django 通過 SSHTunnel 連接 ECS 上未開通外網地址 RDS 的方案

在開發過程中，碰到需要在 Python Django 項目中連接到位於 ECS 上但未開通外網地址的 RDS 資料庫。這種情況下，通過建立 SSH 隧道來實現連接，確保數據傳輸的安全性和可靠性。 1、安裝 sshtunnel 包 pip3 install sshtunnel 2、導入 SSHTun ...
resultMap 和 resultType 的欄位映射覆蓋問題

在MyBatis中，如果你使用resultType而不是resultMap，並且結果集中有同名欄位，則預設情況下後出現的欄位值會覆蓋前面的欄位值。這是因為MyBatis在將結果集映射到Java對象時，是按照欄位名稱一一對應進行賦值的。但若你希望更精確地控制映射關係，並且避免自動覆蓋行為，則可以用r ...
還在用ifelse來寫業務？瞭解下Spring狀態機

當開發者意識到代碼庫開始變得般混亂不堪時，就會在現有項目中引入狀態機。狀態機的引入有助於將複雜多變的應用程式狀態轉換過程組織得更為有序和清晰，從而避免代碼陷入難以維護的境地。 ...
數倉開發之ODS層

優秀可靠的數倉體系，需要良好的數據分層結構。合理的分層，能夠使數據體系更加清晰，使複雜問題得以簡化。以下是該項目的分層規劃。 1 設計要點（1）ODS層的表結構設計依托於從業務系統同步過來的數據結構（2）ODS層要保存全部歷史數據，故其壓縮格式應選擇壓縮比較高的，此處選擇gzip （3）ODS層 ...
雲計算 - 雲安全探索

全面介紹雲計算安全的意義、安全模型、雲安全挑戰、雲安全最佳實踐和技術解決方案，最終深入研究雲安全案例，讓大家對雲安全有全面的理解。關註【TechLeadCloud】，分享互聯網架構、雲服務技術的全維度知識。作者擁有10+年互聯網服務架構、AI產品研發經驗、團隊管理經驗，同濟本復旦碩，復旦機器人智能 ...