pandas DataFrame記憶體優化技巧：讓數據處理更高效

-Advertisement-

Pandas無疑是我們數據分析時一個不可或缺的工具，它以其強大的數據處理能力、靈活的數據結構以及易於上手的API贏得了廣大數據分析師和機器學習工程師的喜愛。然而，隨著數據量的不斷增長，如何高效、合理地管理記憶體，確保Pandas DataFrame在運行時不會因記憶體不足而崩潰，成為我們每一個人必須面 ...

Pandas無疑是我們數據分析時一個不可或缺的工具，它以其強大的數據處理能力、靈活的數據結構以及易於上手的API贏得了廣大數據分析師和機器學習工程師的喜愛。

然而，隨著數據量的不斷增長，如何高效、合理地管理記憶體，確保Pandas DataFrame在運行時不會因記憶體不足而崩潰，成為我們每一個人必須面對的問題。

在這個信息爆炸的時代，數據規模呈指數級增長，如何優化記憶體使用，不僅關乎到程式的穩定運行，更直接關係到數據處理的效率和準確性。通過本文，你將瞭解到一些實用的記憶體優化技巧，幫助你在處理大規模數據集時更加得心應手。

1. 準備數據

首先，準備一些包含各種數據類型的測試數據集。
封裝一個函數（fake_data），用來生成數據集，數據集中包含後面用到的幾種欄位。

import pandas as pd
import numpy as np

def fake_data(size):
    """
    根據測試數據集：
    age：整數類型數值
    grade：有限個數的字元串
    qualified：是否合格
    ability：能力評估，浮點類型數值
    """
    df = pd.DataFrame()
    df["age"] = np.random.randint(1, 30, size)
    df["grade"] = np.random.choice(
        [
            "一年級",
            "二年級",
            "三年級",
            "四年級",
            "五年級",
            "六年級",
        ],
        size,
    )
    df["qualified"] = np.random.choice(["合格", "不合格"], size)
    df["ability"] = np.random.uniform(0, 1, size)

    return df

2. 檢測記憶體占用

使用上面封裝的函數（fake_data）先構造一個包含一百萬條數據的DataFrame。

df = fake_data(1_000_000)
df.head()

看看優化前的記憶體占用情況：

df.info()

記憶體占用大約 26.7MB 左右。

3. 優化記憶體

接下來，我們開始一步步優化DataFrame的記憶體占用，
並測試每一步優化之後的記憶體使用情況和運行性能變化。

3.1. 優化整型數據

首先，優化整型數據的記憶體占用，也就是測試數據中的年齡（age）欄位。
從上面df.info()的結果中，我們可以看出，age的類型是int32（也就是用32位，8個位元組來存儲整數）。
對於年齡來說，用不到這麼大的整數，用int8（數值範圍：-128~127）來存儲綽綽有餘。

df["age"] = df["age"].astype("int8")
df.info()

優化之後，記憶體占用從26.7+ MB減到23.8+ MB。

3.2. 優化浮點型數據

接下來優化浮點類型數據，也就是測試數據中的能力評估值（ability）。
測試數據中ability的值是6位小數，類型是float64，
轉換成float16可能會改變值，所以這裡轉換成float32。

df["ability"] = df["ability"].astype("float32")
df.info()

優化之後，記憶體占用進一步從23.8+ MB減到20.0+ MB。

3.3. 優化布爾型數據

接下來，優化測試數據中的是否合格（qualified）,
這個值雖然是字元串類型，但是它的值只有兩種（合格和不合格），所以可以轉換成布爾類型。

df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()

優化之後，記憶體占用進一步從20.0+ MB減到13.4+ MB。

3.4. 使用category類型

最後，我們再優化剩下的欄位--年級（grade）。

這個欄位也是字元串，不過它的值只有6個，雖然無法轉換成布爾類型（布爾類型只有兩種值True和False），但是它可以轉換為pandas中的 category 類型。

df["grade"] = df["grade"].astype("category")
df.info()

優化之後，記憶體占用進一步從13.4+ MB減到6.7+ MB。

4. 總結

各類欄位優化之後，記憶體占用從剛開始的26.7+ MB減到6.7+ MB，優化的效果非常明顯。

僅僅是數據類型的簡單調整，就帶來瞭如此之大的記憶體效率提升，
這也給我們帶來啟示，在數據分析的過程中，構造DataFrame時，也可以根據數值的範圍，特點等，
來賦予它合適的類型，不要一味簡單的使用字元串，或者預設的整數（int32），預設的浮點（float64）等類型。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java序列化和反序列化機制

Java的序列化和反序列化機制問題導入: 在閱讀ArrayList源碼的時候,註意到,其內部的成員變數動態數組elementData被Java中的關鍵字transient修飾 transient關鍵字意味著Java在序列化時會跳過該欄位(不序列化該欄位) 而Java在預設情況下會序列化類(實現了J ...
5分鐘上手Python爬蟲：從乾飯開始，輕鬆掌握技巧

本文的重點在於引導讀者如何初步掌握爬蟲技術。初步掌握爬蟲技術並不難，但是在實際操作中可能會遇到一些困難，比如一些網站不允許直接訪問，需要登錄或者進行各種人機驗證等。因此，最好先從爬取一些新聞資訊類的網站開始，因為這樣相對容易。涉及用戶支付等敏感信息的網站就不那麼容易獲取了。因此，在入門階段，建議不要... ...
掌握Python庫的Bokeh，就能讓你的交互炫目可視化

本文分享自華為雲社區《Bokeh圖形魔法：掌握繪圖基礎與高級技巧，定製炫目可視化》，作者：檸檬味擁抱。 Bokeh是一個用於創建互動式可視化圖形的強大Python庫。它不僅易於使用，而且功能強大，適用於各種數據可視化需求。本文將介紹Bokeh庫的繪圖可視化基礎入門，重點說明常用的參數，並通過實例演 ...
多線程系列(二十) -CompletableFuture使用詳解

在上篇文章中，我們介紹了Future相關的用法，使用它可以獲取非同步任務執行的返回值。我們再次回顧一下Future相關的用法。 ...
c3p0 數據池入門使用教程

dbcp 系列從零開始手寫 mybatis （三）jdbc pool 如何從零手寫實現資料庫連接池 dbcp？萬字長文深入淺出資料庫連接池 HikariCP/Commons DBCP/Tomcat/c3p0/druid 對比 Database Connection Pool 資料庫連接池概覽 c ...
Dockerfile和DockerCompose的使用

前言學習命令的正確方式，其實是先手動操作一個簡單的命令，然後瞭解命令的基本含義，然後再看命令的相關文章。所以，網上哪些docker的文章，基本上都不適於學習入門。基礎命令基礎命令如下： FROM openjdk:8-jre-alpine LABEL author="kiba <xxx@126 ...
什麼叫運行時的Java程式？

Java程式的運行包含編寫、編譯和運行三個主要步驟。 1.在編寫階段：開發人員在Java開發環境中輸入程式代碼，形成尾碼名為.java的Java源文件。 2.在編譯階段：使用Java編譯器對源文件進行錯誤排查，並生成尾碼名為.class的位元組碼文件。 3.最後，在運行階段： JRE中的Java解 ...
速來！體驗阿裡通義靈碼，抽AI盲盒贏大獎，100%中獎，永不落空～

關於阿裡的通義靈碼，之前DD就給大家推薦過，雖然比起GitHub Copilot還有一些差距。但日常使用，大部分場景還是游刃有餘的。另外，它還是免費使用的，還要什麼自行車？最近正好看到它們在搞活動，不管你之前是否已經使用，還是沒有體驗過，這次都推薦來嘗試一下！因為不管你覺得好不好，都有拿啊 ...