【pandas小技巧】--創建測試數據

-Advertisement-

學習`pandas`的過程中，為了嘗試`pandas`提供的各類功能強大的函數，常常需要花費很多時間去創造測試數據。在`pandas`中，快速創建測試數據可以更快的評估 `pandas` 函數。通過生成一組測試數據，可以評估例如 `read_csv`、`read_excel`、`groupby`等 ...

學習pandas的過程中，為了嘗試pandas提供的各類功能強大的函數，常常需要花費很多時間去創造測試數據。

在pandas中，快速創建測試數據可以更快的評估 pandas 函數。
通過生成一組測試數據，可以評估例如 read_csv、read_excel、groupby等函數，以確保這些函數在處理不同數據格式和結構時都能正常工作。

本篇介紹一些快速創建測試數據的方法，提高學習pandas的效率。

1. 一般方法

一般創建測試數據的有兩種：

一種是直接創建每行每列的數據
用 numpy 隨機生成二維數組

1.1. 直接創建數據

這種方式之前的視頻中已經多次使用，直接創建數據雖然麻煩，但好處是每個數據都可控，不論是數據類型還是值都高度可控。

import pandas as pd

df = pd.DataFrame(
    {
        "數學": [100, 88, 94, 76, 84],
        "語文": [98, 80, 86, 76, 90],
        "英語": [95, 91, 86, 95, 83],
    },
    index=["小紅", "小明", "小汪", "小李", "小張"],
)
df

1.2. 隨機二維數組

隨機生成二維數組需要用到numpy庫，通過 numpy生成隨機二維數據，然後將其轉換為pandas的DataFrame。

比如，下麵生成一個3行4列的隨機數據：

pd.DataFrame(np.random.rand(3, 4))

上面的數據是隨機的，每次運行產生的結果會不一樣。

隨機創建數據時，也可以設置索引和列名。

pd.DataFrame(
    np.random.rand(3, 4),
    index=["row1", "row2", "row3"],
    columns=["col1", "col2", "col3", "col4"],
)

2. 特殊技巧

上面介紹隨機生成數據的方法只能生成浮點型數據，而且索引和列名都只能是預設的自增數字，數據的多樣性不夠。

下麵介紹pandas自身提供的一些隨機生成數據方法，可以生成不同類型的隨機數據。

2.1. makeDataFrame

makeDataFrame() 方法會隨機創建一個 30x4 的數據集。

df = pd.util.testing.makeDataFrame()
print(df.shape)
df.head()

索引是隨機字元串。

2.2. makeMissingDataFrame

makeMissingDataFrame() 方法會隨機創建一個 30x4 包含缺失值的數據集，缺失值的位置也是隨機的。

df = pd.util.testing.makeMissingDataframe()
print(df.shape)
df.head()

2.3. makeTimeDataFrame

makeTimeDataFrame() 方法會隨機創建一個 30x4 包含的數據集，索引是自增的日期。

df = pd.util.testing.makeTimeDataFrame()
print(df.shape)
df.head()

2.4. makeMixedDataFrame

makeMixedDataFrame()方法會隨機創建一個 5x4的數據集，其中列的類型是多樣的，有字元串，日期和數值。

df = pd.util.testing.makeMixedDataFrame()
print(df.shape)
df

3. 補充

上面介紹的方法生成的數據集不大，如果需要生成數據量較大的數據集的話，可以迴圈生成DataFrame，然後再拼接在一起。
上面介紹的方法，每次生成的數據集的值是隨機的，不用擔心拼接後全是重覆的數據。

此外，除了上面介紹的方法之外，pd.util.testing 還有其他一些創建數據的方法，歡迎大家去探索，使用。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Scala

# Scala基礎篇（持續更新中...） ## 數據類型下表中列出的數據類型都是對象，可以直接對它們調用方法。 | 數據類型 | 描述 | | | | | Byte | 8位有符號補碼整數。數值區間為 -128 到 127 | | Short | 16位有符號補碼整數。數值區間為 -32768 到 ...
Java入門13（socket）

## Socket編程（網路通信） #### 伺服器端Demo（ServreSocket）創建服務端時，如果不提供IP地址，則預設為本地連接（127.0.0.1），但是一定需要手動配置監聽埠！ ```java public static void main(String[] args) { ...
C++將WSAGetLastError轉換成字元串信息

#include <iostream> #include <Windows.h> #include <WinSock2.h> std::string GetLastErrorMessage() { DWORD errorCode = WSAGetLastError(); LPSTR errorMes ...
爬蟲突破驗證碼技術 - 2Captcha

在互聯網世界中，驗證碼作為一種防止機器人訪問的工具，是爬蟲最常遇到的阻礙。驗證碼的類型眾多，從簡單的數字、字母驗證碼，到複雜的圖像識別驗證碼，再到更為高級的互動式驗證碼，每一種都有其獨特的識別方法和應對策略。在這篇文章中，我們將一一介紹各種驗證碼的工作原理和使用[2Captcha](https://... ...
Excel巨集教程_編程入門自學教程_菜鳥教程-免費教程分享

## 教程簡介巨集語言Visual Basic for Application(VBA).Visual Basic是windows環境下開發應用軟體的一種通用程式設計語言，功能強大，簡便易用。 Excel巨集是Excel中的一種編程功能，它可以讓用戶錄製一系列的操作，以便在需要時自動執行這些操作。用戶 ...
jmeter教程_編程入門自學教程_菜鳥教程-免費教程分享

## 教程簡介 Apache JMeter 是 Apache 組織基於 Java 開發的壓力測試工具，用於對軟體做壓力測試。JMeter 最初被設計用於 Web 應用測試，但後來擴展到了其他測試領域，可用於測試靜態和動態資源，如靜態文件、Java 小服務程式、CGI 腳本、Java 對象、資料庫和 ...
Miller_rabin 素數測試學習筆記

## Miller_rabin 素數測試一種用來判斷素數的演算法。 ### 前置芝士 #### 威爾遜定理若 $p$ 為素數，$(p-1)! \equiv -1 (\mod p)$。證明：充分性證明：如果 $p$ 不是素數，那麼他的因數必定存在於$ 1,2,3,\dots,p−1$ 之中，所 ...
網路流學習筆記

網路流何為網路流想要弄清楚網路流，首先要知道網路的概念，通常在運籌學中，網路是指一個有向圖$G\ =\ (V,E)$ 。其每條邊$(u,v)\in E$都有一個權值$c(u,v)$,稱為這條邊的流量(Capacity)，還有兩個特殊的點，一個是源點(Source),一個是匯點(Sink)在圖論中 ...