【pandas小技巧】--創建測試數據

来源:https://www.cnblogs.com/wang_yb/archive/2023/07/14/17552748.html
-Advertisement-
Play Games

學習`pandas`的過程中,為了嘗試`pandas`提供的各類功能強大的函數,常常需要花費很多時間去創造測試數據。 在`pandas`中,快速創建測試數據可以更快的評估 `pandas` 函數。通過生成一組測試數據,可以評估例如 `read_csv`、`read_excel`、`groupby`等 ...


學習pandas的過程中,為了嘗試pandas提供的各類功能強大的函數,常常需要花費很多時間去創造測試數據。

pandas中,快速創建測試數據可以更快的評估 pandas 函數。
通過生成一組測試數據,可以評估例如 read_csvread_excelgroupby等函數,以確保這些函數在處理不同數據格式和結構時都能正常工作。

本篇介紹一些快速創建測試數據的方法,提高學習pandas的效率。

1. 一般方法

一般創建測試數據的有兩種:

  1. 一種是直接創建每行每列的數據
  2. 用 numpy 隨機生成二維數組

1.1. 直接創建數據

這種方式之前的視頻中已經多次使用,直接創建數據雖然麻煩,但好處是每個數據都可控,不論是數據類型還是值都高度可控。

import pandas as pd

df = pd.DataFrame(
    {
        "數學": [100, 88, 94, 76, 84],
        "語文": [98, 80, 86, 76, 90],
        "英語": [95, 91, 86, 95, 83],
    },
    index=["小紅", "小明", "小汪", "小李", "小張"],
)
df

image.png

1.2. 隨機二維數組

隨機生成二維數組需要用到numpy庫,通過 numpy生成隨機二維數據,然後將其轉換為pandasDataFrame

比如,下麵生成一個3行4列的隨機數據:

pd.DataFrame(np.random.rand(3, 4))

image.png
上面的數據是隨機的,每次運行產生的結果會不一樣。

隨機創建數據時,也可以設置索引和列名。

pd.DataFrame(
    np.random.rand(3, 4),
    index=["row1", "row2", "row3"],
    columns=["col1", "col2", "col3", "col4"],
)

image.png

2. 特殊技巧

上面介紹隨機生成數據的方法只能生成浮點型數據,而且索引和列名都只能是預設的自增數字,數據的多樣性不夠。

下麵介紹pandas自身提供的一些隨機生成數據方法,可以生成不同類型的隨機數據。

2.1. makeDataFrame

makeDataFrame() 方法會隨機創建一個 30x4 的數據集。

df = pd.util.testing.makeDataFrame()
print(df.shape)
df.head()

image.png
索引是隨機字元串。

2.2. makeMissingDataFrame

makeMissingDataFrame() 方法會隨機創建一個 30x4 包含缺失值的數據集,缺失值的位置也是隨機的。

df = pd.util.testing.makeMissingDataframe()
print(df.shape)
df.head()

image.png

2.3. makeTimeDataFrame

makeTimeDataFrame() 方法會隨機創建一個 30x4 包含的數據集,索引是自增的日期。

df = pd.util.testing.makeTimeDataFrame()
print(df.shape)
df.head()

image.png

2.4. makeMixedDataFrame

makeMixedDataFrame()方法會隨機創建一個 5x4的數據集,其中列的類型是多樣的,有字元串,日期和數值。

df = pd.util.testing.makeMixedDataFrame()
print(df.shape)
df

image.png

3. 補充

上面介紹的方法生成的數據集不大,如果需要生成數據量較大的數據集的話,可以迴圈生成DataFrame,然後再拼接在一起。
上面介紹的方法,每次生成的數據集的值是隨機的,不用擔心拼接後全是重覆的數據。

此外,除了上面介紹的方法之外,pd.util.testing 還有其他一些創建數據的方法,歡迎大家去探索,使用。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # Scala基礎篇(持續更新中...) ## 數據類型 下表中列出的數據類型都是對象,可以直接對它們調用方法。 | 數據類型 | 描述 | | | | | Byte | 8位有符號補碼整數。數值區間為 -128 到 127 | | Short | 16位有符號補碼整數。數值區間為 -32768 到 ...
  • ## Socket編程(網路通信) #### 伺服器端Demo(ServreSocket) ​ 創建服務端時,如果不提供IP地址,則預設為本地連接(127.0.0.1),但是一定需要手動配置監聽埠! ```java public static void main(String[] args) { ...
  • #include <iostream> #include <Windows.h> #include <WinSock2.h> std::string GetLastErrorMessage() { DWORD errorCode = WSAGetLastError(); LPSTR errorMes ...
  • 在互聯網世界中,驗證碼作為一種防止機器人訪問的工具,是爬蟲最常遇到的阻礙。驗證碼的類型眾多,從簡單的數字、字母驗證碼,到複雜的圖像識別驗證碼,再到更為高級的互動式驗證碼,每一種都有其獨特的識別方法和應對策略。在這篇文章中,我們將一一介紹各種驗證碼的工作原理和使用[2Captcha](https://... ...
  • ## 教程簡介 巨集語言Visual Basic for Application(VBA).Visual Basic是windows環境下開發應用軟體的一種通用程式設計語言,功能強大,簡便易用。 Excel巨集是Excel中的一種編程功能,它可以讓用戶錄製一系列的操作,以便在需要時自動執行這些操作。用戶 ...
  • ## 教程簡介 Apache JMeter 是 Apache 組織基於 Java 開發的壓力測試工具,用於對軟體做壓力測試。JMeter 最初被設計用於 Web 應用測試,但後來擴展到了其他測試領域,可用於測試靜態和動態資源,如靜態文件、Java 小服務程式、CGI 腳本、Java 對象、資料庫和 ...
  • ## Miller_rabin 素數測試 一種用來判斷素數的演算法。 ### 前置芝士 #### 威爾遜定理 若 $p$ 為素數,$(p-1)! \equiv -1 (\mod p)$。 證明: 充分性證明: 如果 $p$ 不是素數,那麼他的因數必定存在於$ 1,2,3,\dots,p−1$ 之中,所 ...
  • 網路流 何為網路流 想要弄清楚網路流,首先要知道網路的概念,通常在運籌學中,網路是指一個有向圖$G\ =\ (V,E)$ 。其每條邊$(u,v)\in E$都有一個權值$c(u,v)$,稱為這條邊的流量(Capacity),還有兩個特殊的點,一個是源點(Source),一個是匯點(Sink)在圖論中 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...