【pandas小技巧】--隨機挑選子集

-Advertisement-

在 `pandas` 中，如果遇到數據量特別大的情況，隨機挑選 DataFrame 的子集可以幫助我們更深入地瞭解數據，從而更好地進行數據分析和決策。隨機挑選子集的用途主要有： 1. 評估數據質量：隨機挑選 DataFrame 的子集可以幫助我們檢查數據集的質量，以便進一步探索和挖掘數據。例如，我 ...

在 pandas 中，如果遇到數據量特別大的情況，隨機挑選 DataFrame 的子集可以幫助我們更深入地瞭解數據，從而更好地進行數據分析和決策。

隨機挑選子集的用途主要有：

評估數據質量：隨機挑選 DataFrame 的子集可以幫助我們檢查數據集的質量，以便進一步探索和挖掘數據。例如，我們可以通過隨機選擇一些行或列來評估數據的分佈、離群值、缺失值等情況。
加深理解數據：隨機挑選 DataFrame 的子集可以幫助我們更深入地瞭解數據。例如，我們可以通過隨機選擇一些列來瞭解數據的分佈、趨勢、相關性等情況。
發現潛在模式：隨機挑選 DataFrame 的子集可以幫助我們發現潛在的模式或規律。例如，我們可以通過隨機選擇一些行或列來探索數據之間的相關性或趨勢，從而發現潛在的模式或規律。
探索新的數據分析方法：隨機挑選 DataFrame 的子集可以幫助我們探索新的數據分析方法。例如，我們可以通過隨機選擇一些列來探索新的數據分析方法，如時間序列分析、空間分析等。
提高程式性能：隨機挑選 DataFrame 的子集可以幫助我們優化程式性能。例如，我們可以通過隨機選擇一些列來減少計算量，從而提高程式性能。

本篇介紹一種pandas挑選子集的方式，以及子集在機器學習中常用的一個場景。

1. 隨機挑選

這次示例中準備的數據來自鏈家網，我採集了一些南京市建鄴區的房產交易數據，共有11290條。

import pandas as pd

fp = "nanjing-jianye.csv"
df = pd.read_csv(fp)
df

1.1. 按百分比挑選

按百分比隨機挑選樣本的核心參數是 frac 和 random_state。

frac：樣本數量占總量的百分比
random_state：隨機狀態，這個值相同，取出的樣本是一樣的

df1 = df.sample(frac=0.1, random_state=1111)
df1.sort_index()

上面的示例中 frac=0.1，相當於獲取總量10%的樣本，總量11290條，所以樣本數量1129條。

示例中的random_state=1111，只要改變這個數值，取出的樣本就是會變化。

df1 = df.sample(frac=0.1, random_state=2222)
df1.sort_index()

1.2. 按個數挑選

按個數隨機挑選樣本的核心參數是 n 和 random_state。

n：樣本數量
random_state：隨機狀態，這個值相同，取出的樣本是一樣的

df2 = df.sample(n=100, random_state=1111)
df2.sort_index()

上面的示例中n=100，隨機取100個樣本，其中random_state的作用和按百分比挑選一樣。

2. 機器學習中使用場景

隨機挑選子集的用途開頭已經介紹了很多，還有個重要的應用場景是在機器學習時，可以將數據劃分為訓練集和測試集。

針對這個需求，利用上面介紹的sample函數封裝一個平均劃分的子集介面。
用於機器學習時分隔訓練集和測試集。

import pandas as pd
import random

def split_dataset(df: pd.DataFrame, n = 10):
    """
    df: 帶劃分的數據集
    n: 劃分子集的個數，預設10個
    """
    total = len(df)
    subset_count = total // n

    dataset = []
    df_left = df.copy()
    for i in range(n):
        df_subset = df_left.sample(n=subset_count, random_state=random.randint(1000,9999))
        dataset.append(df_subset.copy())

        df_left = df_left.drop(index=df_subset.index)

    return dataset

比如上面示例的房產成交數據（共11290條），通過此方法可以平均劃分成n個數據集。

ds = split_dataset(df, n=10)
ds

ds列表中就是平均劃分的10個子集。
應用機器學習的演算法時，可以迴圈任意選擇7個作為訓練集，剩餘3個作為測試集。

3. 附錄

本篇中使用的數據下載地址：nanjing-jianye.csv

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

20.1K Star！Notion的開源替代方案：AFFiNE

Notion這款筆記軟體相信很多開發者都比較熟悉了，很多讀者，包括我自己都用它來記錄和管理自己的筆記。今天給大家推薦一個最近比較火的開源替代方案：AFFiNE。目前該開源項目已經斬獲20.1K Star，熱度非常的高，下麵一起來認識一下這個繼Notion之後，被熱捧的開源軟體吧。 ![](https ...
python基礎之函數的特性

### 1.eval() 功能描述：“剝去字元串的外衣”，去運行字元串裡面的代碼作用　：（1）參數是一個類似"1+3"這樣數學表達式的字元串，可以計算得到返回值（int型）（2）參數是一個類似"{'name':'tian','age':18}"這樣字典、列表、元組外套上一對引號的字元串，可以快 ...
Python採集主播照片，實現人臉識別, 進行顏值評分，製作顏值排行榜

昨晚一回家，表弟就神神秘秘的跟我說，發現一個高顏值網站，非要拉著我研究一下她們的顏值高低。我心想，這還得要我一個個慢慢看，太麻煩了~ 於是反手用Python給他寫了一個人臉識別代碼，把她們的照片全部爬下來，自動檢測顏值打分排名。這不比手動快多了？準備工作開發環境 Python 3.8 Pyc ...
Spring 中的 @Cacheable 緩存註解，太好用了！

## 1 什麼是緩存第一個問題，首先要搞明白什麼是緩存，緩存的意義是什麼。對於普通業務，如果要查詢一個數據，一般直接select資料庫進行查找。但是在高流量的情況下，直接查找資料庫就會成為性能的瓶頸。因為資料庫查找的流程是先要從磁碟拿到數據，再刷新到記憶體，再返回數據。磁碟相比於記憶體來說，速度是很 ...
[爬蟲]2.3.1 使用Python操作文件系統

來源：juejin.cn/post/7026372482110079012 ## 前言 > 互聯網的連接速度慢且不穩定，有可能由於網路故障導致斷開連接。 > > 在客戶端下載一個大對象時，因網路斷開導致上傳下載失敗的概率就會變得不可忽視。 ![](https://img2023.cnblogs.co ...
Google圖表教程_編程入門自學教程_菜鳥教程-免費教程分享

## 教程簡介 Google圖表是一個純粹的基於JavaScript的圖表庫，旨在通過添加互動式製圖功能來增強Web應用程式。它支持多種圖表。在Chrome，Firefox，Safari，Internet Explorer（IE）等標準瀏覽器中使用SVG繪製圖表。在傳統IE 6中，VML用於繪製圖形 ...
線程池shutdown引發TimeoutException

## 問題描述分享一個發版過程服務報錯問題，問題出現在每次發版，服務準備下線的時候，報錯的位置是在將任務submit提交給線程池，使用Future.get()引發的TimeoutException，錯誤日誌會列印下麵的"error"。偽代碼如下： ``` List>>> futures = new ...
我真的不想再用mybatis和其衍生框架了選擇自研亦是一種解脫

# 我真的不想再用mybatis和其衍生框架了選擇自研亦是一種解脫 [文檔地址](https://xuejm.gitee.io/easy-query-doc/) https://xuejm.gitee.io/easy-query-doc/ [GITHUB地址](https://github.com/ ...