【pandas基礎】--數據拆分與合併

-Advertisement-

數據集拆分是將一個大型的數據集拆分為多個較小的數據集，可以讓數據更加清晰易懂，也方便對單個數據集進行分析和處理。同時，分開的數據集也可以分別應用不同的數據分析方法進行處理，更加高效和專業。數據集合併則是將多個數據集合併成一個大的數據集，可以提供更全面的信息，也可以進行更綜合的數據分析。同時，數 ...

數據集拆分是將一個大型的數據集拆分為多個較小的數據集，可以讓數據更加清晰易懂，也方便對單個數據集進行分析和處理。
同時，分開的數據集也可以分別應用不同的數據分析方法進行處理，更加高效和專業。

數據集合併則是將多個數據集合併成一個大的數據集，可以提供更全面的信息，也可以進行更綜合的數據分析。
同時，數據集合併也可以減少數據處理的複雜度和時效性，提升數據分析的準確性和結果的可靠性。

1. 數據集拆分

拆分數據集比較簡單，之前介紹過數據檢索的各種方式，其實檢索出的結果就是拆分出來的數據。

1.1 拆分行

拆分單行和多行。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)
first_row = df.loc[0:0, :]
left_rows = df.loc[1:, :]

1.2 拆分列

拆分單列或者多列。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

first_col = df[["name"]]
left_cols = df[["age", "gender"]]

1.3 按條件拆分

下麵的示例按照列的值來拆分數據集。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

males = df[df["gender"] == "男"]
greater13 = df[df["age"] > 13]

如果有多個條件，可以通過邏輯與(&)和邏輯或(|)符號來連接，具體可以參照之前介紹數據檢索的文章。

2. 數據集合併

數據集的合併也是比較常用的，因為我們收集來的數據可能來自不同的地方。

2.1 merge 方法

merge方法合併DataFrame時，有兩個重要的參數：

how：設置合併的方式，有inner，outer，left，right四種方式。
on：依據那個列來合併

下麵是四種不同合併方式的示例。
inner合併：name值相同的數據才保留下來。

import pandas as pd

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "score": [99, 100],
    }
)

df = pd.merge(df1, df2, how="inner", on="name")
df

outer合併：兩個DataFrame的name都保留下來，合併後缺失值的填充NaN。

df = pd.merge(df1, df2, how="outer", on="name")
df

left合併：df1的name全部保留下來，缺失的值填充NaN。

df = pd.merge(df1, df2, how="left", on="name")
df

right合併：df2的name全部保留下來，缺失的值填充NaN。

df = pd.merge(df1, df2, how="right", on="name")
df

2.2 concat 方法

兩個DataFrame結構相同時，一般是按行來合併（axis=0）。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df = pd.concat([df1, df3], axis=0)
df

如果兩個DataFrame結構不一樣時，用列合併（axis=1）。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "score": [100, 90],
        "city": ["nanjing", "beijing"],
    }
)

df = pd.concat([df1, df3], axis=1)
df

2.3 join 方法

join方法和merge方法類似，主要區別在於join是DataFrame的方法，而merge是pandas的方法。
下麵請直接看與merge方法相似的四種示例。

inner合併：name值相同的數據才保留下來。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "score": [99, 100],
    }
)

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="inner")
df.reset_index()

註意，這裡顯示了join和merge的一個區別，join預設是依據索引（index）來合併DataFrame的，
所以，先把name設置為索引之後才合併的，合併之後又通過reset_index重置了索引，得到了和merge同樣的結果。

outer合併：兩個DataFrame的name都保留下來，合併後缺失值的填充NaN。

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="outer")
df.reset_index()

註意，最後的數據雖然和merge一樣，但是順序有些區別。

left合併：df1的name全部保留下來，缺失的值填充NaN。

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="left")
df.reset_index()

left的結果和merge一樣。

right合併：df2的name全部保留下來，缺失的值填充NaN。

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="right")
df.reset_index()

right的結果和merge一樣。

3. 總結回顧

總的來說，pandas數據集拆分和合併的意義在於高效利用數據，提高數據分析的質量和效率，進一步實現數據驅動的業務增長。

本篇主要介紹了數據集拆分和合併最常用的幾種基本方法，根據具體的業務組合這些基本方法，就能夠進行更複雜的數據集拆分和合併。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

java常用類

java常用類 Object類基類，超類，所有類的直接或間接父類 object類定義的方法是所有對象都具有的方法 object類型可以存儲任何對象作為參數，可以接受任何對象作為返回值，可以返回任何對象 getClass() 返回引用中存儲的實際對象類型 public class Student ...
python包管理工具：Conda和pip比較

Nacos 是一個開源的服務發現、配置管理和服務治理平臺，是阿裡巴巴開源的一款產品。 Nacos 可以幫助開發者更好地管理微服務架構中的服務註冊、配置和發現等問題，提高系統的可靠性和可維護性。 ...
Python字元串替換的3種方法

Python字元串替換筆記主要展示瞭如何在Python中替換字元串。Python中有以下幾種替換字元串的方法，本文主要介紹前三種。 replace方法（常用） translate方法 re.sub方法字元串切片（根據Python字元串切片方法替換字元） 1.replace方法 Python rep ...
如何在 Python 開發環境中調用 ChatGPT 模型？

本文將演示在本地的 python 項目中調用 ChatGPT 模型前言作為一名程式員，在開發過程當中時常需要使用 ChatGPT 來完成一些任務，但總是使用網頁交互模式去 Web 端訪問 ChatGPT 是很麻煩的，這時候我們可以使用代碼來調用 ChatGPT 模型，以實現在本地和 Web 端一 ...
Python從零到壹丨圖像增強的頂帽運算和底帽運算

摘要：這篇文章詳細介紹了頂帽運算和底帽運算，它們將為後續的圖像分割和圖像識別提供有效支撐。本文分享自華為雲社區《[Python從零到壹] 四十九.圖像增強及運算篇之頂帽運算和底帽運算》，作者：eastmount。數學形態學（Mathematical Morphology）是一種應用於圖像處理和模 ...
35基於java的校園二手交易系統或跳蚤市場設計與實現

基於java的校園二手交易系統或跳蚤市場設計與實現，java二手交易平臺，二手商城，交易商城，大學生交易平臺，springboot二手交易系統，二手交易平臺，購物平臺，大學生跳蚤平臺設計與實現,閑置物品交易平臺，校園閑置二手。 ...
這10個Lambda表達式必須掌握，簡化你的代碼，提高生產力

Lambda 表達式（lambda expression）是一個匿名函數，Lambda表達式基於數學中的λ演算得名，直接對應於其中的lambda抽象（lambda abstraction），是一個匿名函數，即沒有函數名的函數。Lambda表達式可以表示閉包，和傳統數學上的意義有區別。文末有本文重點 ...
【GiraKoo】Java Native Interface（JNI）的空間（引用）管理

Java是通過垃圾回收機制回收記憶體，C/C++是通過malloc，free，new，delete手動管理空間。那麼在JNI層，同時存在Java和C/C++的空間時，該如何進行空間的管理呢？本文參考Oracle的官方文檔，對JNI層中空間的管理進行說明。明確哪些內容需要手動調用Delete，哪些不需要... ...