【pandas基礎】--數據拆分與合併

来源:https://www.cnblogs.com/wang_yb/archive/2023/05/18/17411638.html
-Advertisement-
Play Games

數據集拆分是將一個大型的數據集拆分為多個較小的數據集,可以讓數據更加清晰易懂,也方便對單個數據集進行分析和處理。 同時,分開的數據集也可以分別應用不同的數據分析方法進行處理,更加高效和專業。 數據集合併則是將多個數據集合併成一個大的數據集,可以提供更全面的信息,也可以進行更綜合的數據分析。 同時,數 ...


數據集拆分是將一個大型的數據集拆分為多個較小的數據集,可以讓數據更加清晰易懂,也方便對單個數據集進行分析和處理。
同時,分開的數據集也可以分別應用不同的數據分析方法進行處理,更加高效和專業。

數據集合併則是將多個數據集合併成一個大的數據集,可以提供更全面的信息,也可以進行更綜合的數據分析。
同時,數據集合併也可以減少數據處理的複雜度和時效性,提升數據分析的準確性和結果的可靠性。

1. 數據集拆分

拆分數據集比較簡單,之前介紹過數據檢索的各種方式,其實檢索出的結果就是拆分出來的數據。

1.1 拆分行

拆分單行和多行。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)
first_row = df.loc[0:0, :]
left_rows = df.loc[1:, :]

image.png

1.2 拆分列

拆分單列或者多列。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

first_col = df[["name"]]
left_cols = df[["age", "gender"]]

image.png

1.3 按條件拆分

下麵的示例按照列的值來拆分數據集。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

males = df[df["gender"] == "男"]
greater13 = df[df["age"] > 13]

image.png

如果有多個條件,可以通過邏輯與(&)邏輯或(|)符號來連接,具體可以參照之前介紹數據檢索的文章。

2. 數據集合併

數據集的合併也是比較常用的,因為我們收集來的數據可能來自不同的地方。

2.1 merge 方法

merge方法合併DataFrame時,有兩個重要的參數:

  1. how:設置合併的方式,有innerouterleftright四種方式。
  2. on:依據那個列來合併

下麵是四種不同合併方式的示例。
inner合併:name值相同的數據才保留下來。

import pandas as pd

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "score": [99, 100],
    }
)

df = pd.merge(df1, df2, how="inner", on="name")
df

image.png

outer合併:兩個DataFramename都保留下來,合併後缺失值的填充NaN

df = pd.merge(df1, df2, how="outer", on="name")
df

image.png

left合併:df1name全部保留下來,缺失的值填充NaN

df = pd.merge(df1, df2, how="left", on="name")
df

image.png

right合併:df2name全部保留下來,缺失的值填充NaN

df = pd.merge(df1, df2, how="right", on="name")
df

image.png

2.2 concat 方法

兩個DataFrame結構相同時,一般是按行來合併(axis=0)。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df = pd.concat([df1, df3], axis=0)
df

image.png

如果兩個DataFrame結構不一樣時,用列合併(axis=1)。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "score": [100, 90],
        "city": ["nanjing", "beijing"],
    }
)

df = pd.concat([df1, df3], axis=1)
df

image.png

2.3 join 方法

join方法和merge方法類似,主要區別在於joinDataFrame的方法,而mergepandas的方法。
下麵請直接看與merge方法相似的四種示例。

inner合併:name值相同的數據才保留下來。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "score": [99, 100],
    }
)

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="inner")
df.reset_index()

image.png
註意,這裡顯示了joinmerge的一個區別,join預設是依據索引(index)來合併DataFrame的,
所以,先把name設置為索引之後才合併的,合併之後又通過reset_index重置了索引,得到了和merge同樣的結果。

outer合併:兩個DataFramename都保留下來,合併後缺失值的填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="outer")
df.reset_index()

image.png
註意,最後的數據雖然和merge一樣,但是順序有些區別。

left合併:df1name全部保留下來,缺失的值填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="left")
df.reset_index()

image.png
left的結果和merge一樣。

right合併:df2name全部保留下來,缺失的值填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="right")
df.reset_index()

image.png
right的結果和merge一樣。

3. 總結回顧

總的來說,pandas數據集拆分和合併的意義在於高效利用數據,提高數據分析的質量和效率,進一步實現數據驅動的業務增長。

本篇主要介紹了數據集拆分和合併最常用的幾種基本方法,根據具體的業務組合這些基本方法,就能夠進行更複雜的數據集拆分和合併。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • java常用類 Object類 基類,超類,所有類的直接或間接父類 object類定義的方法是所有對象都具有的方法 object類型可以存儲任何對象 作為參數,可以接受任何對象 作為返回值,可以返回任何對象 getClass() 返回引用中存儲的實際對象類型 public class Student ...
  • Nacos 是一個開源的服務發現、配置管理和服務治理平臺,是阿裡巴巴開源的一款產品。 Nacos 可以幫助開發者更好地管理微服務架構中的服務註冊、配置和發現等問題,提高系統的可靠性和可維護性。 ...
  • Python字元串替換筆記主要展示瞭如何在Python中替換字元串。Python中有以下幾種替換字元串的方法,本文主要介紹前三種。 replace方法(常用) translate方法 re.sub方法 字元串切片(根據Python字元串切片方法替換字元) 1.replace方法 Python rep ...
  • 本文將演示在本地的 python 項目中調用 ChatGPT 模型 前言 作為一名程式員,在開發過程當中時常需要使用 ChatGPT 來完成一些任務,但總是使用網頁交互模式去 Web 端訪問 ChatGPT 是很麻煩的,這時候我們可以使用代碼來調用 ChatGPT 模型,以實現在本地和 Web 端一 ...
  • 摘要:這篇文章詳細介紹了頂帽運算和底帽運算,它們將為後續的圖像分割和圖像識別提供有效支撐。 本文分享自華為雲社區《[Python從零到壹] 四十九.圖像增強及運算篇之頂帽運算和底帽運算》,作者:eastmount。 數學形態學(Mathematical Morphology)是一種應用於圖像處理和模 ...
  • 基於java的校園二手交易系統或跳蚤市場設計與實現,java二手交易平臺,二手商城,交易商城,大學生交易平臺,springboot二手交易系統,二手交易平臺,購物平臺,大學生跳蚤平臺設計與實現,閑置物品交易平臺,校園閑置二手。 ...
  • Lambda 表達式(lambda expression)是一個匿名函數,Lambda表達式基於數學中的λ演算得名,直接對應於其中的lambda抽象(lambda abstraction),是一個匿名函數,即沒有函數名的函數。Lambda表達式可以表示閉包,和傳統數學上的意義有區別。 文末有本文重點 ...
  • Java是通過垃圾回收機制回收記憶體,C/C++是通過malloc,free,new,delete手動管理空間。那麼在JNI層,同時存在Java和C/C++的空間時,該如何進行空間的管理呢?本文參考Oracle的官方文檔,對JNI層中空間的管理進行說明。明確哪些內容需要手動調用Delete,哪些不需要... ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...