【pandas基礎】--數據拆分與合併

来源:https://www.cnblogs.com/wang_yb/archive/2023/05/18/17411638.html
-Advertisement-
Play Games

數據集拆分是將一個大型的數據集拆分為多個較小的數據集,可以讓數據更加清晰易懂,也方便對單個數據集進行分析和處理。 同時,分開的數據集也可以分別應用不同的數據分析方法進行處理,更加高效和專業。 數據集合併則是將多個數據集合併成一個大的數據集,可以提供更全面的信息,也可以進行更綜合的數據分析。 同時,數 ...


數據集拆分是將一個大型的數據集拆分為多個較小的數據集,可以讓數據更加清晰易懂,也方便對單個數據集進行分析和處理。
同時,分開的數據集也可以分別應用不同的數據分析方法進行處理,更加高效和專業。

數據集合併則是將多個數據集合併成一個大的數據集,可以提供更全面的信息,也可以進行更綜合的數據分析。
同時,數據集合併也可以減少數據處理的複雜度和時效性,提升數據分析的準確性和結果的可靠性。

1. 數據集拆分

拆分數據集比較簡單,之前介紹過數據檢索的各種方式,其實檢索出的結果就是拆分出來的數據。

1.1 拆分行

拆分單行和多行。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)
first_row = df.loc[0:0, :]
left_rows = df.loc[1:, :]

image.png

1.2 拆分列

拆分單列或者多列。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

first_col = df[["name"]]
left_cols = df[["age", "gender"]]

image.png

1.3 按條件拆分

下麵的示例按照列的值來拆分數據集。

import pandas as pd

df = pd.DataFrame(
    {
        "name": ["小紅", "小明", "小華"],
        "age": [13, 15, 14],
        "gender": ["男", "女", "男"],
    }
)

males = df[df["gender"] == "男"]
greater13 = df[df["age"] > 13]

image.png

如果有多個條件,可以通過邏輯與(&)邏輯或(|)符號來連接,具體可以參照之前介紹數據檢索的文章。

2. 數據集合併

數據集的合併也是比較常用的,因為我們收集來的數據可能來自不同的地方。

2.1 merge 方法

merge方法合併DataFrame時,有兩個重要的參數:

  1. how:設置合併的方式,有innerouterleftright四種方式。
  2. on:依據那個列來合併

下麵是四種不同合併方式的示例。
inner合併:name值相同的數據才保留下來。

import pandas as pd

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "score": [99, 100],
    }
)

df = pd.merge(df1, df2, how="inner", on="name")
df

image.png

outer合併:兩個DataFramename都保留下來,合併後缺失值的填充NaN

df = pd.merge(df1, df2, how="outer", on="name")
df

image.png

left合併:df1name全部保留下來,缺失的值填充NaN

df = pd.merge(df1, df2, how="left", on="name")
df

image.png

right合併:df2name全部保留下來,缺失的值填充NaN

df = pd.merge(df1, df2, how="right", on="name")
df

image.png

2.2 concat 方法

兩個DataFrame結構相同時,一般是按行來合併(axis=0)。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df = pd.concat([df1, df3], axis=0)
df

image.png

如果兩個DataFrame結構不一樣時,用列合併(axis=1)。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "score": [100, 90],
        "city": ["nanjing", "beijing"],
    }
)

df = pd.concat([df1, df3], axis=1)
df

image.png

2.3 join 方法

join方法和merge方法類似,主要區別在於joinDataFrame的方法,而mergepandas的方法。
下麵請直接看與merge方法相似的四種示例。

inner合併:name值相同的數據才保留下來。

df1 = pd.DataFrame(
    {
        "name": ["小紅", "小明"],
        "age": [13, 15],
        "gender": ["男", "女"],
    }
)

df2 = pd.DataFrame(
    {
        "name": ["小紅", "小華"],
        "score": [99, 100],
    }
)

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="inner")
df.reset_index()

image.png
註意,這裡顯示了joinmerge的一個區別,join預設是依據索引(index)來合併DataFrame的,
所以,先把name設置為索引之後才合併的,合併之後又通過reset_index重置了索引,得到了和merge同樣的結果。

outer合併:兩個DataFramename都保留下來,合併後缺失值的填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="outer")
df.reset_index()

image.png
註意,最後的數據雖然和merge一樣,但是順序有些區別。

left合併:df1name全部保留下來,缺失的值填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="left")
df.reset_index()

image.png
left的結果和merge一樣。

right合併:df2name全部保留下來,缺失的值填充NaN

df1 = df1.set_index("name")
df2 = df2.set_index("name")
df = df1.join(df2, how="right")
df.reset_index()

image.png
right的結果和merge一樣。

3. 總結回顧

總的來說,pandas數據集拆分和合併的意義在於高效利用數據,提高數據分析的質量和效率,進一步實現數據驅動的業務增長。

本篇主要介紹了數據集拆分和合併最常用的幾種基本方法,根據具體的業務組合這些基本方法,就能夠進行更複雜的數據集拆分和合併。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • java常用類 Object類 基類,超類,所有類的直接或間接父類 object類定義的方法是所有對象都具有的方法 object類型可以存儲任何對象 作為參數,可以接受任何對象 作為返回值,可以返回任何對象 getClass() 返回引用中存儲的實際對象類型 public class Student ...
  • Nacos 是一個開源的服務發現、配置管理和服務治理平臺,是阿裡巴巴開源的一款產品。 Nacos 可以幫助開發者更好地管理微服務架構中的服務註冊、配置和發現等問題,提高系統的可靠性和可維護性。 ...
  • Python字元串替換筆記主要展示瞭如何在Python中替換字元串。Python中有以下幾種替換字元串的方法,本文主要介紹前三種。 replace方法(常用) translate方法 re.sub方法 字元串切片(根據Python字元串切片方法替換字元) 1.replace方法 Python rep ...
  • 本文將演示在本地的 python 項目中調用 ChatGPT 模型 前言 作為一名程式員,在開發過程當中時常需要使用 ChatGPT 來完成一些任務,但總是使用網頁交互模式去 Web 端訪問 ChatGPT 是很麻煩的,這時候我們可以使用代碼來調用 ChatGPT 模型,以實現在本地和 Web 端一 ...
  • 摘要:這篇文章詳細介紹了頂帽運算和底帽運算,它們將為後續的圖像分割和圖像識別提供有效支撐。 本文分享自華為雲社區《[Python從零到壹] 四十九.圖像增強及運算篇之頂帽運算和底帽運算》,作者:eastmount。 數學形態學(Mathematical Morphology)是一種應用於圖像處理和模 ...
  • 基於java的校園二手交易系統或跳蚤市場設計與實現,java二手交易平臺,二手商城,交易商城,大學生交易平臺,springboot二手交易系統,二手交易平臺,購物平臺,大學生跳蚤平臺設計與實現,閑置物品交易平臺,校園閑置二手。 ...
  • Lambda 表達式(lambda expression)是一個匿名函數,Lambda表達式基於數學中的λ演算得名,直接對應於其中的lambda抽象(lambda abstraction),是一個匿名函數,即沒有函數名的函數。Lambda表達式可以表示閉包,和傳統數學上的意義有區別。 文末有本文重點 ...
  • Java是通過垃圾回收機制回收記憶體,C/C++是通過malloc,free,new,delete手動管理空間。那麼在JNI層,同時存在Java和C/C++的空間時,該如何進行空間的管理呢?本文參考Oracle的官方文檔,對JNI層中空間的管理進行說明。明確哪些內容需要手動調用Delete,哪些不需要... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...