pandas子集選取的三種方法:[]、.loc[]、.iloc[]

来源:https://www.cnblogs.com/wansq/archive/2022/05/03/16219298.html
-Advertisement-
Play Games

pandas讀取Excel、csv文件中的數據時,得到的大多是表格型的二維數據,在pandas中對應的即為DataFrame數據結構。在處理這類數據時,往往要根據據需求先獲取數據中的子集,如某些列、某些行、行列交叉的部分等。可以說子集選取是一個非常基礎、頻繁使用的操作,而DataFrame的子集選取 ...


pandas讀取Excel、csv文件中的數據時,得到的大多是表格型的二維數據,在pandas中對應的即為DataFrame數據結構。在處理這類數據時,往往要根據據需求先獲取數據中的子集,如某些列、某些行、行列交叉的部分等。可以說子集選取是一個非常基礎、頻繁使用的操作,而DataFrame的子集選取看似簡單卻有一定複雜性。本文聚焦DataFrame的子集選取操作邏輯,力求在實戰中遇到子集選取操作的需求時"不迷路"。

主目錄
主目錄

一、圖解DataFrame

DataFrame是一種二維的表格型數據結構,每一行/列都有對應的標簽位置序號。行列標簽、位置序號的對應關係如下圖所示:

圖解DataFrame行列標簽、位置序號
圖解DataFrame行列標簽、位置序號
  • 列標簽(也叫列名:columns)
  • 行標簽(也叫行索引:index)預設為(0, 1, 2, …, n)。這裡與位置序號恰好一致。

針對DataFrame的數據結構,pandas提供了三種獲取子集的索引器:[].loc[].iloc[]

  • df[]:快捷的整行整列選取

  • df.loc[]:按標簽的行列交叉選取

  • df.iloc[]:按位置序號的行列交叉選取

二、整行整列選取:df[]

df['列標簽'],選取單個整列

# 選取“日期”列
df['日期']
image-20220502164802793

df[標簽列表],選取多個整列

# 選取“最高溫”,“最低溫”,“風力風向”三列
df[['最高溫','最低溫','風力風向']]
image-20220502164956093

df[切片],選取整行

# 選取行索引值1、2、3的整行。切片左閉右開
df[1:4]
image-20220502165251002

切片語法也支持字元串的索引標簽值,如將"日期"列修改為行索引(index)

df1 = df.set_index("日期")
# 下麵兩個切片選取的行是一樣的
df1[1:4]  #按位置序號的切片,左閉右開
df1['2021-12-02 周四':'2021-12-04 周六']  # 按行標簽的切片,左閉右閉

df[]語法小結:

  • df[]語法中,方括弧內輸入標簽名列表選取的是列;而方括弧內輸入切片條件選取的是行(條件篩選在下文單獨介紹)。
  • df[]輸入切片選取整行時,如果是按照位置序號的切片,左閉右開;按行標簽的切片,左閉右閉。

三、行列交叉選取

行列交叉選擇,可以通過df.loc[]df.iloc[]兩個索引器來實現,兩者都需要輸入兩組參數,先行選擇,後列選擇。行、列選擇都可以是單個標簽(序號)、列表和切片。根據需求組合使用,威力強大!

df.loc[行選擇,列選擇]。參數面向的是標簽

df.iloc[行位置序號,列位置序號]。參數面向的是位置序號

  • :單個數值,:單個數值
df1.loc['2021-12-05 周日','空氣質量指數']
df1.iloc[4,4]
image-20220503121009320
image-20220503121009320
  • :列表,:列表
df1.loc[['2021-12-05 周日','2021-12-07 周二'],['最高溫','最低溫','風力風向']]
df1.iloc[[4,6],[0,1,3]]
image-20220503121028556
image-20220503121028556
  • :切片,:切片
df1.loc['2021-12-01 周三':'2021-12-03 周五','天氣':'空氣質量指數']
df1.iloc[:3,2:5]
image-20220503121044354
image-20220503121044354
  • :切片(全選),:列表
df1.loc[:,['最高溫','最低溫']]
df1.iloc[:,[0,1]]
image-20220503121102550
image-20220503121102550

四、按條件篩選子集

df.[]df.loc[]df.iloc[]除了按照行列的標簽和位置序號選取子集,還可以使用條件(布爾表達式)篩選子集。

篩選最高溫、最低溫

將最高溫、最低溫處理成數值型:

df1.loc[:,'最高溫'] = df1['最高溫'].str.replace('°','').astype('float32')
df1.loc[:,'最低溫'] = df1['最低溫'].str.replace('°','').astype('float32')
溫度處理成數值
溫度處理成數值

獲取最高溫大於10度,最低溫小於6度的數據

#  df.[]的寫法
df1[(df1['最高溫']>10) & (df1['最低溫']<6)]
#  df.loc[]的寫法
df1.loc[(df1['最高溫']>10) & (df1['最低溫']<6),:]
# &與、|或、~非
df1.loc[(df1['最高溫']>10) & ~(df1['最低溫']>=6),:]
基於溫度的條件篩選
基於溫度的條件篩選

五、函數篩選子集

# 匿名函數lambda表達式,獲取最高溫大於10度,最低溫小於6度的數據
df1.loc[lambda df : (df['最高溫']>10) & (df['最低溫']<6)]

獲取前9天並且空氣質量指數為優

# 自定義函數,返回值是布爾數組
def queryData(df):
    return df.index.str.startswith('2021-12-0') & df['空氣質量指數'].str.endswith('優')

df1.loc[queryData , :]
函數查詢
函數查詢

小結

在pandast提供的df[]df.loc[]df.iloc[]這個三種索引器,前兩個更為常用。df[]在整行或者整列獲取時更為方便。整行整列選取可以看作是行列交叉選取的一個特例,故df.loc[]是更為通用的方法,它支持單個標簽值、列表多選、切片區間、條件(布爾)表達式、函數調用五種方式索引子集,功能強大。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 啟動並下載一個clickhouse-server, By default, starting above server instance will be run as default user without password. docker run -d --name ch-server - ...
  • 前言 有段時間沒寫技術文章了,一是因為工作太忙,再者因為本人文筆實在一般。最近終於閑下來,本著分享的目的將一些組件設計上的心得與大家分享。 本篇文章是基於原有一篇關於支付文章的進一步優化設計,所以在閱讀本篇文章前還是建議先移步到那篇文章。 文章地址: 微信、支付寶、銀聯、Paypal 支付組件封裝 ...
  • js中關於原型和原型鏈有 __proto__ 、prototype、constructor 頻頻出現在面試題中,但是記得多了反而容易記混。 這裡簡單總結下每個屬性的使用場景,方便記憶。 對象和函數都有 __proto__,對象的 __proto__指向構造函數的prototype,構造函數的__pr ...
  • 今天是vue基礎、vue核心內容第三天,也是最後一天,後面開始進入組件化學習,整個基礎內容以生命周期的結束而結束,不得不說,張天禹把這節課講活了,開始覺得vue是一個有生命的東西,包括前面所說的很多臟活累活都給他做,我們只管調用,說的我都於心不忍如此對待vue了,所以思來想去,我絕對對待它最好的辦法 ...
  • https://www.cnblogs.com/yeungchie/ PyQt5 from PyQt5.QtWidgets import * from PyQt5.QtCore import * from PyQt5.QtGui import * PySide2 from PySide2.QtWid ...
  • 前言 輸入系統,輸入某個鍵,響應到GamePlay層做對應的事。例如 點擊滑鼠,前進還是開槍之類,是如何響應的。這裡只說應用層邏輯,硬體層邏輯不講述。 詳解 1.問題來源 先看下麵一個例子:跳躍的事件響應堆棧 從上述堆棧我們不難發現,疑惑點主要集中於 APlayerControllerProcess ...
  • 本文參考社長的 TinyWebServer 庖丁解牛 epoll 常用API epoll_create 函數 #include <sys/epoll.h> int epoll_create(int size); 創建一個指示 epoll 內核事件表的文件描述符,該描述符將用作其他 epoll 系統調 ...
  • 多線程筆記(一) 1. sleep()方法和yield()方法 共同點:讓當前線程釋放cpu資源,讓其他線程來運行 不同點:調用sleep()方法後,線程進入到TIMED_WAITING狀態,等待超時後進入RUNNABLE狀態,開始搶占CPU資源。調用yield()方法後,線程進入RUNNABLE狀 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...