【pandas基礎】--數據檢索

来源:https://www.cnblogs.com/wang_yb/archive/2023/05/10/17388485.html
-Advertisement-
Play Games

pandas的數據檢索功能是其最基礎也是最重要的功能之一。 pandas中最常用的幾種數據過濾方式如下: 行列過濾:選取指定的行或者列 條件過濾:對列的數據設置過濾條件 函數過濾:通過函數設置更加複雜的過濾條件 本篇所有示例所使用的測試數據如下: import pandas as pd import ...


pandas的數據檢索功能是其最基礎也是最重要的功能之一。

pandas中最常用的幾種數據過濾方式如下:

  1. 行列過濾:選取指定的行或者列
  2. 條件過濾:對列的數據設置過濾條件
  3. 函數過濾:通過函數設置更加複雜的過濾條件

本篇所有示例所使用的測試數據如下:

import pandas as pd
import numpy as np

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

image.png

1. 行列過濾

pandas中最常用的按行或者按列選擇數據的函數是 lociloc

1.1 loc 函數

loc函數通過標簽索引選擇行列數據,可以在一個語句中同時指定行和列的條件。
按範圍選取行:

df.loc([1:5, :])

image.png

選取指定的行:

df.loc[[1, 5], :]

image.png

按範圍選取列:

df.loc[:, "年份":"指標中文"]

image.png

選取指定的列:

df.loc[:, ["年份","指標中文"]]

image.png

行和列也可以同時設置:

df.loc[1:3, ["年份","指標中文"]]

image.png

1.2 iloc 函數

iloc函數通過整數位置索引選擇行列數據。
這種方法與loc方法類似,但是它使用整數位置而不是標簽。

按範圍選擇行:

df.iloc([1:5, :])

image.png
註意這裡可以看出ilocloc的區別,同樣的範圍[1:5]
iloc不包括index=5的數據,而loc包括index=5的數據。

選擇指定的行:

df.iloc[[1, 5], :]

image.png
這種選擇方式下,ilocloc函數返回的結果是一樣的。

按範圍選擇列:

df.iloc[:, 0:3]

image.png
註意,這裡是 ilocloc的另一個區別,
iloc只能用數字序列來表示列的範圍(第一列對應數字0),
回顧之前的loc函數,我們可以用列名來表示範圍的df.loc[:, "年份":"指標中文"]

另外,iloc表示列的範圍0:3表示是0,1,2三列,不包括3這一列。

選擇指定的列:

df.iloc[:, [0, 2]]

image.png

loc一樣,iloc也可以行和列同時設置:

df.iloc[1:5, [0, 2]]

image.png

2. 條件過濾

行列過濾的方式是基於索引和列名稱來過濾的,除此之外,還可以根據列的值來過濾。
這也是分析時常用的過濾方式。

2.1 單條件

根據列的值來過濾,列的值是數值還是字元串都可以。

df[df["年份"] > 2020]

image.png

字元串的過濾方式:

df[df["指標中文"].str.contains("鄉村")].head()

image.png

2.2 多條件

除了設置單獨的條件之外,也支持通過邏輯符號&|來設置多個條件。

df[(df["年份"] > 2020) & (df["指標中文"].str.contains("鄉村"))]

image.png
必須同時滿足年份>2021指標中文包含鄉村兩個條件的數據,只有1條。

df[(df["年份"] > 2020) | (df["指標中文"].str.contains("鄉村"))].head(6)

image.png
只要滿足年份>2021指標中文包含鄉村兩個條件之一的數據。

3. 函數過濾

pandas中還有兩種通過函數來過濾和轉換數據的方式,這種方式可以將自定義的函數應用到數據之上。
這樣就提供了相當靈活的數據操作方式。

3.1 apply

針對DataFrame某一列數據的apply
比如下麵的示例增加一列,其值是將value列的數據放大10倍:

df["value10倍"] = df["value"].apply(lambda x: x*10)
df

image.png

3.2 map

針對DataFrame某一列數據的map
比如下麵的示例增加一列,其值是設置指標中文的縮寫。

df["指標縮寫"] = df["指標中文"].map({"年末總人口": "總人口", "鄉村人口": "鄉村"})
df

image.png

4. 總結回顧

本篇主要介紹了pandas數據檢索的常用方式,數據檢索是做分析時最常用的步驟。
通過數據過濾方法,快速確定用於分析的數據範圍,剝離無用的數據,提高分析的效率。

數據檢索方式由易到難分別為:

  1. 行列過濾,lociloc
  2. 條件過濾,單條件和多條件過濾
  3. 函數過濾,自定義函數靈活的調整已有列的數據

本文關聯的微信視頻號短視頻:
pandas03-數據檢索.png


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 模式動機 原型模式(Prototype Pattern)結構較為簡單,它是一種特殊的創建型模式,當需要創建大量相同或者相似對象時,可以通過對一個已有對象的複製獲取更多對象。Java語言提供了較為簡單的原型模式解決方案,只需要創建一個原型對象,然後通過在類中定義的克隆方法複製自己。該模式應用較為廣泛, ...
  • 開發環境 以下是我的開發環境 JDK 1.8 Maven 3.6.3 IDEA 2019(2019 無所畏懼,即使現在已經 2023 年了哈哈哈) 使用 Maven 的方式創建 Spring Boot 項目 下麵的內容可能會因 IDEA 版本不同,而有些選項不同,但是大同小異。 1. 打開 IDEA ...
  • 大家是否見過這種for迴圈,在for迴圈前加了個標記的: outerLoop: for (; ; ) { for (; ; ) { break outerLoop; } } 我之前有一次在公司業務代碼中見過有這種寫法的,沒在意,今天在看JDK線程池的代碼時,又看到ThreadPoolExecutor ...
  • 大家好,3y啊。好些天沒更新了,並沒有偷懶,只不過一直在安裝環境,差點都想放棄了。 上一次比較大的更新是做了austin的預覽地址,把企業微信的應用和機器人消息各種的消息類型和功能給完善了。上一篇文章也提到了,austin常規的功能已經更新得差不多了,剩下的就是各種細節的完善。 不知道大家還記不記得 ...
  • 上一篇咱們介紹了 Hibernate 以及寫了一個 Hibernate 的工具類,快速入門體驗了一波 Hibernate 的使用,我們只需通過 Session 對象就能實現資料庫的操作了。 現在,這篇介紹使用 Hibernate 進行基本的 CRUD、懶載入以及緩存的知識。 ...
  • 使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇對 VLD 2.5.1 源碼做記憶體泄漏檢測的思路進行剖析。 ...
  • 基於java的學生課程管理系統,基於java的學生選課系統,javaWeb的學生選課系統,學生成績管理系統,課表管理系統,學院管理系統,大學生選課系統設計與實現,網上選課系統,課程成績打分。 ...
  • 本文設計並實現了一種專用於路徑路由匹配的規則,以一種簡單而通用的方式描述一組路徑的特征,來簡化這種場景路由描述難度,讓小白可以快速學習並上手。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...