【pandas基礎】--數據檢索

-Advertisement-

pandas的數據檢索功能是其最基礎也是最重要的功能之一。 pandas中最常用的幾種數據過濾方式如下：行列過濾：選取指定的行或者列條件過濾：對列的數據設置過濾條件函數過濾：通過函數設置更加複雜的過濾條件本篇所有示例所使用的測試數據如下： import pandas as pd import ...

pandas的數據檢索功能是其最基礎也是最重要的功能之一。

pandas中最常用的幾種數據過濾方式如下：

行列過濾：選取指定的行或者列
條件過濾：對列的數據設置過濾條件
函數過濾：通過函數設置更加複雜的過濾條件

本篇所有示例所使用的測試數據如下：

import pandas as pd
import numpy as np

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

1. 行列過濾

pandas中最常用的按行或者按列選擇數據的函數是 loc 和 iloc。

1.1 loc 函數

loc函數通過標簽索引選擇行列數據，可以在一個語句中同時指定行和列的條件。
按範圍選取行：

df.loc([1:5, :])

選取指定的行：

df.loc[[1, 5], :]

按範圍選取列：

df.loc[:, "年份":"指標中文"]

選取指定的列：

df.loc[:, ["年份","指標中文"]]

行和列也可以同時設置：

df.loc[1:3, ["年份","指標中文"]]

1.2 iloc 函數

iloc函數通過整數位置索引選擇行列數據。
這種方法與loc方法類似，但是它使用整數位置而不是標簽。

按範圍選擇行：

df.iloc([1:5, :])

註意這裡可以看出iloc和loc的區別，同樣的範圍[1:5]，
iloc不包括index=5的數據，而loc是包括index=5的數據。

選擇指定的行：

df.iloc[[1, 5], :]

這種選擇方式下，iloc和loc函數返回的結果是一樣的。

按範圍選擇列：

df.iloc[:, 0:3]

註意，這裡是 iloc和loc的另一個區別，
iloc只能用數字序列來表示列的範圍（第一列對應數字0），
回顧之前的loc函數，我們可以用列名來表示範圍的df.loc[:, "年份":"指標中文"]。

另外，iloc表示列的範圍0:3表示是0,1,2三列，不包括3這一列。

選擇指定的列：

df.iloc[:, [0, 2]]

同loc一樣，iloc也可以行和列同時設置：

df.iloc[1:5, [0, 2]]

2. 條件過濾

行列過濾的方式是基於索引和列名稱來過濾的，除此之外，還可以根據列的值來過濾。
這也是分析時常用的過濾方式。

2.1 單條件

根據列的值來過濾，列的值是數值還是字元串都可以。

df[df["年份"] > 2020]

字元串的過濾方式：

df[df["指標中文"].str.contains("鄉村")].head()

2.2 多條件

除了設置單獨的條件之外，也支持通過邏輯符號&和|來設置多個條件。

df[(df["年份"] > 2020) & (df["指標中文"].str.contains("鄉村"))]

必須同時滿足年份>2021和指標中文包含鄉村兩個條件的數據，只有1條。

df[(df["年份"] > 2020) | (df["指標中文"].str.contains("鄉村"))].head(6)

只要滿足年份>2021和指標中文包含鄉村兩個條件之一的數據。

3. 函數過濾

pandas中還有兩種通過函數來過濾和轉換數據的方式，這種方式可以將自定義的函數應用到數據之上。
這樣就提供了相當靈活的數據操作方式。

3.1 apply

針對DataFrame某一列數據的apply。
比如下麵的示例增加一列，其值是將value列的數據放大10倍：

df["value10倍"] = df["value"].apply(lambda x: x*10)
df

3.2 map

針對DataFrame某一列數據的map。
比如下麵的示例增加一列，其值是設置指標中文的縮寫。

df["指標縮寫"] = df["指標中文"].map({"年末總人口": "總人口", "鄉村人口": "鄉村"})
df

4. 總結回顧

本篇主要介紹了pandas數據檢索的常用方式，數據檢索是做分析時最常用的步驟。
通過數據過濾方法，快速確定用於分析的數據範圍，剝離無用的數據，提高分析的效率。

數據檢索方式由易到難分別為：

行列過濾，loc和iloc
條件過濾，單條件和多條件過濾
函數過濾，自定義函數靈活的調整已有列的數據

本文關聯的微信視頻號短視頻：
pandas03-數據檢索.png

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

原型模式（Prototype Pattern）

模式動機原型模式（Prototype Pattern）結構較為簡單，它是一種特殊的創建型模式，當需要創建大量相同或者相似對象時，可以通過對一個已有對象的複製獲取更多對象。Java語言提供了較為簡單的原型模式解決方案，只需要創建一個原型對象，然後通過在類中定義的克隆方法複製自己。該模式應用較為廣泛， ...
在 IDEA 中創建 Spring Boot 項目的方式（詳細步驟教程）

開發環境以下是我的開發環境 JDK 1.8 Maven 3.6.3 IDEA 2019（2019 無所畏懼，即使現在已經 2023 年了哈哈哈）使用 Maven 的方式創建 Spring Boot 項目下麵的內容可能會因 IDEA 版本不同，而有些選項不同，但是大同小異。 1. 打開 IDEA ...
Java for迴圈標簽跳轉到指定位置

大家是否見過這種for迴圈，在for迴圈前加了個標記的： outerLoop: for (; ; ) { for (; ; ) { break outerLoop; } } 我之前有一次在公司業務代碼中見過有這種寫法的，沒在意，今天在看JDK線程池的代碼時，又看到ThreadPoolExecutor ...
消息推送平臺的實時數倉？！flink消費kafka消息入到hive

大家好，3y啊。好些天沒更新了，並沒有偷懶，只不過一直在安裝環境，差點都想放棄了。上一次比較大的更新是做了austin的預覽地址，把企業微信的應用和機器人消息各種的消息類型和功能給完善了。上一篇文章也提到了，austin常規的功能已經更新得差不多了，剩下的就是各種細節的完善。不知道大家還記不記得 ...
Hibernate 基本操作、懶載入以及緩存

上一篇咱們介紹了 Hibernate 以及寫了一個 Hibernate 的工具類，快速入門體驗了一波 Hibernate 的使用，我們只需通過 Session 對象就能實現資料庫的操作了。現在，這篇介紹使用 Hibernate 進行基本的 CRUD、懶載入以及緩存的知識。 ...
【Visual Leak Detector】核心源碼剖析（VLD 2.5.1）

使用 VLD 記憶體泄漏檢測工具輔助開發時整理的學習筆記。本篇對 VLD 2.5.1 源碼做記憶體泄漏檢測的思路進行剖析。 ...
34基於Java的學生選課系統或學生課程管理系統

基於java的學生課程管理系統，基於java的學生選課系統，javaWeb的學生選課系統，學生成績管理系統，課表管理系統，學院管理系統，大學生選課系統設計與實現，網上選課系統,課程成績打分。 ...
Python中的交互庫-os庫

本文設計並實現了一種專用於路徑路由匹配的規則，以一種簡單而通用的方式描述一組路徑的特征，來簡化這種場景路由描述難度，讓小白可以快速學習並上手。 ...