【pandas基礎】--索引和軸

-Advertisement-

在`pandas`中，索引（`index`）是用於訪問數據的關鍵。它為數據提供了基於標簽的訪問能力，類似於字典，可以根據標簽查找和訪問數據。而`pandas`的軸（`axis`）是指數據表中的一個維度，可以理解為表格中的行和列。通過指定軸，我們可以對數據進行切片、篩選、聚合等操作。下麵簡要介 ...

在pandas中，索引（index）是用於訪問數據的關鍵。
它為數據提供了基於標簽的訪問能力，類似於字典，可以根據標簽查找和訪問數據。

而pandas的軸（axis）是指數據表中的一個維度，可以理解為表格中的行和列。
通過指定軸，我們可以對數據進行切片、篩選、聚合等操作。

下麵簡要介紹pandas的索引和軸的相關應用場景。

1. 索引(index)

pandas中有兩種類型的索引：行標簽和列標簽。
行標簽是用於訪問行數據的，通常用於表示時間序列數據或唯一標識符。
列標簽是用於訪問列數據的，通常用於表示變數或特征。

1.1 預設索引

預設情況下，行標簽和列標簽都是從0開始的數字。

df = pd.DataFrame(
    [
        ["小紅", "小明", "小汪"],
        [99, 95, 86],
        [100, 88, 94],
        [95, 99, 86],
    ],
)

df

1.2 自定義索引

為了更好的識別，可以定義行列的標簽，行標簽可以用各人的學號，列標簽用各列的實際含義。

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
df

其中index用來設置行標簽，columns用來設置列標簽。

1.3 索引的應用

索引最大的作用是訪問和選擇數據，之前學習的loc函數就是通過索引來訪問和選擇行列數據的。

df = pd.DataFrame(
    [
        ["小紅", 99, 100, 95],
        ["小明", 95, 88, 94],
        ["小汪", 86, 94, 86],
    ],
)

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]

print(df.loc[["12"], :])
print(df.loc[:, ["語文"]])

1.4 多級索引

在pandas中，可以在一個DataFrame中用多級索引來表示數據的多維結構。
多級索引可以理解為將數據分組，並按照分組的方式進行索引。
也就是說，在多級索引中，每個索引值可以由兩個或更多的標簽組成，這些標簽可以對應於多個維度的數據。

多級索引的主要優點是可以更好地組織和查詢數據。
例如，可以通過多級索引輕鬆地對數據進行分組和聚合操作，在保留數據完整性的同時可以獲得更多的統計信息。

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明"],
        "年級": ["初二", "初一", "初一", "初二"],
        "成績": [100, 88, 94, 99],
    },
)

df.set_index(["姓名", "年級"]).sort_index()
df.set_index(["年級", "姓名"]).sort_index()

如上所示，通過多級索引，可以將行列數據轉換為樹形結構，讓同樣的數據表達不同的含義。
左邊的數據表達的是每個同學在各個年級的成績；
右邊的數據表達的是每個年級不同同學的成績。

根據多級索引選取數據也很簡單。

df_grade = df.set_index(["年級", "姓名"]).sort_index()

# 獲取初一所有學生的成績數據
df_grade.loc["初一", :]

# 獲取初二小明的成績
df_grade.loc["初二", :].loc["小明":, :]

2. 軸(axis)

在pandas中，有兩個軸：0軸代表的是行方向（即縱向），1軸代表的是列方向（即橫向）。

2.1 刪除數據時

刪除行列數據時，除了指定行列的標簽，還需要指定axis屬性，表明是按行還是按列刪除。

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 按行刪除 axis=0
df.drop("小明", axis=0)

# 按列刪除 axis=1
df.drop("數學", axis=1)

PS. axis 預設值是0，所以，按行刪除時不指定 axis 也是可以的。

2.2 統計數據時

統計數據時也一樣，通過axis參數指定跨行還是跨列來統計。
假如我們要統計總分：

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 跨行統計，各門學科總分
df.sum(axis=0)

# 跨列統計，各個學生總分
df.sum(axis=1)

這裡關於 axis 的理解，有些朋友可能會有點疑惑。
我們看到上面的示例中 axis=0 時，統計的是各個學科的總分，感覺像是按列統計，並不是按行統計的。
其實是這樣的，axis 表示的是行列的方向，axis=0 時，表示按行的方向統計，所以是把每行的數據加起來，得到的就是各門學科的總成績。

同樣，axis=1時，按照列的方向統計，得到的就是每個學生的總成績了。

3. 總結回顧

本篇介紹了pandas中兩個重要的概念，索引和軸。

關於索引，pandas的索引有預設索引，自定義索引以及多級索引。
預設索引是pandas自動生成的整數形式的索引，它預設會被創建。
自定義索引指的是用戶自己定義的一種標簽形式的索引，可以是數字、字元串或者日期等類型。
多級索引可以讓我們用不同的角度看待數據。

關於軸，因為pandas中的數據通常是二維的，所以數據可以沿著兩個軸進行操作，分別是行軸和列軸。
行軸又稱為軸0，它沿著行的方向進行操作，是數據的第一維度。
列軸又稱為軸1，它沿著列的方向進行操作，是數據的第二維度。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

微控制器實時操作系統實踐1實時系統介紹

## 01|修改Win用戶名打開運行，輸入cmd，回車；輸入control userpasswords2，回車；點擊屬性，修改用戶名，點擊確定；打開運行，輸入regedit，回車；定位到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\Cur ...
快速上手kettle（三）壺中可以放些啥？

[TOC](快速上手kettle（三）壺中可以放些啥？) ### 序言快速上手kettle開篇中，我們將kettle比作壺，並對這個壺做了簡單介紹。而上一期中我們實現了①將csv文件通過kettle轉換成excel文件； ②將excel文件通過kettle寫入到MySQL資料庫表中這兩個案例。 ...
Django遷移資料庫編碼錯誤

# mysql編碼錯誤 ![image-20230604115322661](https://img2023.cnblogs.com/blog/2862884/202306/2862884-20230604115422584-1121547495.png) 問題出現在用django的admin組件向 ...
鎖

# **鎖** ## **概述** - **介紹** 鎖是電腦協調多個進程或線程併發訪問某一資源的機制。在資料庫中，除傳統的計算資源（CPU、RAM、I/O）的爭用以外，數據也是一種供許多用戶共用的資源。如何保證數據併發訪問的一致性、有效性是所有資料庫必須解決的一個問題，鎖衝突也是影響資料庫併發訪 ...
基於 Web 和 Deep Zoom 的高解析度大圖查看器的實踐

# 基於 Web 和 Deep Zoom 的高解析度大圖查看器的實踐高解析度大圖像在 Web 中查看可以使用 Deep Zoom 技術，這是一種用於查看和瀏覽大型高解析度圖像的技術，它可以讓用戶以交互方式瀏覽高解析度大圖像，並且能夠在不影響圖像質量的情況下進行縮放和平移操作。 ## 技術點 ### ...
C++程式開發技巧

## 引言 > 類（class）的使用分為兩種——基於對象（object Based）和麵向對象（object oriented） > > 基於對象是指，程式設計中單一的類，和其他類沒有任何關係 > > 單一的類又分為：不帶指針的類（class without pointer members）和帶指 ...
day08-SpringCloud Gateway-服務網關

# SpringCloud Gateway-服務網關 ## 1.Gateway介紹 ### 1.1引出問題 **沒有使用網關服務時：** **使用網關服務後：** ### 1.2Gateway網路拓撲圖 ![Gateway網路拓撲圖](https://liyuelian.oss-cn-shenzhe ...
【python基礎】複雜數據類型-列表類型（元組）

# 1.初識元組列表非常適合用於存儲在程式運行期間可能變化的數據集。列表是可以修改的。然而，有時候需要創建一系列不可修改的元素，元組可以滿足這種需求 python將不能修改的值稱為不可變的，而不可變的列表被稱為元組。元組看起來猶如列表，但使用圓括弧而不是方括弧來標識。其語法格式：元組變數名 ...