在`pandas`中,索引(`index`)是用於訪問數據的關鍵。 它為數據提供了基於標簽的訪問能力,類似於字典,可以根據標簽查找和訪問數據。 而`pandas`的軸(`axis`)是指數據表中的一個維度,可以理解為表格中的行和列。 通過指定軸,我們可以對數據進行切片、篩選、聚合等操作。 下麵簡要介 ...
在pandas
中,索引(index
)是用於訪問數據的關鍵。
它為數據提供了基於標簽的訪問能力,類似於字典,可以根據標簽查找和訪問數據。
而pandas
的軸(axis
)是指數據表中的一個維度,可以理解為表格中的行和列。
通過指定軸,我們可以對數據進行切片、篩選、聚合等操作。
下麵簡要介紹pandas
的索引和軸的相關應用場景。
1. 索引(index)
pandas
中有兩種類型的索引:行標簽和列標簽。
行標簽是用於訪問行數據的,通常用於表示時間序列數據或唯一標識符。
列標簽是用於訪問列數據的,通常用於表示變數或特征。
1.1 預設索引
預設情況下,行標簽和列標簽都是從0開始的數字。
df = pd.DataFrame(
[
["小紅", "小明", "小汪"],
[99, 95, 86],
[100, 88, 94],
[95, 99, 86],
],
)
df
1.2 自定義索引
為了更好的識別,可以定義行列的標簽,行標簽可以用各人的學號,列標簽用各列的實際含義。
df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
df
其中index
用來設置行標簽,columns
用來設置列標簽。
1.3 索引的應用
索引最大的作用是訪問和選擇數據,之前學習的loc
函數就是通過索引來訪問和選擇行列數據的。
df = pd.DataFrame(
[
["小紅", 99, 100, 95],
["小明", 95, 88, 94],
["小汪", 86, 94, 86],
],
)
df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
print(df.loc[["12"], :])
print(df.loc[:, ["語文"]])
1.4 多級索引
在pandas
中,可以在一個DataFrame中用多級索引來表示數據的多維結構。
多級索引可以理解為將數據分組,並按照分組的方式進行索引。
也就是說,在多級索引中,每個索引值可以由兩個或更多的標簽組成,這些標簽可以對應於多個維度的數據。
多級索引的主要優點是可以更好地組織和查詢數據。
例如,可以通過多級索引輕鬆地對數據進行分組和聚合操作,在保留數據完整性的同時可以獲得更多的統計信息。
df = pd.DataFrame(
{
"姓名": ["小紅", "小明", "小紅", "小明"],
"年級": ["初二", "初一", "初一", "初二"],
"成績": [100, 88, 94, 99],
},
)
df.set_index(["姓名", "年級"]).sort_index()
df.set_index(["年級", "姓名"]).sort_index()
如上所示,通過多級索引,可以將行列數據轉換為樹形結構,讓同樣的數據表達不同的含義。
左邊的數據表達的是每個同學在各個年級的成績;
右邊的數據表達的是每個年級不同同學的成績。
根據多級索引選取數據也很簡單。
df_grade = df.set_index(["年級", "姓名"]).sort_index()
# 獲取初一所有學生的成績數據
df_grade.loc["初一", :]
# 獲取初二小明的成績
df_grade.loc["初二", :].loc["小明":, :]
2. 軸(axis)
在pandas
中,有兩個軸:0軸代表的是行方向(即縱向),1軸代表的是列方向(即橫向)。
2.1 刪除數據時
刪除行列數據時,除了指定行列的標簽,還需要指定axis
屬性,表明是按行還是按列刪除。
df = pd.DataFrame(
{
"數學": [100, 88, 94],
"語文": [98, 80, 86],
"英語": [95, 91, 86],
},
index=["小紅", "小明", "小汪"],
)
# 按行刪除 axis=0
df.drop("小明", axis=0)
# 按列刪除 axis=1
df.drop("數學", axis=1)
PS. axis
預設值是0
,所以,按行刪除時不指定 axis
也是可以的。
2.2 統計數據時
統計數據時也一樣,通過axis
參數指定跨行還是跨列來統計。
假如我們要統計總分:
df = pd.DataFrame(
{
"數學": [100, 88, 94],
"語文": [98, 80, 86],
"英語": [95, 91, 86],
},
index=["小紅", "小明", "小汪"],
)
# 跨行統計,各門學科總分
df.sum(axis=0)
# 跨列統計,各個學生總分
df.sum(axis=1)
這裡關於 axis
的理解,有些朋友可能會有點疑惑。
我們看到上面的示例中 axis=0
時,統計的是各個學科的總分,感覺像是按列統計,並不是按行統計的。
其實是這樣的,axis
表示的是行列的方向,axis=0
時,表示按行的方向統計,所以是把每行的數據加起來,得到的就是各門學科的總成績。
同樣,axis=1
時,按照列的方向統計,得到的就是每個學生的總成績了。
3. 總結回顧
本篇介紹了pandas
中兩個重要的概念,索引和軸。
關於索引,pandas
的索引有預設索引,自定義索引以及多級索引。
預設索引是pandas
自動生成的整數形式的索引,它預設會被創建。
自定義索引指的是用戶自己定義的一種標簽形式的索引,可以是數字、字元串或者日期等類型。
多級索引可以讓我們用不同的角度看待數據。
關於軸,因為pandas
中的數據通常是二維的,所以數據可以沿著兩個軸進行操作,分別是行軸和列軸。
行軸又稱為軸0,它沿著行的方向進行操作,是數據的第一維度。
列軸又稱為軸1,它沿著列的方向進行操作,是數據的第二維度。