【pandas基礎】--索引和軸

来源:https://www.cnblogs.com/wang_yb/archive/2023/06/04/17456366.html
-Advertisement-
Play Games

在`pandas`中,索引(`index`)是用於訪問數據的關鍵。 它為數據提供了基於標簽的訪問能力,類似於字典,可以根據標簽查找和訪問數據。 而`pandas`的軸(`axis`)是指數據表中的一個維度,可以理解為表格中的行和列。 通過指定軸,我們可以對數據進行切片、篩選、聚合等操作。 下麵簡要介 ...


pandas中,索引(index)是用於訪問數據的關鍵。
它為數據提供了基於標簽的訪問能力,類似於字典,可以根據標簽查找和訪問數據。

pandas的軸(axis)是指數據表中的一個維度,可以理解為表格中的行和列。
通過指定軸,我們可以對數據進行切片、篩選、聚合等操作。

下麵簡要介紹pandas索引的相關應用場景。

1. 索引(index)

pandas中有兩種類型的索引:行標簽和列標簽。
行標簽是用於訪問行數據的,通常用於表示時間序列數據或唯一標識符。
列標簽是用於訪問列數據的,通常用於表示變數或特征。

1.1 預設索引

預設情況下,行標簽列標簽都是從0開始的數字。

df = pd.DataFrame(
    [
        ["小紅", "小明", "小汪"],
        [99, 95, 86],
        [100, 88, 94],
        [95, 99, 86],
    ],
)

df

image.png

1.2 自定義索引

為了更好的識別,可以定義行列的標簽,行標簽可以用各人的學號,列標簽用各列的實際含義。

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
df

image.png
其中index用來設置行標簽,columns用來設置列標簽。

1.3 索引的應用

索引最大的作用是訪問和選擇數據,之前學習的loc函數就是通過索引來訪問和選擇行列數據的。

df = pd.DataFrame(
    [
        ["小紅", 99, 100, 95],
        ["小明", 95, 88, 94],
        ["小汪", 86, 94, 86],
    ],
)

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]

print(df.loc[["12"], :])
print(df.loc[:, ["語文"]])

image.png

1.4 多級索引

pandas中,可以在一個DataFrame中用多級索引來表示數據的多維結構。
多級索引可以理解為將數據分組,並按照分組的方式進行索引。
也就是說,在多級索引中,每個索引值可以由兩個或更多的標簽組成,這些標簽可以對應於多個維度的數據。

多級索引的主要優點是可以更好地組織和查詢數據。
例如,可以通過多級索引輕鬆地對數據進行分組和聚合操作,在保留數據完整性的同時可以獲得更多的統計信息。

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明"],
        "年級": ["初二", "初一", "初一", "初二"],
        "成績": [100, 88, 94, 99],
    },
)

df.set_index(["姓名", "年級"]).sort_index()
df.set_index(["年級", "姓名"]).sort_index()

image.png
如上所示,通過多級索引,可以將行列數據轉換為樹形結構,讓同樣的數據表達不同的含義。
左邊的數據表達的是每個同學在各個年級的成績;
右邊的數據表達的是每個年級不同同學的成績。

根據多級索引選取數據也很簡單。

df_grade = df.set_index(["年級", "姓名"]).sort_index()

# 獲取初一所有學生的成績數據
df_grade.loc["初一", :]

# 獲取初二小明的成績
df_grade.loc["初二", :].loc["小明":, :]

image.png

2. 軸(axis)

pandas中,有兩個軸:0軸代表的是行方向(即縱向),1軸代表的是列方向(即橫向)。

2.1 刪除數據時

刪除行列數據時,除了指定行列的標簽,還需要指定axis屬性,表明是按行還是按列刪除。

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 按行刪除 axis=0
df.drop("小明", axis=0)

# 按列刪除 axis=1
df.drop("數學", axis=1)

image.png
PS. axis 預設值是0,所以,按行刪除時不指定 axis 也是可以的。

2.2 統計數據時

統計數據時也一樣,通過axis參數指定跨行還是跨列來統計。
假如我們要統計總分:

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 跨行統計,各門學科總分
df.sum(axis=0)

# 跨列統計,各個學生總分
df.sum(axis=1)

image.png

這裡關於 axis 的理解,有些朋友可能會有點疑惑。
我們看到上面的示例中 axis=0 時,統計的是各個學科的總分,感覺像是按列統計,並不是按行統計的。
其實是這樣的,axis 表示的是行列的方向,axis=0 時,表示按行的方向統計,所以是把每行的數據加起來,得到的就是各門學科的總成績。

同樣,axis=1時,按照列的方向統計,得到的就是每個學生的總成績了。

3. 總結回顧

本篇介紹了pandas中兩個重要的概念,索引

關於索引,pandas的索引有預設索引,自定義索引以及多級索引。
預設索引是pandas自動生成的整數形式的索引,它預設會被創建。
自定義索引指的是用戶自己定義的一種標簽形式的索引,可以是數字、字元串或者日期等類型。
多級索引可以讓我們用不同的角度看待數據。

關於軸,因為pandas中的數據通常是二維的,所以數據可以沿著兩個軸進行操作,分別是行軸和列軸。
行軸又稱為軸0,它沿著行的方向進行操作,是數據的第一維度。
列軸又稱為軸1,它沿著列的方向進行操作,是數據的第二維度。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 01|修改Win用戶名 打開運行,輸入cmd,回車; 輸入control userpasswords2,回車; 點擊屬性,修改用戶名,點擊確定; 打開運行,輸入regedit,回車; 定位到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\Cur ...
  • [TOC](快速上手kettle(三)壺中可以放些啥?) ### 序言 快速上手kettle開篇中,我們將kettle比作壺,並對這個壺做了簡單介紹。 而上一期中我們實現了①將csv文件通過kettle轉換成excel文件; ②將excel文件通過kettle寫入到MySQL資料庫表中 這兩個案例。 ...
  • # mysql編碼錯誤 ![image-20230604115322661](https://img2023.cnblogs.com/blog/2862884/202306/2862884-20230604115422584-1121547495.png) 問題出現在用django的admin組件向 ...
  • # **鎖** ## **概述** - **介紹** 鎖是電腦協調多個進程或線程併發訪問某一資源的機制。在資料庫中,除傳統的計算資源(CPU、RAM、I/O)的爭用以外,數據也是一種供許多用戶共用的資源。如何保證數據併發訪問的一致性、有效性是所有資料庫必須解決的一個問題,鎖衝突也是影響資料庫併發訪 ...
  • # 基於 Web 和 Deep Zoom 的高解析度大圖查看器的實踐 高解析度大圖像在 Web 中查看可以使用 Deep Zoom 技術,這是一種用於查看和瀏覽大型高解析度圖像的技術,它可以讓用戶以交互方式瀏覽高解析度大圖像,並且能夠在不影響圖像質量的情況下進行縮放和平移操作。 ## 技術點 ### ...
  • ## 引言 > 類(class)的使用分為兩種——基於對象(object Based)和麵向對象(object oriented) > > 基於對象是指,程式設計中單一的類,和其他類沒有任何關係 > > 單一的類又分為:不帶指針的類(class without pointer members)和帶指 ...
  • # SpringCloud Gateway-服務網關 ## 1.Gateway介紹 ### 1.1引出問題 **沒有使用網關服務時:** **使用網關服務後:** ### 1.2Gateway網路拓撲圖 ![Gateway網路拓撲圖](https://liyuelian.oss-cn-shenzhe ...
  • # 1.初識元組 列表非常適合用於存儲在程式運行期間可能變化的數據集。列表是可以修改的。 然而,有時候需要創建一系列不可修改的元素,元組可以滿足這種需求 python將不能修改的值稱為不可變的,而不可變的列表被稱為元組。 元組看起來猶如列表,但使用圓括弧而不是方括弧來標識。 其語法格式:元組變數名 ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...