【pandas基礎】--索引和軸

来源:https://www.cnblogs.com/wang_yb/archive/2023/06/04/17456366.html
-Advertisement-
Play Games

在`pandas`中,索引(`index`)是用於訪問數據的關鍵。 它為數據提供了基於標簽的訪問能力,類似於字典,可以根據標簽查找和訪問數據。 而`pandas`的軸(`axis`)是指數據表中的一個維度,可以理解為表格中的行和列。 通過指定軸,我們可以對數據進行切片、篩選、聚合等操作。 下麵簡要介 ...


pandas中,索引(index)是用於訪問數據的關鍵。
它為數據提供了基於標簽的訪問能力,類似於字典,可以根據標簽查找和訪問數據。

pandas的軸(axis)是指數據表中的一個維度,可以理解為表格中的行和列。
通過指定軸,我們可以對數據進行切片、篩選、聚合等操作。

下麵簡要介紹pandas索引的相關應用場景。

1. 索引(index)

pandas中有兩種類型的索引:行標簽和列標簽。
行標簽是用於訪問行數據的,通常用於表示時間序列數據或唯一標識符。
列標簽是用於訪問列數據的,通常用於表示變數或特征。

1.1 預設索引

預設情況下,行標簽列標簽都是從0開始的數字。

df = pd.DataFrame(
    [
        ["小紅", "小明", "小汪"],
        [99, 95, 86],
        [100, 88, 94],
        [95, 99, 86],
    ],
)

df

image.png

1.2 自定義索引

為了更好的識別,可以定義行列的標簽,行標簽可以用各人的學號,列標簽用各列的實際含義。

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]
df

image.png
其中index用來設置行標簽,columns用來設置列標簽。

1.3 索引的應用

索引最大的作用是訪問和選擇數據,之前學習的loc函數就是通過索引來訪問和選擇行列數據的。

df = pd.DataFrame(
    [
        ["小紅", 99, 100, 95],
        ["小明", 95, 88, 94],
        ["小汪", 86, 94, 86],
    ],
)

df.index = ["12", "3", "9"]
df.columns = ["姓名", "語文", "數學", "英語"]

print(df.loc[["12"], :])
print(df.loc[:, ["語文"]])

image.png

1.4 多級索引

pandas中,可以在一個DataFrame中用多級索引來表示數據的多維結構。
多級索引可以理解為將數據分組,並按照分組的方式進行索引。
也就是說,在多級索引中,每個索引值可以由兩個或更多的標簽組成,這些標簽可以對應於多個維度的數據。

多級索引的主要優點是可以更好地組織和查詢數據。
例如,可以通過多級索引輕鬆地對數據進行分組和聚合操作,在保留數據完整性的同時可以獲得更多的統計信息。

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明"],
        "年級": ["初二", "初一", "初一", "初二"],
        "成績": [100, 88, 94, 99],
    },
)

df.set_index(["姓名", "年級"]).sort_index()
df.set_index(["年級", "姓名"]).sort_index()

image.png
如上所示,通過多級索引,可以將行列數據轉換為樹形結構,讓同樣的數據表達不同的含義。
左邊的數據表達的是每個同學在各個年級的成績;
右邊的數據表達的是每個年級不同同學的成績。

根據多級索引選取數據也很簡單。

df_grade = df.set_index(["年級", "姓名"]).sort_index()

# 獲取初一所有學生的成績數據
df_grade.loc["初一", :]

# 獲取初二小明的成績
df_grade.loc["初二", :].loc["小明":, :]

image.png

2. 軸(axis)

pandas中,有兩個軸:0軸代表的是行方向(即縱向),1軸代表的是列方向(即橫向)。

2.1 刪除數據時

刪除行列數據時,除了指定行列的標簽,還需要指定axis屬性,表明是按行還是按列刪除。

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 按行刪除 axis=0
df.drop("小明", axis=0)

# 按列刪除 axis=1
df.drop("數學", axis=1)

image.png
PS. axis 預設值是0,所以,按行刪除時不指定 axis 也是可以的。

2.2 統計數據時

統計數據時也一樣,通過axis參數指定跨行還是跨列來統計。
假如我們要統計總分:

df = pd.DataFrame(
    {
        "數學": [100, 88, 94],
        "語文": [98, 80, 86],
        "英語": [95, 91, 86],
    },
    index=["小紅", "小明", "小汪"],
)

# 跨行統計,各門學科總分
df.sum(axis=0)

# 跨列統計,各個學生總分
df.sum(axis=1)

image.png

這裡關於 axis 的理解,有些朋友可能會有點疑惑。
我們看到上面的示例中 axis=0 時,統計的是各個學科的總分,感覺像是按列統計,並不是按行統計的。
其實是這樣的,axis 表示的是行列的方向,axis=0 時,表示按行的方向統計,所以是把每行的數據加起來,得到的就是各門學科的總成績。

同樣,axis=1時,按照列的方向統計,得到的就是每個學生的總成績了。

3. 總結回顧

本篇介紹了pandas中兩個重要的概念,索引

關於索引,pandas的索引有預設索引,自定義索引以及多級索引。
預設索引是pandas自動生成的整數形式的索引,它預設會被創建。
自定義索引指的是用戶自己定義的一種標簽形式的索引,可以是數字、字元串或者日期等類型。
多級索引可以讓我們用不同的角度看待數據。

關於軸,因為pandas中的數據通常是二維的,所以數據可以沿著兩個軸進行操作,分別是行軸和列軸。
行軸又稱為軸0,它沿著行的方向進行操作,是數據的第一維度。
列軸又稱為軸1,它沿著列的方向進行操作,是數據的第二維度。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 01|修改Win用戶名 打開運行,輸入cmd,回車; 輸入control userpasswords2,回車; 點擊屬性,修改用戶名,點擊確定; 打開運行,輸入regedit,回車; 定位到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\Cur ...
  • [TOC](快速上手kettle(三)壺中可以放些啥?) ### 序言 快速上手kettle開篇中,我們將kettle比作壺,並對這個壺做了簡單介紹。 而上一期中我們實現了①將csv文件通過kettle轉換成excel文件; ②將excel文件通過kettle寫入到MySQL資料庫表中 這兩個案例。 ...
  • # mysql編碼錯誤 ![image-20230604115322661](https://img2023.cnblogs.com/blog/2862884/202306/2862884-20230604115422584-1121547495.png) 問題出現在用django的admin組件向 ...
  • # **鎖** ## **概述** - **介紹** 鎖是電腦協調多個進程或線程併發訪問某一資源的機制。在資料庫中,除傳統的計算資源(CPU、RAM、I/O)的爭用以外,數據也是一種供許多用戶共用的資源。如何保證數據併發訪問的一致性、有效性是所有資料庫必須解決的一個問題,鎖衝突也是影響資料庫併發訪 ...
  • # 基於 Web 和 Deep Zoom 的高解析度大圖查看器的實踐 高解析度大圖像在 Web 中查看可以使用 Deep Zoom 技術,這是一種用於查看和瀏覽大型高解析度圖像的技術,它可以讓用戶以交互方式瀏覽高解析度大圖像,並且能夠在不影響圖像質量的情況下進行縮放和平移操作。 ## 技術點 ### ...
  • ## 引言 > 類(class)的使用分為兩種——基於對象(object Based)和麵向對象(object oriented) > > 基於對象是指,程式設計中單一的類,和其他類沒有任何關係 > > 單一的類又分為:不帶指針的類(class without pointer members)和帶指 ...
  • # SpringCloud Gateway-服務網關 ## 1.Gateway介紹 ### 1.1引出問題 **沒有使用網關服務時:** **使用網關服務後:** ### 1.2Gateway網路拓撲圖 ![Gateway網路拓撲圖](https://liyuelian.oss-cn-shenzhe ...
  • # 1.初識元組 列表非常適合用於存儲在程式運行期間可能變化的數據集。列表是可以修改的。 然而,有時候需要創建一系列不可修改的元素,元組可以滿足這種需求 python將不能修改的值稱為不可變的,而不可變的列表被稱為元組。 元組看起來猶如列表,但使用圓括弧而不是方括弧來標識。 其語法格式:元組變數名 ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...