【pandas基礎】--核心數據結構

来源:https://www.cnblogs.com/wang_yb/archive/2023/05/07/17380249.html
-Advertisement-
Play Games

pandas中用來承載數據的兩個最重要的結構分別是: Series:相當於增強版的一維數組 DataFrame:相當於增強版的二維數組 pandas最大的優勢在於處理表格類數據,如果數據維度超過二維,一般我們會使用另一個 python的庫 numpy。 本篇主要介紹這兩種核心數據結構的創建方式。 1 ...


pandas中用來承載數據的兩個最重要的結構分別是:

  1. Series:相當於增強版的一維數組
  2. DataFrame:相當於增強版的二維數組

pandas最大的優勢在於處理表格類數據,如果數據維度超過二維,一般我們會使用另一個 python的庫 numpy

本篇主要介紹這兩種核心數據結構的創建方式。

1. Series

pandasSeries是一種帶有標簽索引的一維數據結構。
它可以表示任何一維帶標簽的數據,例如時間序列數據、運動員數據、股票價格等等。

pandasSeries由兩個數組構成:一個是數據數組,它可以是numpy數組、列表、字典等;另一個是索引數組,它指定數據數組中每個元素的標簽。

Series可以進行各種數學運算、邏輯運算和複製操作,可以輕鬆創建、操作和使用。
pandasSeries特別強大之處就是可以使用各種方法進行數據的操作、處理和分析,因此在數據分析、數據處理和科學計算方面非常有用。

常用的創建 Series有兩種方式:

1.1 從列表創建

l = [78, 89, 95]
s = pd.Series(l)
s.head()

image.png
從列表可以直接創建出 Series,可以看出,與一般的一維數組相比,Series多了一列索引信息。
其實,除此之外,Series還有很多用於分析和統計的方法,後續我們再介紹。

索引預設是從0開始的數字,也可以在創建時設置有意義的索引名稱。

l = [78, 89, 95]
s = pd.Series(l, index=["語文", "數學", "英語"])
s.head()

image.png

1.2 從字典創建

d = {"a": 78, "b": 89, "c": 95}
s = pd.Series(d)
s.head()

image.png
從字典創建Series時,會將字典的 key作為了索引。
修改索引不用 index參數,而是直接修改字典的 key

d = {"語文": 78, "數學": 89, "英語": 95}
s = pd.Series(d)
s.head()

image.png

2. Dataframe

pandasDataFrame是一個二維的數據結構,可以存儲各種類型的數據,類似於Excel中的表格。
它由行和列組成,每一行和每一列都有一個索引值,可以通過索引值進行讀寫操作。

DataFrame支持許多操作,包括對數據的過濾、切片、排序、連接和聚合等。
它還可以從各種數據源(如CSV、SQL資料庫和Excel)中讀取數據,並將數據寫入這些數據源。

pandas中,DataFrame可以使用字典、列表、Numpy數組、其他pandas數據框等構建。
DataFrame還有一些重要的屬性和方法,例如headtaildescribe等,用於查看數據、統
計數據、隨機抽樣等。

除此之外,DataFrame還支持pandas中的許多高級操作,例如多重索引、透視表、重塑等。
這些功能使DataFrame成為數據分析中必不可少的工具。

2.1 從列表創建

l = [[78, 89, 95], [65, 84, 100]]
df = pd.DataFrame(l)
df.head()

image.png
從列表創建DataFrame之後,預設的索引列名稱都是從0開始的數字。
也可以自定義DataFrame的索引名稱和列名稱,通過 indexcolumns參數。

l = [[78, 89, 95], [65, 84, 100]]
df = pd.DataFrame(l, index=["小明", "小紅"], columns=["語文", "數學", "英語"])
df.head()

image.png

2.2 從字典創建

d = [{"語文": 78, "數學": 89, "英語": 95}, {"語文": 65, "數學": 84, "英語": 100}]
df = pd.DataFrame(d)
df.head()

image.png
字典的key作為列名稱,索引不設置的話,預設還是從0開始的數字。

2.3 從 numpy 數組創建

import numpy as np

data = np.array([[78, 89, 95], [65, 84, 100]])
df = pd.DataFrame(data)
df.head()

image.png
numpy二維數組創建 DataFrame和直接從列表創建類似。
註意,這裡只能從 numpy的二維數組創建,如果是維度更高的數組,創建時會出錯。

data = np.array([[[78, 89, 95], [65, 84, 100]]])
df = pd.DataFrame(data)
df.head()

上面的 data是三維數組,執行上面的代碼會有如下的錯誤信息:
image.png

3. 兩種結構互相轉換

pandas的兩種核心結構之間是可以互相轉換的,可以將 Series理解為 DataFrame的一列。

3.1 Series 到 DataFrame

對於一個 Series來說,可以理解成一列是索引,一列是數據。
Series轉換為 DataFrame有多種方式,通過字典來中轉是比較直觀的一種方式。

d = {"語文": 78, "數學": 89, "英語": 95}
s = pd.Series(d)
s.head()

image.png
由前面的介紹可知,紅色框內的是 Series的索引(即 s.index),
右邊一列數字部分是Series的值(即s.values)。

df = pd.DataFrame({"學科": s.index, "分數": s.values})
df.head()

image.png
這樣就轉換成了一個 DataFrame,列名就是字典的key學科分數

3.2 DataFrame 到 Series

DataFrameSeries更加簡單,DataFrame的每一列都可以轉成 Series

l = [[78, 89, 95], [65, 84, 100]]
df = pd.DataFrame(l, index=["小明", "小紅"], columns=["語文", "數學", "英語"])
df.head()

df["數學"]

image.png

type(df["數學"])

image.png

註意,DataFrame只有選擇一列的時候才是一個 Series,如果選擇多列的話,則還是一個 DataFrame

print(type(df[["數學", "語文"]]))
df[["數學", "語文"]]

image.png

4. 總結回顧

本篇主要介紹了pandas的兩個核心數據結構 SeriesDataFrame
首先介紹了它們各自的創建方式,即從普通的python數據結構創建 SeriesDataFrame的常用方式。
然後也介紹了它們之間常用的互相轉換方法。

SeriesDataFrame數據部分就是一維數組和二維數組,pandas不過是在數據部分之上封裝了各種各樣的管理和分析統計的函數。
然而正因為有了這些函數,才讓pandas成為數據分析的一件利器。

本文關聯的微信視頻號短視頻:
pandas02-核心數據結構.png


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 資料庫系統概論—基礎篇(3) 三.資料庫安全性 1.資料庫安全性概述 資料庫的安全性指保護資料庫以防不合法使用所造成的數據泄露、更改或破壞 2.資料庫安全性控制 2.1用戶身份鑒別 靜態口令鑒別 動態口令鑒別 生物鑒別特征 智能卡鑒別 2.2存取控制 自主存取控制:給用戶限權(DAC,C1級) 強制 ...
  • > 近日來對Kotlin的使用頻率越來越高, 也對自己近年來寫過的Kotlin代碼嘗試進行一個簡單的整理. 翻到了自己五年前第一次使用Kotlin來完成的一個項目([貝塞爾曲線](https://juejin.cn/post/6844903556173004807)), 一時興起, 又用發展到現在的 ...
  • AutoGPT 是什麼 Auto-GPT 是一個實驗性開源應用程式,展示了 GPT-4 語言模型的功能。該程式由 GPT-4 驅動,將 LLM 的“思想”鏈接在一起,以自主實現您設定的任何目標。作為 GPT-4 完全自主運行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。 AutoGP ...
  • 家人們,這圖片到底怎樣才能完全填滿div啊,想問度娘結果搜索的問題都亂七八糟的 (怎麼那麼多問題QAQ),描述問題都描述不來 具體問題如下:圖片有自己的解析度大小,例如寬100px,高100px,將圖片添加到div中: <div class="xx"> <img src="xxx"> </div> ...
  • 大佬們呀,花了好幾天的時間總算是看著頁面展示可以了,求賜教! 小米商城主頁,對大佬來說肯定簡單爆了,我抄寫了好久呀,總是有一點點的小問題,還搞不明白 主要是一個靜態的小米商城頁面,HTML前端代碼不複雜,一堆的div和ul、li就沒問題了,主要是css代碼搞不懂導致顯示不正常 話不多說,直接上代碼: ...
  • 前端開發中涉及表單的頁面非常多,看似功能簡單,開發快速,實則占去了很大一部分時間。當某個表單包含元素過多時還會導致html代碼過多,vue文件過大。從而不容易查找、修改和維護。為了提高開發效率及降低維護成本,下麵介紹表單配置化組件的封裝原理與封裝方法。 ...
  • 環境:CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 Python版本:3.9.12 一、背景描述 PCM(Pulse Code Modulation,脈衝編碼調製)音頻數據是未經壓縮的音頻採樣數據,它是由模擬信號經過採樣、量化、編碼轉換成的標準數字音頻數據。 在FreeSW ...
  • 架構介紹 系統組件 CAS伺服器和客戶端構成了CAS系統體繫結構的兩個物理組件,它們通過各種協議進行通信。 CAS伺服器 CAS伺服器是基於Spring Framework構建的Java servlet,其主要職責是通過簽發和驗證ticket來驗證用戶並授予對啟用CAS認證了的服務(通常稱為CAS客 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...