pandas基本介紹-【老魚學pandas】

来源:http://www.cnblogs.com/dreampursuer/archive/2017/11/19/7833472.html
-Advertisement-
Play Games

前面我們學習了numpy,現在我們來學習一下pandas。 Python Data Analysis Library 或 pandas 主要用於處理類似excel一樣的數據格式,其中有表頭、數據序列號以及實際的數據,而numpy就僅僅包含了實際的數據。 安裝 直接輸入: 最基本用法 輸出: 我們可以 ...


前面我們學習了numpy,現在我們來學習一下pandas。
Python Data Analysis Library 或 pandas 主要用於處理類似excel一樣的數據格式,其中有表頭、數據序列號以及實際的數據,而numpy就僅僅包含了實際的數據。

安裝

直接輸入:

pip3 install pandas

最基本用法

import pandas as pd
s = pd.Series([1, 2, 5, 6])
print(s)

輸出:

0    1
1    2
2    5
3    6
dtype: int64

我們可以看到pandas自動添加了數據的序列號。

自定義索引項和列名

import pandas as pd
import numpy as np
# 創建一個日期索引項
dates = pd.date_range("2017-01-04", periods=6)
print("dates=", dates)

# 創建一個類似excel表格一樣的數據表,其中索引項為日期索引,列名為:a,b,c,d
data = pd.DataFrame(np.random.rand(6, 4), index=dates, columns=["a", "b", "c", "d"])
print("data=")
print(data)

輸出:

dates= DatetimeIndex(['2017-01-04', '2017-01-05', '2017-01-06', '2017-01-07',
               '2017-01-08', '2017-01-09'],
              dtype='datetime64[ns]', freq='D')
data=
                   a         b         c         d
2017-01-04  0.637641  0.756613  0.297506  0.692492
2017-01-05  0.319457  0.401690  0.550955  0.862642
2017-01-06  0.685646  0.007546  0.376774  0.735220
2017-01-07  0.767868  0.000718  0.799336  0.428242
2017-01-08  0.004777  0.292726  0.227704  0.117925
2017-01-09  0.946817  0.153245  0.154102  0.165621

看,輸出了一個比較規整的電子錶格。
上面這些命令包括需要哪些參數不需要特別記憶,如果你用idea的話會自動給你提示的。

預設索引號和列名

如果我們沒有指定索引號和列名,pandas會自動以0,1,2這樣的自然數來定義我們的索引號和列名,例如:

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.rand(6, 4))
print("data=")
print(data)

輸出:

data=
          0         1         2         3
0  0.515289  0.900554  0.490999  0.941186
1  0.706116  0.267078  0.870968  0.904068
2  0.002414  0.648418  0.579449  0.827671
3  0.473538  0.640514  0.564209  0.040902
4  0.052849  0.372015  0.613814  0.516763
5  0.484220  0.479558  0.007722  0.216598

map方式創建DataFrame

可以用一個map方式來創建DataFrame,這樣相當於map中的key為列名,value為此列的數據列表:

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})
print("data=")
print(data)

輸出為:

data=
   A      B    C   D
0  1   test  dog  12
1  2  train  dog  12
2  3     go  dog  12
3  5   java  dog  12

查看每列的數據類型

我想知道pandas中每列的數據類型,有點像瞭解資料庫中表的欄位類型,這可以通過dtypes屬性獲得:

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})
print(data.dtypes)

輸出:

A     int32
B    object
C    object
D     int64
dtype: object

獲得列名和索引

想要獲得pandas中的列名和索引,只要使用columns和index屬性就可以:

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})

print("列名:", data.columns)
print("索引:", data.index)

輸出:

列名: Index(['A', 'B', 'C', 'D'], dtype='object')
索引: RangeIndex(start=0, stop=4, step=1)

使用describe()函數對數據快速統計彙總

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})

print(data.describe())

輸出:

              A     D
count  4.000000   4.0
mean   2.750000  12.0
std    1.707825   0.0
min    1.000000  12.0
25%    1.750000  12.0
50%    2.500000  12.0
75%    3.500000  12.0
max    5.000000  12.0

其中就對可計算的列進行計數、求平均值、方差、最小值、最大值等。

pandas轉置

相當於把電子錶格中的行和列翻轉一下。

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})

print(data.T)

輸出:

      0      1    2     3
A     1      2    3     5
B  test  train   go  java
C   dog    dog  dog   dog
D    12     12   12    12

這樣索引項就變成了原先數據集中的列名。

排序

sort_index()可以按照索引項進行排序。

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})
# 按照索引項進行倒排
print("按照索引項進行倒排:")
print(data.sort_index(ascending=False))

# 對列名進行倒排
print("對列名進行倒排:")
print(data.sort_index(axis=1, ascending=False))

輸出:

按照索引項進行倒排:
   A      B    C   D
3  5   java  dog  12
2  3     go  dog  12
1  2  train  dog  12
0  1   test  dog  12
對列名進行倒排:
    D    C      B  A
0  12  dog   test  1
1  12  dog  train  2
2  12  dog     go  3
3  12  dog   java  5

排序中的數據會跟著列或索引項進行調換順序,因此數據不會錯亂。

按照值排序

使用sort_values()函數對值進行排序,其中可以指定按照哪一列的數據進行排序的:

import pandas as pd
import numpy as np
data = pd.DataFrame({
    "A": np.array([1, 2, 3, 5]),
    "B": ["test", "train", "go", "java"],
    "C": "dog",
    "D": 12
})

print(data.sort_values(by='B'))

輸出:

   A      B    C   D
2  3     go  dog  12
3  5   java  dog  12
0  1   test  dog  12
1  2  train  dog  12

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、背景介紹 環境的局限性: 用戶在使用XX客戶端的時候,必須每臺電腦都安裝列印組件,同時由於XX客戶端使用的是 websocket進行通訊,這就必須限制用戶的電腦瀏覽器必須是IE10.0+以上版本,這種局限性在我們公司倉庫部署實施和用戶體驗極其不好。因此我們必須提供一種解決方案,解決我們業務痛點。 ...
  • 返回總目錄 6.4Replace Temp with Query(以查詢取代臨時變數) 概要 你的程式以一個臨時變數保存某一表達式的運算結果。 將這個表達式提煉到一個獨立函數中。將這個臨時變數的所有引用點替換為對函數的調用。此後,新函數就可以被其他函數使用。 動機 臨時變數的問題在於:只在當前函數可 ...
  • 初稿:2017-11-19 13:05:57 4種鏈表 鏈表和數組的區別 數組初始容量一旦確定,不能再改變,適合要處理的數據量已知的情況。 未知要處理的數據量使用數組,可能造成空間浪費或容量不足,雖然有動態數組可擴容,但是頻繁擴容會使系統產生很大的開銷。 鏈表容量不限,長度與元素個數相同,但是需要額 ...
  • hasattr(object, name)判斷一個對象裡面是否有name屬性或者name方法,返回BOOL值,有name特性返回True, 否則返回False。需要註意的是name要用括弧括起來 getattr(object, name[,default])獲取對象object的屬性或者方法,如果存 ...
  • 面向對象概念 面向對象是利用類和對象來創建各種模型對真實世界進行描述,也能使程式變得簡單。 class 類 一個類即對一類擁有相同屬性的對象的抽象。其中類定義了這些對象都具備非屬性以及方法。 object 對象 一個對象即是一個類的實例化後的實例,一個類必須經過實例化後才能在程式中調用,一個類可以有 ...
  • 1. 框架代碼 用 PyCharm 新建一個名為 SimplePaintApp 的項目,然後新建一個名為 simple_paint_app.py 的 Python 源文件, 在代碼編輯器中,輸入以下框架代碼 運行上面的代碼,將顯示一個黑色背景的視窗 看起來很沒勁的樣子,不過你可不要小瞧這幾行代碼。這 ...
  • 在方法裡面建立properties對象 Properties pps = new Properties(); 調用.load()方法 pps.load(new FileInputStream("E:\\workplace\\testStudent\\src\\we.properties")); 整個 ...
  • 大家在中學就已經學過變數的概念了。例如:我們令 x = 100,則可以推出 x*2 = 200 試試下麵這段 Python 代碼 運行上面的代碼,小海龜將畫出下麵的圖案 x = 100 聲明瞭變數 x,並將它賦值為 100,用大家熟悉的中學數學語言來說,就是“令 x 等於 100” 接下來的代碼中 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...