pandas中的數值計算及統計基礎

来源:https://www.cnblogs.com/xshan/archive/2019/04/29/10793011.html
-Advertisement-
Play Games

1 import pandas as pd 2 import numpy as np 3 4 df = pd.DataFrame({ 5 'key1': [4, 5, 3, np.nan, 2], 6 'key2': [1, 2, np.nan, 4, 5], 7 'key3': [1, 2, 3,... ...


  1 import pandas as pd
  2 import numpy as np
  3 
  4 df = pd.DataFrame({
  5     'key1': [4, 5, 3, np.nan, 2],
  6     'key2': [1, 2, np.nan, 4, 5],
  7     'key3': [1, 2, 3, 'j', 'k']
  8 }, index=['a', 'b', 'c', 'd', 'e'])
  9 print(df)
 10 print(df['key1'].dtype,df['key2'].dtype,df['key3'].dtype)
 11 print('-------')
 12 '''
 13    key1  key2 key3
 14 a   4.0   1.0    1
 15 b   5.0   2.0    2
 16 c   3.0   NaN    3
 17 d   NaN   4.0    j
 18 e   2.0   5.0    k
 19 float64 float64 object
 20 -------
 21 '''
 22 # 計算每一列的均值 df.mean()
 23 # 只統計數字列,預設忽略nan。
 24 print(df.mean())
 25 '''
 26 key1    3.5
 27 key2    3.0
 28 dtype: float64
 29 '''
 30 # 不忽略nan值計算均值
 31 # skipna預設為True,如果為False,有NaN的列統計結果仍為NaN
 32 m3 = df.mean(skipna=False)
 33 print(m3)
 34 '''
 35 key1   NaN
 36 key2   NaN
 37 dtype: float64
 38 '''
 39 # 計算單一列的均值
 40 print('計算單一列的均值',df['key2'].mean())
 41 '''
 42 計算單一列的均值 3.0
 43 '''
 44 
 45 df2 = pd.DataFrame({
 46     'key1': [1, 3, 5],
 47     'key2': [2, 4, 6],
 48     'key3': [3, 5, 7]
 49 }, index=['a', 'b', 'c'])
 50 # print(df2)
 51 # print('--------df2')
 52 # 計算df2每一行的均值並將其結果添加到新的列
 53 df2['mean'] = df2.mean(axis=1)
 54 print(df2)
 55 '''
 56    key1  key2  key3  mean
 57 a     1     2     3   2.0
 58 b     3     4     5   4.0
 59 c     5     6     7   6.0
 60 '''
 61 
 62 # 統計非NaN值的數量  count()
 63 print(df)
 64 print('-'*6)
 65 print(df.count())
 66 '''
 67    key1  key2 key3
 68 a   4.0   1.0    1
 69 b   5.0   2.0    2
 70 c   3.0   NaN    3
 71 d   NaN   4.0    j
 72 e   2.0   5.0    k
 73 ------
 74 key1    4
 75 key2    4
 76 key3    5
 77 dtype: int64
 78 '''
 79 
 80 # 統計
 81 print(df)
 82 print('-' * 6)
 83 print('df的最小值',df.min())
 84 print('df的最大值',df.max())
 85 print('df的key2列的最大值',df['key2'].max())
 86 print('統計df的分位數,參數q確定位置',df.quantile(q=0.75))
 87 print('對df求和',df.sum())
 88 print('求df的中位數,median(),50%分位數',df.median())
 89 print('求df的標準差,std()',df.std())
 90 print('求df的方差,var()',df.var())
 91 print('求skew樣本的偏度,skew()',df.skew())
 92 print('求kurt樣本的峰度,kurt()',df.kurt())
 93 print('df累計求和,cumsum()',df['key2'].cumsum())
 94 print('df累計求積,cumprod()',df['key2'].cumprod())
 95 print('求df的累計最大值,cummax()', df['key2'].cummax())
 96 print('求df的累計最小值,cummin()', df['key2'].cummin())
 97 '''
 98    key1  key2 key3
 99 a   4.0   1.0    1
100 b   5.0   2.0    2
101 c   3.0   NaN    3
102 d   NaN   4.0    j
103 e   2.0   5.0    k
104 ------
105 df的最小值 key1    2.0
106 key2    1.0
107 dtype: float64
108 df的最大值 key1    5.0
109 key2    5.0
110 dtype: float64
111 df的key2列的最大值 5.0
112 統計df的分位數,參數q確定位置 key1    4.25
113 key2    4.25
114 Name: 0.75, dtype: float64
115 對df求和 key1    14.0
116 key2    12.0
117 dtype: float64
118 求df的中位數,median(),50%分位數 key1    3.5
119 key2    3.0
120 dtype: float64
121 求df的標準差,std() key1    1.290994
122 key2    1.825742
123 dtype: float64
124 求df的方差,var() key1    1.666667
125 key2    3.333333
126 dtype: float64
127 求skew樣本的偏度,skew() key1    0.0
128 key2    0.0
129 dtype: float64
130 求kurt樣本的峰度,kurt() key1   -1.2
131 key2   -3.3
132 dtype: float64
133 df累計求和,cumsum() a     1.0
134 b     3.0
135 c     NaN
136 d     7.0
137 e    12.0
138 Name: key2, dtype: float64
139 df累計求積,cumprod() a     1.0
140 b     2.0
141 c     NaN
142 d     8.0
143 e    40.0
144 Name: key2, dtype: float64
145 求df的累計最大值,cummax() a    1.0
146 b    2.0
147 c    NaN
148 d    4.0
149 e    5.0
150 Name: key2, dtype: float64
151 求df的累計最小值,cummin() a    1.0
152 b    1.0
153 c    NaN
154 d    1.0
155 e    1.0
156 Name: key2, dtype: float64
157 '''
158 
159 # 唯一值 :unique()
160 s = pd.Series(list('kjdhsakjdhjfh'))
161 sq = s.unique()
162 print(s)
163 print(sq)
164 print('sq的類型:',type(sq))
165 print('對sq進行重新排序:',pd.Series(sq).sort_values())
166 '''
167 0     k
168 1     j
169 2     d
170 3     h
171 4     s
172 5     a
173 6     k
174 7     j
175 8     d
176 9     h
177 10    j
178 11    f
179 12    h
180 dtype: object
181 ['k' 'j' 'd' 'h' 's' 'a' 'f']
182 sq的類型: <class 'numpy.ndarray'>
183 對sq進行重新排序: 5    a
184 2    d
185 6    f
186 3    h
187 1    j
188 0    k
189 4    s
190 dtype: object
191 '''
192 # 對某一列進行值的計數,只能對一列,不能對Dataframe
193 print(df['key2'].value_counts())
194 
195 # 判斷Dataframe中的每個元素是否都是在某個列表中
196 print(df)
197 df_isin = df.isin([1,3])
198 print(df_isin)
199 '''
200    key1  key2 key3
201 a   4.0   1.0    1
202 b   5.0   2.0    2
203 c   3.0   NaN    3
204 d   NaN   4.0    j
205 e   2.0   5.0    k
206 
207 
208     key1   key2   key3
209 a  False   True   True
210 b  False  False  False
211 c   True  False   True
212 d  False  False  False
213 e  False  False  False
214 '''

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 新聞 ".NET版本的Apache Spark" "Apache Spark預覽版介紹" "F Apache Spark示例" "微軟Build 2019大會(5月6日至8日)" "Rider用於F 的解決方案內的重命名" "Spark+AI峰會——開發智能雲與智能邊緣" "CNTK最新的重大發佈— ...
  • 1.常量是什麼?有什麼存在的意思? 答:舉個例子,公司開發,資料庫的地址用戶名密碼等信息一般固定不變,不需要後面程式改動。 如果用變數,$db = 'xx';其他人寫程式,後面好巧不巧,修改了這個變數,是不是就出問題了。 再比如,程式中要用到圓周率等,用變數存,就怕哪天被修改了,程式上是不會報錯的, ...
  • 1. swagger知識點補充 1.1. 概述 1. 在swagger的使用過程中,除了網上常見的例子,還會有很多細節上的東西需要註意和改寫,這裡我列幾點我使用過程中遇到的問題和改進方式 1.2. 知識點 1.2.1. 模型例子 1. 我們在進行POST的請求的時候,尤其是增加一條數據,我們往往會有 ...
  • 一、引言 在學習集合的時候我們會發現一個問題,將一個對象丟到集合中後,集合併不記住對象的類型,統統都當做Object處理,這樣我們取出來再使用時就得強制轉換類型,導致代碼臃腫,而且加入集合時都是以Object,沒做類型檢查,那麼強制轉換就容易出錯,泛型的誕生就是為解決這些問題。 二、使用泛型 泛型是 ...
  • 前面介紹的文件I/O,不管是寫入文本還是寫入對象,文件中的數據基本是原來的模樣,用記事本之類的文本編輯軟體都能瀏覽個大概。這麼存儲數據,要說方便確實方便,只是不夠經濟划算,原因有二:其一,寫入的數據可能存在大量重覆的信息,但依原樣寫到文件的話,無疑保留了不少冗餘數據,造成空間浪費;其二,寫入的數據多 ...
  • 本例使用的時python2.7環境,python3的操作應該也是差不多的。 需要用到smtplib和email兩個包。 發送文本類型的郵件 下麵看個發送文本郵件的例子(使用網易163的SMTP): 好像網易的SMTP有坑,message['From']和message['To']都要和sender和 ...
  • RabbitMQ的工作原理 它的基本結構 組成部分說明如下: Broker:消息隊列服務進程,此進程包括兩個部分:Exchange和Queue。 Exchange:消息隊列交換機,按一定的規則將消息路由轉發到某個隊列,對消息進行過慮。 Queue:消息隊列,存儲消息的隊列,消息到達隊列並轉發給指定的 ...
  • 今天就說一下自定義數組,至於要怎麼用,我也不知道,反正逼格挺高的。 閑話不多說,開始: 首先,自定義數組首先要創建一個類,用來做自定義數組的類型。 有了這個類後,我們就可以自定義一個User類型了。 當然,我們自定義的數組不僅可以存int類型,其他類型的也可以自定義的。 還有,其實,自定義類型的作用 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...