pandas里的缺失值（理解與相關方法）

-Advertisement-

由於資料庫或數據集中存在大量缺失數據和空值，這時在pandas中經常用NAN代替。 pandas用標簽方法表示缺失值：一：浮點數據類型的NaN值二：python的None對象其中，None是一個python對象，所以不能作為任何Numpy/pandas數組類型的缺失值，只能用於'object' ...

由於資料庫或數據集中存在大量缺失數據和空值，這時在pandas中經常用NAN代替。

pandas用標簽方法表示缺失值：

一：浮點數據類型的NaN值

二：python的None對象

其中，None是一個python對象，所以不能作為任何Numpy/pandas數組類型的缺失值，只能用於'object'數組類型（即由python對象構成的數組）

1 in:np.array([1,None,3,4])
2 out:array([1,None,3,4],dtype=object)

而NaN屬於數值類型的缺失值，是一種按照IEEE浮點數標準設計，在任何系統中都相容的特殊浮點數。

1 in：vals1=np.array([1,np.nan,3,4])
2 vals1.dtype
3 out:dtype('float64')

並且在數組運算中，NaN可看作是一個數據類病毒，可以把與它接觸過的數據同化，例如：

1+np.nan與1*np.nan結果均為nan，這是需要註意的。

但在實際運算中，NaN這一特性並不能讓我們得到滿意的結果，如下實例可看：

1 in:vals2=np.array([1,np.nan,3,4])
2 vals2.sum(),vals2.min(),vals2.max()
3 out:(nan,nan,nan)

特殊的累計函數，可以忽略缺失值的影響

1 in:vals3=np.array([1,np.nan,3,4])
2 np.nansum(vals3),np.nanmin(vals3),np.nanmax(vals3)
3 out:(8.0,1.0,4.0)

註意：這裡結果是浮點類型 dtype='float64'

NaN與None:

在pandas中它們兩個是可以等價交換的

pd.Series([1,np.nan,2,None])

out:

0 1.0

1 NaN

2 2.0

3 NaN

dtype:float64

註意：其中np.nan是強制轉換成浮點數缺失值NaN，pandas會將沒有標簽值的數據類型自動轉換為NA

轉換規則如下：

類型	缺失值轉換規則	NA標簽值
floating浮點型	無變化	np.nan
object對象類型	無變化	np.nan或None
integer整數類型	強制轉換成float64	np.nan
Boolean布爾類型	強制轉換成object	np.nan或None

關於pandas發現、剔除、替換數據結構中的缺失值

isnull(),notnull()#返回布爾類型，創建一個布爾類型的數組，isnull():若是缺失值，則返回true，否則false，而在notnull中則相反

dropna():不傳參數時，預設刪除所有含缺失值的行，若傳入axis=1或axis='columns'，則它會刪除所有包含缺失值的列

以上會把一些非缺失值一併剔除，為避免這個情況發生，可通過設置how和thresh參數滿足

例如：

df.dropna(axis=1,how='all')則是刪除全部為缺失值的列

df.dropna(axis='rows',thresh=2)則刪除的行中非缺失值至少為2個，thresh用於設置行或列中非缺失值的最小數量

fillna()用於填充缺失值，將其換成有效數值

（可返回填充了缺失值的數組副本）

在Series中

df.fillna(0) 用0來替換缺失值

1 in:df=pd.Series([1,2,np.nan,4,5])
2 df.fillna(0)
3 out:
4 0 1.0
5 1 2.0
6 2 0.0
7 3 4.0
8 4 5.0
9 dtype:float64

df.fillna(method='ffill') 從前往後填充

1 in:df=pd.Series([1,2,np.nan,4,5])
2 df.fillna(method='ffill')
3 out:
4 0 1.0
5 1 2.0
6 2 2.0
7 3 4.0
8 4 5.0
9 dtype:float64

df.fillna(method='bfill') 從後往前填充

1 in:df=pd.Series([1,2,np.nan,4,5])
2 df.fillna(method='bfill')
3 out:
4 0 1.0
5 1 2.0
6 2 4.0
7 3 4.0
8 4 5.0
9 dtype:float64

在DataFrame中

df.fillna(method='ffill',axis=1)與series用法類似，但需表明行或列

1 in:df=pd.DataFrame([[1,2,np.nan],[3,6,7],[4,np.nan,np.nan]],columns=['a','b','c'])
2 df.fillna(method='ffill',axis=0)
3 out:
4     a    b    c
5 0 1.0 2.0 2.0
6 1 3.0 6.0 7.0
7 2 4.0 4.0 4.0
8 dtype:float64

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

你需要知道的4個資料庫擴展解決方案

你需要知道的4個資料庫擴展解決方案你已經用一個直觀的、用戶友好的用戶界面啟動了你的應用程式。但是，如果你的應用程式遇到負載問題，這將使你的終端客戶在使用它時感到沮喪。很有可能問題不在應用程式內部，而是在資料庫。根據一項調查，38%的資料庫專業人員報告說資料庫停機是讓他們夜不能寐的重要問題。停機可能 ...
Python學習三天計劃-3

背景相信大家看到這個文章對消息伺服器已經不陌生了，筆者也是在平日無聊想著自己編寫一套關於RockerMQ 的消息灰度框架的時候，準備本地搭建一個RockerMQ服務環境時遇到了一個頭疼的問題。在執行RockerMQ官網的Topic創建的時候（sh bin/mqadmin updatetopic - ...
PHP記憶體木馬病毒實現原理剖析

前言記憶體木馬，就是在記憶體中運行的木馬病毒，沒有代碼實體。記憶體木馬有著強隱蔽性，排查困難，殺不死（俗稱不死馬）的特點。網路安全行業，有著很強的木桶效應。系統對抗黑帽，勝負取決於安全最薄弱的環節。黑帽對抗白帽，勝負取決於攻擊水平和和毀屍滅跡隱蔽的水平。正文本文不討論是由於任意文件上傳還是近源攻擊 ...
微服務組件--註冊中心Spring Cloud Eureka分析

Spring Cloud Eureka源碼分析的筆記，針對多個方法都有記錄，主要是方便自己對源碼部分的追溯，包括裡面的亮點設計的總結與源碼分析 ...
JWT基礎概念詳解

三大特性封裝利用抽象數據類型將數據和基於數據的操作封裝在一起，使其構成一個不可分割的獨立實體。數據被保護在抽象數據類型的內部，儘可能地隱藏內部的細節，只保留一些對外介面使之與外部發生聯繫。用戶無需知道對象內部的細節，但可以通過對象對外提供的介面來訪問該對象。優點: 減少耦合: 可以獨立地開發、 ...
golang中的字元串

寫在前面 Redis 是一種 NoSQL 資料庫，包含多種數據結構、支持網路、基於記憶體、可選持久性的鍵值對存儲資料庫，在我們的日常開發中會經常使用 Redis 來解決許多問題，比如排行榜、消息隊列系統、計數器以及緩存系統等。在作為緩存使用時，不可避免的會遇到緩存穿透、緩存雪崩、緩存擊穿（熱點 ...
30 個 Python 技巧，加速你的數據分析處理速度

pandas的下載使用命令下載： pip install pandas 或者自行下載whl文件安裝 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 創建DataFrame數據 pd_data = pd.DataFrame({ "name":["小明","小紅 ...
day50-正則表達式01

正則表達式01 5.1正則表達式的作用正則表達式的便利在一篇文章中，想要提取相應的字元，比如提取文章中的所有英文單詞，提取文章中的所有數字等。傳統方法是：使用遍歷的方式，對文本中的每一個字元進行ASCII碼的對比，如果ASCII碼處於英文字元的範圍，就將其截取下來，再看後面是否有連續的字元，將 ...