前言 現實世界的數據中常常包含缺失的數據。原因很多,比如觀察結果沒有記錄,或數據損壞。處理缺失的數據很重要,因為許多機器學習演算法不支持具有缺失值的資料庫。 本教程將討論如何使用Python處理缺失的數據來進行機器學習。 您將瞭解到: •如何在數據集中標記無效或損壞的值。 •如何從數據集中刪除缺失數據 ...
前言
現實世界的數據中常常包含缺失的數據。原因很多,比如觀察結果沒有記錄,或數據損壞。處理缺失的數據很重要,因為許多機器學習演算法不支持具有缺失值的資料庫。
本教程將討論如何使用Python處理缺失的數據來進行機器學習。
您將瞭解到:
•如何在數據集中標記無效或損壞的值。
•如何從數據集中刪除缺失數據的行。
•如何使用數據集的均值估算缺失值。
註意:文章中的例子前提是安裝了Python 2或3,Pandas,NumPy和Scikit-Learn的;特別是scikit-learn版本0.18或更高版本。
概述
本教程分為6部分:
Python學習交流Q群:906715085### •皮馬印度人糖尿病數據集:我們在哪裡查看已知缺失值的數據集。 •標記缺失值:我們學習如何在數據集中標記缺失值。 •缺少值導致的問題: 機器學習演算法如果包含缺少值,將會如何失敗。 •刪除缺少值的行: 如何刪除包含缺失值的行。 •估算缺失值:我們用合理的值替換缺失值。 •允許缺失值的演算法:哪些演算法允許缺失值。
首先,我們來看看缺少值的示例數據集。
1、皮馬印度人糖尿病數據集
皮馬印第安人糖尿病數據集根據現有的醫療信息預測5年內皮馬印第安人糖尿病發作的概率。
這是兩類(2-class)分組問題,每組的觀察標本量不同。共有768個觀測值,8個輸入變數和1個輸出變數。變數名稱如下:
0.懷孕次數。
-
口服葡萄糖耐量試驗中血漿葡萄糖濃度為2小時。
-
舒張壓(mm Hg)。
-
三頭肌組織褶厚度(mm)。
-
2小時血清胰島素(μU/ ml)。
-
體重指數(kg/ (身高(m))^ 2)。
-
糖尿病系統功能。
-
年齡(歲)。
-
類變數(0或1)。
預測的標準是大約65%的分類精準度。最好結果的分類精度約為77%。
以下列出前5行的樣本。
已知此數據集具有缺失值。具體來說,某些列標記為零,即為缺少觀察值。
我們可以通過這些列的意義和這些度量值是否可能為零來證實這一點,例如體重指數或血壓為零是不可能的。
2、標記缺失值
在本節中,我們將識別並值標記缺失值。
我們可以使用圖表(plots)和彙總統計信息來幫助識別缺失或損壞的數據。
我們可以將數據集載入為Pandas DataFrame,並查看每個屬性的統計摘要。
運行此示例生成以下輸出:
這種方法非常有用。我們可以看到有最小值為零(0)的列。在某些列上,零值無效,表示為無效值或缺失值。
具體來說,以下列具有無效的零最小值:
1:血漿葡萄糖濃度
2:舒張壓
3:三頭肌組織褶厚度
4:2小時血清胰島素
5:體重指數
讓我們來看看原始數據,這個例子顯示出前20行的數據。
運行示例,我們可以清楚地看到列2,3,4和5中的0值。
我們可以得到每列這些列中缺失值的數量。我們可以標記我們感興趣的DataFrame的子集中的所有零值為真。然後,我們可以計算每列中真值的數量。
運行示例得到結果:
我們可以看到1,2和5列只有幾個零值,而第3列和第4列顯示幾乎一半的行都為零值。
這充分表明,不同列可能需要不同的策略來處理,例如確保仍有足夠的數據來訓練預測模型。
在Python中,特別是Pandas,NumPy和Scikit-Learn,我們將缺失值標記為NaN。在sum,count等操作中,NaN值的值將被忽略。
我們可以通過使用Pandas DataFrame里的replace()函數,在感興趣的列的子集上 輕鬆地將缺失值標記為NaN 。
在我們標記了缺失值之後,我們可以使用isnull()函數將數據集中的所有NaN值標記為真,並獲取每列缺失值的計數。
運行每列中缺少值的數量,我們可以看到列1:5的列數與之前運行的零值相同。這表示我們已經正確標記了已識別的缺失值。
我們可以看到列1到5具有與上面標識的零值相同數量的缺失值。這是一個跡象,表示我們已經正確標記了已識別的缺失值。
這是一個很有用的總結。我總是喜歡看實際數據,以確認自己沒有弄錯。
以下是相同的例子,只是我們列印前20行的數據。
運行後我們可以清楚地看到列2,3,4和5中的NaN值。列1中只有5個丟失值,所以我們在前20行中沒有看到並不奇怪。
從原始數據可以看出,標記丟失值達到我們期望的效果。
在我們進一步處理缺失值之前,首先來看看數據集中缺失值可能會導致的問題。
3、缺少值導致問題
在數據集中缺少值可能會導致機器學習演算法產生錯誤。
在本節中,我們將嘗試評估帶有缺失值的數據對線性判別分析(LDA)演算法的影響。
當數據集中缺少值時,這種演算法將無效。
下麵的例子標記了數據集中的缺失值,就像我們在上一節中所做的那樣,然後嘗試使用3倍交叉驗證來評估LDA,求平均精度。
運行示例會導致錯誤,如下所示:
正如我們所料。我們無法在有缺失值的數據集上評估LDA和其他一些演算法。
現在,我們來看看處理缺失值的方法。
4、刪除缺失值的行
最簡單的方法就是刪除包含缺失值的行。
我們可以通過創建一個新的Pandas DataFrame,其中缺失值的行已經被刪除。
Pandas提供了dropna ( ) 函數,可用於刪除列或缺少數據的行。我們可以使用dropna ( )來刪除所有缺少數據的行,如下所示:
運行此示例,我們可以看到, 原始數據集中的768行大幅削減到了392行,所有都包含NaN的行都被刪除了。
我們現在有一個數據集,我們可以使用它來評估LDA等對缺失值敏感的演算法。
例子運行成功,並能得到模型的準確性。
刪除缺失值的行可能對不適用與某些預測建模問題,另一種方法則是估算丟失值。
5、估算缺失值
引用(imputing),指使用模型替換缺失值。
在替換缺少的值時可以考慮許多選擇,例如:
• 在域內具有含義的常量值,例如0,不同於其他所有值。
• 來自另一個隨機記錄的值。
• 該列的平均值,中值或模式值。
• 由另一預測模型估計的值。
如果最終模型需要做預測,那麼所有對於訓練數據集進行的imputing都要應用到未來的新數據中。這會影響我們選擇如何估算缺失值。
例如,如果您選擇使用平均列值進行估算,這些平均值的列將需要存儲到文件中,以備將來新數據含有缺失值時使用。
Pandas提供了fillna ( ) 函數來替換具有特定值的缺失值。例如,我們可以使用fillna ( ),平均值來替換每列的缺失值,如下所示:
運行每列中缺少值的計數,顯示缺失值為零。
scikit學習庫提供可用於替換缺失值的Imputer ( ) 預處理類。
這是一個很靈活的類,允許指定要替換的值(可以是NaN以外的)和用於替換它的東西(如平均值,中值或模式)。Imputer類直接在NumPy數組而不是DataFrame上運行。
下麵的示例使用Imputer類平均值替換每列的缺失值,然後得到轉換矩陣中的NaN值的計數。
運行示例顯示所有NaN值成功歸因。
無論哪種情況,我們都可以對缺失值敏感的演算法(如LDA)使用轉化後的數據集進行訓練 。
下麵的例子顯示了在Imputer轉換數據集中訓練LDA演算法
得到轉換數據集上LDA的準確性。
嘗試用其他值替換缺少的值,並查看是否可以提升模型的表現。
也許缺少值在數據中是有意義的。
接下來,我們將使用將缺失值視為另一個值的做法。
6、支持缺失值的演算法
當缺少數據時,並不是所有的演算法都會失效。
有一些可以靈活對待缺失值的演算法,例如k-Nearest Neighbors,當值缺失時,它可以將其不計入距離測量。
另一些演算法,例如分類和回歸樹,可以在構建預測模型時將缺失值看作唯一且不同的值。
遺憾的是,決策樹和k-Nearest Neighbors對於缺失值並不友好。
不管怎樣,如果你考慮使用其他演算法(如xgboost)或開發自己的執行,這依然是一個選擇。
最後
今天給大家分享的如何使用Python處理Missing Data到這裡就結束了,喜歡的小伙伴給個小愛心點點贊,下一章見啦。