如何使用Python處理Missing Data

来源:https://www.cnblogs.com/123456feng/archive/2022/04/05/16092678.html
-Advertisement-
Play Games

前言 現實世界的數據中常常包含缺失的數據。原因很多,比如觀察結果沒有記錄,或數據損壞。處理缺失的數據很重要,因為許多機器學習演算法不支持具有缺失值的資料庫。 本教程將討論如何使用Python處理缺失的數據來進行機器學習。 您將瞭解到: •如何在數據集中標記無效或損壞的值。 •如何從數據集中刪除缺失數據 ...


前言

現實世界的數據中常常包含缺失的數據。原因很多,比如觀察結果沒有記錄,或數據損壞。處理缺失的數據很重要,因為許多機器學習演算法不支持具有缺失值的資料庫。

本教程將討論如何使用Python處理缺失的數據來進行機器學習。

在這裡插入圖片描述

您將瞭解到:

•如何在數據集中標記無效或損壞的值。

•如何從數據集中刪除缺失數據的行。

•如何使用數據集的均值估算缺失值。

註意:文章中的例子前提是安裝了Python 2或3,Pandas,NumPy和Scikit-Learn的;特別是scikit-learn版本0.18或更高版本。

概述

本教程分為6部分:

Python學習交流Q群:906715085###


•皮馬印度人糖尿病數據集:我們在哪裡查看已知缺失值的數據集。

•標記缺失值:我們學習如何在數據集中標記缺失值。

•缺少值導致的問題: 機器學習演算法如果包含缺少值,將會如何失敗。

•刪除缺少值的行: 如何刪除包含缺失值的行。

•估算缺失值:我們用合理的值替換缺失值。

•允許缺失值的演算法:哪些演算法允許缺失值。

 

首先,我們來看看缺少值的示例數據集。

在這裡插入圖片描述

1、皮馬印度人糖尿病數據集

皮馬印第安人糖尿病數據集根據現有的醫療信息預測5年內皮馬印第安人糖尿病發作的概率。

這是兩類(2-class)分組問題,每組的觀察標本量不同。共有768個觀測值,8個輸入變數和1個輸出變數。變數名稱如下:

0.懷孕次數。

  1. 口服葡萄糖耐量試驗中血漿葡萄糖濃度為2小時。

  2. 舒張壓(mm Hg)。

  3. 三頭肌組織褶厚度(mm)。

  4. 2小時血清胰島素(μU/ ml)。

  5. 體重指數(kg/ (身高(m))^ 2)。

  6. 糖尿病系統功能。

  7. 年齡(歲)。

  8. 類變數(0或1)。

預測的標準是大約65%的分類精準度。最好結果的分類精度約為77%。

以下列出前5行的樣本。

在這裡插入圖片描述

已知此數據集具有缺失值。具體來說,某些列標記為零,即為缺少觀察值。

我們可以通過這些列的意義和這些度量值是否可能為零來證實這一點,例如體重指數或血壓為零是不可能的。

在這裡插入圖片描述

2、標記缺失值

在本節中,我們將識別並值標記缺失值。

我們可以使用圖表(plots)和彙總統計信息來幫助識別缺失或損壞的數據。

我們可以將數據集載入為Pandas DataFrame,並查看每個屬性的統計摘要。

在這裡插入圖片描述

運行此示例生成以下輸出:

在這裡插入圖片描述

這種方法非常有用。我們可以看到有最小值為零(0)的列。在某些列上,零值無效,表示為無效值或缺失值。

具體來說,以下列具有無效的零最小值:

1:血漿葡萄糖濃度

2:舒張壓

3:三頭肌組織褶厚度

4:2小時血清胰島素

5:體重指數

讓我們來看看原始數據,這個例子顯示出前20行的數據。

在這裡插入圖片描述

運行示例,我們可以清楚地看到列2,3,4和5中的0值。

在這裡插入圖片描述

我們可以得到每列這些列中缺失值的數量。我們可以標記我們感興趣的DataFrame的子集中的所有零值為真。然後,我們可以計算每列中真值的數量。

在這裡插入圖片描述

運行示例得到結果:

在這裡插入圖片描述

我們可以看到1,2和5列只有幾個零值,而第3列和第4列顯示幾乎一半的行都為零值。

這充分表明,不同列可能需要不同的策略來處理,例如確保仍有足夠的數據來訓練預測模型。

在Python中,特別是Pandas,NumPy和Scikit-Learn,我們將缺失值標記為NaN。在sum,count等操作中,NaN值的值將被忽略。

我們可以通過使用Pandas DataFrame里的replace()函數,在感興趣的列的子集上 輕鬆地將缺失值標記為NaN 。

在我們標記了缺失值之後,我們可以使用isnull()函數將數據集中的所有NaN值標記為真,並獲取每列缺失值的計數。

在這裡插入圖片描述

運行每列中缺少值的數量,我們可以看到列1:5的列數與之前運行的零值相同。這表示我們已經正確標記了已識別的缺失值。

我們可以看到列1到5具有與上面標識的零值相同數量的缺失值。這是一個跡象,表示我們已經正確標記了已識別的缺失值。

在這裡插入圖片描述

這是一個很有用的總結。我總是喜歡看實際數據,以確認自己沒有弄錯。

以下是相同的例子,只是我們列印前20行的數據。

在這裡插入圖片描述

運行後我們可以清楚地看到列2,3,4和5中的NaN值。列1中只有5個丟失值,所以我們在前20行中沒有看到並不奇怪。

從原始數據可以看出,標記丟失值達到我們期望的效果。

在這裡插入圖片描述

在我們進一步處理缺失值之前,首先來看看數據集中缺失值可能會導致的問題。

3、缺少值導致問題

在數據集中缺少值可能會導致機器學習演算法產生錯誤。

在本節中,我們將嘗試評估帶有缺失值的數據對線性判別分析(LDA)演算法的影響。

當數據集中缺少值時,這種演算法將無效。

下麵的例子標記了數據集中的缺失值,就像我們在上一節中所做的那樣,然後嘗試使用3倍交叉驗證來評估LDA,求平均精度。

在這裡插入圖片描述

運行示例會導致錯誤,如下所示:

在這裡插入圖片描述

正如我們所料。我們無法在有缺失值的數據集上評估LDA和其他一些演算法。

現在,我們來看看處理缺失值的方法。

4、刪除缺失值的行

最簡單的方法就是刪除包含缺失值的行。

我們可以通過創建一個新的Pandas DataFrame,其中缺失值的行已經被刪除。

Pandas提供了dropna ( ) 函數,可用於刪除列或缺少數據的行。我們可以使用dropna ( )來刪除所有缺少數據的行,如下所示:

在這裡插入圖片描述

運行此示例,我們可以看到, 原始數據集中的768行大幅削減到了392行,所有都包含NaN的行都被刪除了。

在這裡插入圖片描述

我們現在有一個數據集,我們可以使用它來評估LDA等對缺失值敏感的演算法。

在這裡插入圖片描述

例子運行成功,並能得到模型的準確性。

在這裡插入圖片描述

刪除缺失值的行可能對不適用與某些預測建模問題,另一種方法則是估算丟失值。

5、估算缺失值

引用(imputing),指使用模型替換缺失值。

在替換缺少的值時可以考慮許多選擇,例如:

• 在域內具有含義的常量值,例如0,不同於其他所有值。

• 來自另一個隨機記錄的值。

• 該列的平均值,中值或模式值。

• 由另一預測模型估計的值。

如果最終模型需要做預測,那麼所有對於訓練數據集進行的imputing都要應用到未來的新數據中。這會影響我們選擇如何估算缺失值。

例如,如果您選擇使用平均列值進行估算,這些平均值的列將需要存儲到文件中,以備將來新數據含有缺失值時使用。

Pandas提供了fillna ( ) 函數來替換具有特定值的缺失值。例如,我們可以使用fillna ( ),平均值來替換每列的缺失值,如下所示:

在這裡插入圖片描述

運行每列中缺少值的計數,顯示缺失值為零。

在這裡插入圖片描述

scikit學習庫提供可用於替換缺失值的Imputer ( ) 預處理類。

這是一個很靈活的類,允許指定要替換的值(可以是NaN以外的)和用於替換它的東西(如平均值,中值或模式)。Imputer類直接在NumPy數組而不是DataFrame上運行。

下麵的示例使用Imputer類平均值替換每列的缺失值,然後得到轉換矩陣中的NaN值的計數。

在這裡插入圖片描述

運行示例顯示所有NaN值成功歸因。

在這裡插入圖片描述

無論哪種情況,我們都可以對缺失值敏感的演算法(如LDA)使用轉化後的數據集進行訓練 。

下麵的例子顯示了在Imputer轉換數據集中訓練LDA演算法

在這裡插入圖片描述

得到轉換數據集上LDA的準確性。

在這裡插入圖片描述

嘗試用其他值替換缺少的值,並查看是否可以提升模型的表現。

也許缺少值在數據中是有意義的。

接下來,我們將使用將缺失值視為另一個值的做法。

在這裡插入圖片描述

6、支持缺失值的演算法

當缺少數據時,並不是所有的演算法都會失效。

有一些可以靈活對待缺失值的演算法,例如k-Nearest Neighbors,當值缺失時,它可以將其不計入距離測量。

另一些演算法,例如分類和回歸樹,可以在構建預測模型時將缺失值看作唯一且不同的值。

遺憾的是,決策樹和k-Nearest Neighbors對於缺失值並不友好。

不管怎樣,如果你考慮使用其他演算法(如xgboost)或開發自己的執行,這依然是一個選擇。

最後

今天給大家分享的如何使用Python處理Missing Data到這裡就結束了,喜歡的小伙伴給個小愛心點點贊,下一章見啦。

在這裡插入圖片描述


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 系統調用 系統調用: 操作系統提供給用戶程式調用的一組“特殊”介面,用戶程式可以通過這組“特殊”介面來獲得操作系統內核提供的服務 為什麼用戶程式不能直接訪問系統內核提供的服務為了更好地保護內核空間,將程式的運行空間分為 內核空間 和 用戶空間(也就是常稱的內核態和用戶態),它們分別運行在不同的級別上 ...
  • 一、概述 Hive是基於Hadoop的一個數據倉庫(Data Aarehouse,簡稱數倉、DW),可以將結構化的數據文件映射為一張資料庫表,並提供類SQL查詢功能。是用於存儲、分析、報告的數據系統。 在Hadoop生態系統中,HDFS用於存儲數據,Yarn用於資源管理,MapReduce用於數據處 ...
  • 後端服務使用的是Asp.net WebApi,至於如果有環境搭建或者怎麼引入上傳控制項這一類的問題,請自行百度,都有手冊多看幾遍。 在此記錄的是核心的一些代碼,沒有給出界面UI,因為重點是給出思路和怎麼用 1.頁面引入nz-upload 1.我們在Angular頁面引入控制項,主要介紹2個重要的屬性,其 ...
  • 總述:在Win7環境下配置umijs框架,在框架中用worker線程方式使用SQL.js的wasm,在瀏覽器端實現數據的增刪改查以及資料庫導出導入。 一、安裝node.js 1、Win7系統只支持node.js v13.14.0或更早,所以從https://nodejs.org/download/r ...
  • 一、簡介 ELK日誌我們一般都是按天存儲,例如索引名為"kafkalog-2022-04-05",因為日誌量所占的存儲是非常大的,我們不能一直保存,而是要定期清理舊的,這裡就以保留7天日誌為例。 自動清理7天以前的日誌可以用定時任務的方式,這樣就需要加入多一個定時任務,可能不同服務記錄的索引名又不一 ...
  • 遇到c++非同步回調函數引用傳遞空指針異常 std::bad_function_call 錯誤的問題分析與解決方案。 發生錯誤“進程已結束,退出代碼-1073741819 (0xC0000005)”。 ...
  • mutex 的實現思想 mutex 主要有兩個 method: Lock() 和 Unlock() Lock() 可以通過一個 CAS 操作來實現 func (m *Mutex) Lock() { for !atomic.CompareAndSwapUint32(&m.locked, 0, 1) { ...
  • MybatisPlus 1.簡介 官網:https://baomidou.com/pages/24112f/#%E7%89%B9%E6%80%A7 特性 無侵入:只做增強不做改變,引入它不會對現有工程產生影響,如絲般順滑 損耗小:啟動即會自動註入基本 CURD,性能基本無損耗,直接面向對象操作 強大 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...