[數據清洗]-Pandas 清洗“臟”數據(一)

来源:https://www.cnblogs.com/BoyceYang/archive/2018/01/03/8182053.html
-Advertisement-
Play Games

概要 概要 準備工作 檢查數據 處理缺失數據 添加預設值 刪除不完整的行 刪除不完整的列 規範化數據類型 必要的轉換 重命名列名 保存結果 更多資源 準備工作 檢查數據 處理缺失數據 添加預設值 刪除不完整的行 刪除不完整的列 規範化數據類型 必要的轉換 重命名列名 保存結果 更多資源 Pandas ...


概要
  • 準備工作
  • 檢查數據
  • 處理缺失數據
  • 添加預設值
  • 刪除不完整的行
  • 刪除不完整的列
  • 規範化數據類型
  • 必要的轉換
  • 重命名列名
  • 保存結果
  • 更多資源

Pandas 是 Python 中很流行的類庫,使用它可以進行數據科學計算和數據分。他可以聯合其他數據科學計算工具一塊兒使用,比如,SciPy,NumPy 和 Matplotlib,建模工程師可以通過創建端到端的分析工作流來解決業務問題。

雖然我們可以 Python 和數據分析做很多強大的事情,但是我們的分析結果的好壞依賴於數據的好壞。很多數據集存在數據缺失,或數據格式不統一(畸形數據),或錯誤數據的情況。不管是不完善的報表,還是技術處理數據的失當都會不可避免的引起“臟”數據。

慶幸的是,Pandas 提供功能強大的類庫,不管數據處於什麼狀態,他可以幫助我們通過清洗數據,排序數據,最後得到清晰明瞭的數據。對於案例的數據,準備使用 movie_metadata.csv(鏈接:https://pan.baidu.com/s/1i5zUvOD 密碼:a4t9)。這個數據集包含了很多信息,演員、導演、預算、總輸入,以及 IMDB 評分和上映時間。實際上,可以使用上百萬或者更大的資料庫,但是,案例數據集對於開始入門還是很好的。

不幸的是,有一些列的值是缺失的,有些列的預設值是0,有的是 NaN(Not a Number)。

下麵我們通過使用 Pandas 提供的功能來清洗“臟”數據。

準備工作

首先,第一次使用 Pandas 之前,我們需要安裝 Pandas。安裝命令如下:

pip install pandas

 

接下來,導入 Pandas 到我們的代碼中,代碼如下:

#可以使用其他的別名, 但是,pd 是官方推薦的別名,也是大家習慣的別名
import pandas as pd

 

最後,載入數據集,代碼如下:

data = pd.read_csv('../data/tmdb_5000_credits.csv')

 

註意,確保已經下載數據集,如果你的代碼和數據集的存放結構與我的一樣,直接運行就可以

否則,要根據實際的情況,修改 read_csv() 的文件路徑

 

檢查數據

檢查一下我們剛剛讀入數據的基本結構,Pandas 提供了 head() 方法列印輸出前五行數據。目的是讓我們對讀入的數據有一個大致的瞭解。

data.head()

我們可以通過上面介紹的 Pandas 的方法查看數據,也可以通過傳統的 Excel 程式查看數據,這個時候,我們可以開始記錄數據上的問題,然後,我們再想辦法解決問題。

Pandas 提供了一些選擇的方法,這些選擇的方法可以把數據切片,也可以把數據切塊。下麵我們簡單介紹一下:

  • 查看一列的一些基本統計信息:data.columnname.describe()
  • 選擇一列:data['columnname']
  • 選擇一列的前幾行數據:data['columnsname'][:n]
  • 選擇多列:data[['column1','column2']]
  • Where 條件過濾:data[data['columnname'] > condition]


處理缺失數據

缺失數據是最常見的問題之一。產生這個問題可能的原因

  • 從來沒有填正確過
  • 數據不可用
  • 計算錯誤

無論什麼原因,只要有空白值得存在,就會引起後續的數據分析的錯誤。下麵介紹幾個處理缺失數據的方法:

  • 為缺失數據賦值預設值
  • 去掉/刪除缺失數據行
  • 去掉/刪除缺失率高的列

添加預設值

我們應該去掉那些不友好的 NaN 值。但是,我們應該用什麼值替換呢?在這裡,我們就應該稍微掌握一下數據。對於我們的例子,我們檢查一下“country”列。這一列非常簡單,然而有一些電影沒有提供地區,所以有些數據的值是 NaN。在我們的案例中,我們推斷地區並不是很重要,所以,我們可是使用“”空字元串或其他預設值。

data.country= data.country.fillna('')

 

上面,我們就將“country”整個列使用“”空字元串替換了,或者,我們也可以輕易地使用“None Given”這樣的預設值進行替換。如果想瞭解更多 fillna() 的詳細信息參考 pandas.DataFrame.fillna


使用數字類型的數據,比如,電影的時長,計算像電影平均時長可以幫我們甚至是數據集。這並不是最優解,但這個持續時間是根據其他數據估算出來的。這樣的方式下,就不會因為像 0 或者 NaN這樣的值在我們分析的時候而拋錯。

data.duration = data.duration.fillna(data.duration.mean())

 

刪除不完整的行

假設我們想刪除任何有缺失值得行。這種操作太據侵略性,但是我們可以根據我們的需要進行擴展。

刪除任何包含 NA 值的行是很容的:

data.dropna()

 

當然,我們也可以刪除一整行的值都為 NA:

data.dropna(how='all')

 

我們也可以增加一些限制,在一行中有多少非空值的數據是可以保留下來的(在下麵的例子中,行數據中至少要有 5 個非空值)

data.drop(thresh=5)

 

比如說,我們不想要不知道電影上映時間的數據:

data.dropna(subset=['title_year'])

 

上面的 subset 參數允許我們選擇想要檢查的列。如果是多個列,可以使用列名的 list 作為參數。


刪除不完整的列

我們可以上面的操作應用到列上。我們僅僅需要在代碼上使用 axis=1 參數。這個意思就是操作列而不是行。(我們已經在行的例子中使用了 axis=0,因為如果我們不傳參數 axis,預設是axis=0。)

刪除一正列為 NA 的列:

data.drop(axis=1, how='all')

刪除任何包含空值的列:

data.drop(axis=1. how='any')

這裡也可以使用像上面一樣的 threshold 和 subset,更多的詳情和案例,請參考pandas.DataFrame.dropna


規範化數據類型

有的時候,尤其當我們讀取 csv 中一串數字的時候,有的時候數值類型的數字被讀成字元串的數字,或將字元串的數字讀成數據值類型的數字。Pandas 還是提供了規範化我們數據類型的方式:

data = pd.read_csv('../data/moive_metadata.csv', dtype={'duration': int})

這就是告訴 Pandas ‘duration’列的類型是數值類型。同樣的,如果想把上映年讀成字元串而不是數值類型,我們使用和上面類似的方法:

data = pd.read_csv('./data/moive_metadata.csv', dtype={'title_year':str})

註意,需要記住的是,再次從磁碟上讀取 csv ,確保規範化了我們的數據類型,或者在讀取之前已經保存了中間結果。

 

必要的變換

人工錄入的數據可能都需要進行一些必要的變換。

  • 錯別字
  • 英文單詞時大小寫的不統一
  • 輸入了額外的空格

將我們數據中所有的 movie_title 改成大寫:

data['movie_title'].str.upper()

同樣的,幹掉末尾空格:

data['movie_title'].str.strip()

這裡並沒有介紹關於英文的拼寫錯誤的問題,可以參考模糊匹配

 

重命名列名

最終的數據可能是有電腦生成的,那麼,列名有可能也是電腦按照一定計算規律生成的。這些列名對電腦沒有什麼,但是對於人來說可能就不夠友好,這時候,我們就需要重命名成對人友好的列名,代碼如下:

data,rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

像上面這樣,我們就完成了兩個列的重命名。需要註意的是,這個方法並沒有提供 inpalce 參數,我們需要將結果賦值給自己才可以:

data = data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})


保存結果

我們完成數據清洗之後,一般會把結果再以 csv 的格式保存下來,以便後續其他程式的處理。同樣,Pandas 提供了非常易用的方法:

data.to_csv(‘cleanfile.csv’ encoding=’utf-8’)


更多資源

這次介紹僅僅是冰山一角。有很多方式可能造成數據集變“臟”或被破壞:

  • 用戶環境的不同、
  • 所使用語言的差異
  • 用戶輸入的差別

在這裡,我介紹了 Python 用 Pandas 清洗數據最一般的方式。

更多關於數據清洗的內容可以關註知乎上的專欄“數據清洗

 知乎數據清洗- Pandas 清洗“臟”數據(一)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在js引擎部分,我們可以瞭解到,當渲染引擎解析到script標簽時,會將控制權給JS引擎,如果script載入的是外部資源,則需要等待下載完後才能執行。 所以,在這裡,我們可以對其進行很多優化工作。 放置在BODY底部 為了讓渲染引擎能夠及早的將DOM樹給渲染出來,我們需要將script放在body ...
  • ES6提供了新的數據結構Set,它類似於數組,但是成員的值都是唯一的,沒有重覆的值。 Set 本身是一個數據結構,用來生成Set 數據結構。 const s = new Set(); [2,3,5,4,5,2,2,2].forEach(x=>s.add(x)); for(let i of s) { ...
  • 問題1: 範圍(Scope) 思考以下代碼: 控制台會列印出什麼? 答案 上述代碼會列印出5。 (1)在立即執行函數表達式(IIFE)中,有兩個命名,但是其中變數是通過關鍵詞var來聲明的。這就意味著a是這個函數的局部變數。與此相反,b是在全局作用域下的。 (2)在函數中他沒有使用_“嚴格模式”_ ...
  • 錯誤碼: This dependency was not found: * !!vue-style-loader!css-loader?{"minimize":false,"sourceMap":false}!../../node_modules/vue-loader/lib/style-rewri ...
  • 7.1 模塊的概念 把原本實現在一起的功能離散地分散到每個能實現部分功能的塊,這些塊稱為模塊。模塊具有以下幾個好處: 1 程式小,易理解,易調試測試 2 有助於抽象編程設計和複雜程式的封裝 3 內聚性強,耦合性弱 7.2 模塊的引用方法 1.基於ES2015的語法是:import 語句 2 基於Co ...
  • 初看runtime源碼,如入迷宮,小模塊間跳來跳去,我是誰,我在哪,我為什麼要打開它;再看runtime,眉目初現,繪出調用棧,如坐時光機,骨架漸漸明晰。再再看,炳如觀火,代碼層次結構已瞭然於胸。Vue 運行時模塊主要是圍繞 Vue 實例的生命周期展開的,它涵蓋了 Vue 實例生命周期內所需要的全部... ...
  • JQ 實現左右兩側菜單添加、移除 效果圖: JS代碼 html代碼 ...
  • 先不管模式, 把他和他的名字都忘了, 來看看問題 和 設計思路. 為啥要這麼做. 有一家店鋪, 裡面有一個售貨員, 售貨員當然是要賣東西的啦, 客戶進來買完東西, 找售貨員結賬, 那售貨員得知道一共多少錢吧? 一. 初步設計 商品類: 由於價格我使用的是 Long 類型, 所以, 要有一個轉換輸出的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...