[數據清洗]- Pandas 清洗“臟”數據（三）

-Advertisement-

預覽數據這次我們使用 Artworks.csv ，我們選取 100 行數據來完成本次內容。具體步驟： DataFrame 是 Pandas 內置的數據展示的結構，展示速度很快，通過 DataFrame 我們就可以快速的預覽和分析數據。代碼如下：統計日期數據我們仔細觀察一下 Date 列的數據， ...

預覽數據

這次我們使用 Artworks.csv ，我們選取 100 行數據來完成本次內容。具體步驟：

導入 Pandas
讀取 csv 數據到 DataFrame（要確保數據已經下載到指定路徑）

DataFrame 是 Pandas 內置的數據展示的結構，展示速度很快，通過 DataFrame 我們就可以快速的預覽和分析數據。代碼如下：

import pandas as pd



df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)

統計日期數據

我們仔細觀察一下 Date 列的數據，有一些數據是年的範圍（1976-1977），而不是單獨的一個年份。在我們使用年份數據畫圖時，就不能像單獨的年份那樣輕易的畫出來。我們現在就使用 Pandas 的 value_counts() 來統計一下每種數據的數量。

首先，選擇要統計的列，並調用 value_counts():

df['Date'].value_counts()

日期數據問題

Date 列數據，除了年份是範圍外，還有三種非正常格式。下麵我們將這幾種列出來：

問題一，時間範圍（1976-77）
問題二，估計（c. 1917，1917 年前後）
問題三，缺失數據（Unknown）
問題四，無意義數據（n.d.）

接下來我們會處理上面的每一個問題，使用 Pandas 將這些不規則的數據轉換為統一格式的數據。

問題一和二是有數據的只是格式上欠妥當，問題三和四實際上不是有效數據。針對前兩個問題，我們可以通過代碼將據格式化來達到清洗的目的，然而，後兩個問題，代碼上只能將其作為缺失值來處理。簡單起見，我們將問題三和四的數據處理為0。

處理問題一

問題一的數據都是兩個年時間範圍，我們選擇其中的一個年份作為清洗之後的數據。為了簡單起見，我們就使用開始的時間來替換這樣問題的數據，因為這個時間是一個四位數的數字，如果要使用結束的年份，我們還要補齊前兩位的數字。

首先，我們需要找到問題一的數據，這樣我們才能將其更新。要保證其他的數據不被更新，因為其他的數據有可能是已經格式化好的，也有可能是我們下麵要處理的。

我們要處理的時間範圍的數據，其中包含有“-”，這樣我們就可以通過這個特殊的字元串來過濾我們要處理的數據，然後，通過 split() 利用“-”將數據分割，將結果的第一部分作為處理的最終結果。

代碼如下

row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()

處理問題二

問題二的數據體現了數據本身的不准確性，是一個估計的年份時間，我們將其轉換為年份，那麼，就只要保留最後四位數字即可，該數據的特點就是數據包含“c”，這樣我們就可以通過這一特征將需要轉換的數據過濾出來。

row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df[row_with_cs]

處理問題三四

將這問題三四的數據賦值成初始值 0。

df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date']

代碼整合

mport pandas as pd



df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)



df['Date'].value_counts()



row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()



row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df['Date'].value_counts()



df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date'].value_counts()

更多關於數據清洗的內容可以關註知乎上的專欄“數據清洗”

知乎數據清洗- Pandas 清洗“臟”數據（三）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JavaScript 記憶體相關知識

一、記憶體基本概念 1.1、生命周期不管什麼程式語言，記憶體生命周期基本是一致的：分配你所需要的記憶體 var n = 123; // 給數值變數分配記憶體 var s = "azerty"; // 給字元串分配記憶體 var o = { a: 1, b: null }; // 給對象及其包含的值分配記憶體 ...
JavaScript模塊化編程之AMD - requireJS基礎使用

AMD是"Asynchronous Module Definition"的縮寫，意思就是"非同步模塊定義"。它採用非同步方式載入模塊，模塊的載入不影響它後面語句的運行。所有依賴這個模塊的語句，都定義在一個回調函數中，等到載入完成之後，這個回調函數才會運行。 ...
ajaxJson（常用）

ajaxJson('POST', url, JSON.stringify(param), function(err, result){ //result or rsp // if(SUCCESS){ //....... }else{ //....... } }); ————————————————— ...
《PHP擴展及核心》

本文地址：http://www.cnblogs.com/aiweixiao/p/8202365.html 原文地址：歡迎關註微信公眾號程式員的文娛情懷一、主要內容： 1️⃣php擴展的概念和底層實現 2️⃣編寫一個php擴展的步驟 3️⃣php底層，Zend 引擎API的介紹，HashTab ...
java 快速開發平臺有代碼生成器 springmvc SSM後臺框架源碼

A代碼編輯器，線上模版編輯，仿開發工具編輯器，pdf線上預覽，文件轉換編碼B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表，快速開發利器)+快速表單構建器freemaker模版技術，0個代碼不用寫，生成完整的一個模塊，帶頁面、建表sql腳本，處理類，service等完整模塊C 集成阿裡 ...
Jenkins~powershell+cmd發佈nuget包包

nuget包也要自動化部署了，想想確實挺好，在實施過程中我們要解決的問題有版本自動控制，nuget自動打包，nuget自動上傳到服務端等。一參數化構建二環境變數的k/v參數，存儲類庫的初始版本，當根目錄version.txt生成後，這個k/v就不需要了三這個構建跳轉到哪台節點伺服器四 ...
架構師寫的軟體指南

架構師寫的軟體指南《程式員必讀之軟體架構》筆記語境意圖這個軟體項目/產品/系統是關於什麼的？構建的是什麼？它如何融入現有環境？誰在使用？功能性概覽意圖系統實際上做什麼？哪些特性、功能、用例、用戶故事是重要的？原因？重要用戶是誰？系統如何滿足他們的需求？上述已經用於塑造和 ...
fastdfs集群

高可用的兩大目的：數據備份，數據分片 1、FastDFS安裝配置先配置一臺，將其中的配置文件打包，下載，然後配置其他機器時只需要解壓即可，打包命令然後下載，上傳到其他機器相對應的/etc目錄下將其他機器中的fdfs文件夾刪除解壓上傳文件 2、伺服器列表伺服器IP 組角色 192.16 ...