[數據清洗]- Pandas 清洗“臟”數據(三)

来源:https://www.cnblogs.com/BoyceYang/archive/2018/01/05/8202366.html
-Advertisement-
Play Games

預覽數據 這次我們使用 Artworks.csv ,我們選取 100 行數據來完成本次內容。具體步驟: DataFrame 是 Pandas 內置的數據展示的結構,展示速度很快,通過 DataFrame 我們就可以快速的預覽和分析數據。代碼如下: 統計日期數據 我們仔細觀察一下 Date 列的數據, ...


預覽數據

這次我們使用 Artworks.csv ,我們選取 100 行數據來完成本次內容。具體步驟:

  1. 導入 Pandas
  2. 讀取 csv 數據到 DataFrame(要確保數據已經下載到指定路徑)

DataFrame 是 Pandas 內置的數據展示的結構,展示速度很快,通過 DataFrame 我們就可以快速的預覽和分析數據。代碼如下:

import pandas as pd

​

df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)

 

 

統計日期數據

我們仔細觀察一下 Date 列的數據,有一些數據是年的範圍(1976-1977),而不是單獨的一個年份。在我們使用年份數據畫圖時,就不能像單獨的年份那樣輕易的畫出來。我們現在就使用 Pandas 的 value_counts() 來統計一下每種數據的數量。

首先,選擇要統計的列,並調用 value_counts():

df['Date'].value_counts()

 

 

 

日期數據問題

Date 列數據,除了年份是範圍外,還有三種非正常格式。下麵我們將這幾種列出來:

  • 問題一,時間範圍(1976-77)
  • 問題二,估計(c. 1917,1917 年前後)
  • 問題三,缺失數據(Unknown)
  • 問題四,無意義數據(n.d.)

接下來我們會處理上面的每一個問題,使用 Pandas 將這些不規則的數據轉換為統一格式的數據。

問題一和二是有數據的只是格式上欠妥當,問題三和四實際上不是有效數據。針對前兩個問題,我們可以通過代碼將據格式化來達到清洗的目的,然而,後兩個問題,代碼上只能將其作為缺失值來處理。簡單起見,我們將問題三和四的數據處理為0。

 

處理問題一

問題一的數據都是兩個年時間範圍,我們選擇其中的一個年份作為清洗之後的數據。為了簡單起見,我們就使用開始的時間來替換這樣問題的數據,因為這個時間是一個四位數的數字,如果要使用結束的年份,我們還要補齊前兩位的數字。

首先,我們需要找到問題一的數據,這樣我們才能將其更新。要保證其他的數據不被更新,因為其他的數據有可能是已經格式化好的,也有可能是我們下麵要處理的。

我們要處理的時間範圍的數據,其中包含有“-”,這樣我們就可以通過這個特殊的字元串來過濾我們要處理的數據,然後,通過 split() 利用“-”將數據分割,將結果的第一部分作為處理的最終結果。

代碼如下

row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()

 

 

處理問題二

問題二的數據體現了數據本身的不准確性,是一個估計的年份時間,我們將其轉換為年份,那麼,就只要保留最後四位數字即可,該數據的特點就是數據包含“c”,這樣我們就可以通過這一特征將需要轉換的數據過濾出來。

row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df[row_with_cs]

 

 

處理問題三四

將這問題三四的數據賦值成初始值 0。

df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date']

 

 

代碼整合

mport pandas as pd

​

df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)

​

df['Date'].value_counts()

​

row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()

​

row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df['Date'].value_counts()

​

df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date'].value_counts()

 

更多關於數據清洗的內容可以關註知乎上的專欄“數據清洗

知乎 數據清洗- Pandas 清洗“臟”數據(三)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、記憶體基本概念 1.1、生命周期 不管什麼程式語言,記憶體生命周期基本是一致的: 分配你所需要的記憶體 var n = 123; // 給數值變數分配記憶體 var s = "azerty"; // 給字元串分配記憶體 var o = { a: 1, b: null }; // 給對象及其包含的值分配記憶體 ...
  • AMD是"Asynchronous Module Definition"的縮寫,意思就是"非同步模塊定義"。它採用非同步方式載入模塊,模塊的載入不影響它後面語句的運行。所有依賴這個模塊的語句,都定義在一個回調函數中,等到載入完成之後,這個回調函數才會運行。 ...
  • ajaxJson('POST', url, JSON.stringify(param), function(err, result){ //result or rsp // if(SUCCESS){ //....... }else{ //....... } }); ————————————————— ...
  • 本文地址:http://www.cnblogs.com/aiweixiao/p/8202365.html 原文地址: 歡迎關註微信公眾號 程式員的文娛情懷 一、主要內容: 1️⃣php擴展的概念和底層實現 2️⃣編寫一個php擴展的步驟 3️⃣php底層,Zend 引擎API的介紹 ,HashTab ...
  • A代碼編輯器,線上模版編輯,仿開發工具編輯器,pdf線上預覽,文件轉換編碼B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表,快速開發利器)+快速表單構建器freemaker模版技術 ,0個代碼不用寫,生成完整的一個模塊,帶頁面、建表sql腳本,處理類,service等完整模塊C 集成阿裡 ...
  • nuget包也要自動化部署了,想想確實挺好,在實施過程中我們要解決的問題有版本自動控制,nuget自動打包,nuget自動上傳到服務端等。 一 參數化構建 二 環境變數的k/v參數,存儲類庫的初始版本,當根目錄version.txt生成後,這個k/v就不需要了 三 這個構建跳轉到哪台節點伺服器 四 ...
  • 架構師寫的軟體指南 《 程式員必讀之軟體架構 》筆記 語境 意圖 這個軟體項目/產品/系統是關於什麼的? 構建的是什麼? 它如何融入現有環境? 誰在使用? 功能性概覽 意圖 系統實際上做什麼? 哪些特性、功能、用例、用戶故事是重要的?原因? 重要用戶是誰?系統如何滿足他們的需求? 上述已經用於塑造和 ...
  • 高可用的兩大目的:數據備份,數據分片 1、FastDFS安裝配置 先配置一臺,將其中的配置文件打包,下載,然後配置其他機器時只需要解壓即可, 打包命令 然後下載,上傳到其他機器相對應的/etc目錄下 將其他機器中的fdfs文件夾刪除 解壓上傳文件 2、 伺服器列表 伺服器IP 組 角色 192.16 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...