【pandas小技巧】--字元串轉數值

来源:https://www.cnblogs.com/wang_yb/archive/2023/08/09/17615950.html
-Advertisement-
Play Games

字元串轉數字的用途和場景很多,其中主要包括以下幾個方面: 1. 數據清洗:在進行數據處理時,經常會遇到一些數據類型不匹配的問題,比如某些列中的字元串類型被誤認為是數字類型,此時需要將這些字元串類型轉換為數字類型,才能進行後續的數值計算或統計分析。 2. 數據整理:有時候輸入的原始數據可能存在格式問題 ...


字元串轉數字的用途和場景很多,其中主要包括以下幾個方面:

  1. 數據清洗:在進行數據處理時,經常會遇到一些數據類型不匹配的問題,比如某些列中的字元串類型被誤認為是數字類型,此時需要將這些字元串類型轉換為數字類型,才能進行後續的數值計算或統計分析。
  2. 數據整理:有時候輸入的原始數據可能存在格式問題,例如有些數值前面帶有美元符號或者其他符號,這些符號會幹擾後續的計算,因此需要將它們去掉並轉換為數字類型。
  3. 數據可視化:在進行數據可視化時,需要將含有數字信息的字元串轉換成數字類型,以便於更好地展示數據、製作圖表。
  4. 機器學習:在機器學習領域中,經常需要將文本或其他非數字類型的特征轉換為數字型特征,從而應用各種基於數值型特征的演算法模型。

本篇介紹一些常用的字元串轉數值的方法。

1. 一般情況

一般情況下,只需要通過 astype 函數就可以改變列的數據類型。

import pandas as pd

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "3.3"],
})

df.dtypes
df.C = df.C.astype("float64")
df.dtypes

image.png
上面的示例把C列有字元串類型轉換成了浮點數類型。

2. 異常值情況

上面的示例中,C列中每個字元串都可以正常轉換成浮點數,所以用astype函數就可以了。
不過,大部分情況下,待轉換的列中會存在無法正常轉換的異常值。
直接轉換會報錯:

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "xxx"],
})

df.dtypes
df.C = df.C.astype("float64")
df

image.png

這時,可以用 to_numeric 函數,此函數的 errors 參數有3個可選值:

  1. ignore:出現錯誤時忽略錯誤,但是正常的值也不轉換
  2. raise:拋出錯誤,和astype函數一樣
  3. coerce:無法轉換的值作為NaN,可轉換的值正常轉換
df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "xxx"],
})

df
df.C = pd.to_numeric(df.C, errors="coerce")
df

image.png
C列正常轉換為float64,無法轉換的值變成NaN

如果不希望用NaN來填充異常的值,可以再用 fillna 填充自己需要的值。

df.C = pd.to_numeric(
    df.C, errors="coerce"
).fillna(0.0)
df

image.png

3. 全局轉換

如果需要轉換成數值類型的列比較多,用上面的方法一個列一個列的轉換效率不高。
可以用apply方法配合 to_numeric 一次轉換所有的列。

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "xxx"],
    "D":["10", "4.6", "yyy"],
})

df
df = df.apply(
    pd.to_numeric, errors="coerce"
)
df

image.png
同樣,apply也可以通過fillna填充缺失值NaN

df = df.apply(
    pd.to_numeric, errors="coerce"
).fillna(0.0)
df

image.png


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Go語言的泛型是在Go 1.18版本中引入的一個新特性,它允許開發者編寫可以處理不同數據類型的代碼,而無需為每種數據類型都編寫重覆的代碼。以下是關於Go語言泛型的一些關鍵點: 1. 泛型是通過在函數或類型定義中使用類型參數來實現的。類型參數可以被看作是一個特殊的類型,它可以在函數或類型定義中的任何位 ...
  • python 是一種高級、面向對象、通用的編程語言,由`Guido van Rossum`發明,於1991年首次發佈。python 的設計哲學強調代碼的可讀性和簡潔性,同時也非常適合於大型項目的開發。python 語言被廣泛用於Web開發、科學計算、人工智慧、自動化測試、游戲開發等各個領域,並且擁有... ...
  • Hibernate 是一個開源的 ORM(對象關係映射)框架,它可以將 Java 對象與資料庫表進行映射,從而實現面向對象的數據持久化。使用 Hibernate,可以避免手動編寫 SQL 語句,從而提高開發效率,並且可以輕鬆地切換不同的資料庫。 ## 基礎概念 entity 實體類是映射到資料庫表中 ...
  • 用PHP封裝一個強大且通用的cURL方法。 用PHP封裝一個強大且通用的cURL方法。 用PHP封裝一個強大且通用的cURL方法。 用PHP封裝一個強大且通用的cURL方法。 ```php /** * @function 強大且通用的cURL請求庫 * @param $url string 路徑 如 ...
  • AbstractRoutingDataSource是Spring框架中的一個抽象類,可以實現多數據源的動態切換和路由,以滿足複雜的業務需求和提高系統的性能、可擴展性、靈活性。 ...
  • 源碼請到:自然語言處理練習: 學習自然語言處理時候寫的一些代碼 (gitee.com) 數據來源:norvig.com/big.txt 貝葉斯原理可看這裡:機器學習演算法學習筆記 - 過客匆匆,沉沉浮浮 - 博客園 (cnblogs.com) 一、數據預處理 將輸入的數據全部變為小寫方便後續處理 de ...
  • 隨著互聯網的發展項目中的業務功能越來越複雜,有一些基礎服務我們不可避免的會去調用一些第三方的介面或者公司內其他項目中提供的服務,但是遠程服務的健壯性和網路穩定性都是不可控因素。 在測試階段可能沒有什麼異常情況,但上線後可能會出現調用的介面因為內部錯誤或者網路波動而出錯或返回系統異常,因此我們必須考慮 ...
  • 在mybatis中,我們在insert操作之後,可以獲取到自增主鍵的值,這個需要我們用到 INSERT INTO lawyer_id_offset (kgid) VALUES (#{kgid}) ``` # java中調用它 > 註意,這裡有個坑,獲取自增主鍵,不是獲取mapper的返回值,而是從當 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...