【pandas小技巧】--字元串轉數值

-Advertisement-

字元串轉數字的用途和場景很多，其中主要包括以下幾個方面： 1. 數據清洗：在進行數據處理時，經常會遇到一些數據類型不匹配的問題，比如某些列中的字元串類型被誤認為是數字類型，此時需要將這些字元串類型轉換為數字類型，才能進行後續的數值計算或統計分析。 2. 數據整理：有時候輸入的原始數據可能存在格式問題 ...

字元串轉數字的用途和場景很多，其中主要包括以下幾個方面：

數據清洗：在進行數據處理時，經常會遇到一些數據類型不匹配的問題，比如某些列中的字元串類型被誤認為是數字類型，此時需要將這些字元串類型轉換為數字類型，才能進行後續的數值計算或統計分析。
數據整理：有時候輸入的原始數據可能存在格式問題，例如有些數值前面帶有美元符號或者其他符號，這些符號會幹擾後續的計算，因此需要將它們去掉並轉換為數字類型。
數據可視化：在進行數據可視化時，需要將含有數字信息的字元串轉換成數字類型，以便於更好地展示數據、製作圖表。
機器學習：在機器學習領域中，經常需要將文本或其他非數字類型的特征轉換為數字型特征，從而應用各種基於數值型特征的演算法模型。

本篇介紹一些常用的字元串轉數值的方法。

1. 一般情況

一般情況下，只需要通過 astype 函數就可以改變列的數據類型。

import pandas as pd

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "3.3"],
})

df.dtypes
df.C = df.C.astype("float64")
df.dtypes

上面的示例把C列有字元串類型轉換成了浮點數類型。

2. 異常值情況

上面的示例中，C列中每個字元串都可以正常轉換成浮點數，所以用astype函數就可以了。
不過，大部分情況下，待轉換的列中會存在無法正常轉換的異常值。
直接轉換會報錯：

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "xxx"],
})

df.dtypes
df.C = df.C.astype("float64")
df

這時，可以用 to_numeric 函數，此函數的 errors 參數有3個可選值：

ignore：出現錯誤時忽略錯誤，但是正常的值也不轉換
raise：拋出錯誤，和astype函數一樣
coerce：無法轉換的值作為NaN，可轉換的值正常轉換

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "xxx"],
})

df
df.C = pd.to_numeric(df.C, errors="coerce")
df

C列正常轉換為float64，無法轉換的值變成NaN。

如果不希望用NaN來填充異常的值，可以再用 fillna 填充自己需要的值。

df.C = pd.to_numeric(
    df.C, errors="coerce"
).fillna(0.0)
df

3. 全局轉換

如果需要轉換成數值類型的列比較多，用上面的方法一個列一個列的轉換效率不高。
可以用apply方法配合 to_numeric 一次轉換所有的列。

df = pd.DataFrame({
    "A": [1,2,3],
    "B": [1.1,2.2, 3.3],
    "C":["1.2", "2.3", "xxx"],
    "D":["10", "4.6", "yyy"],
})

df
df = df.apply(
    pd.to_numeric, errors="coerce"
)
df

同樣，apply也可以通過fillna填充缺失值NaN。

df = df.apply(
    pd.to_numeric, errors="coerce"
).fillna(0.0)
df

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

python帶參數裝飾器的兩種寫法

Go語言的泛型是在Go 1.18版本中引入的一個新特性，它允許開發者編寫可以處理不同數據類型的代碼，而無需為每種數據類型都編寫重覆的代碼。以下是關於Go語言泛型的一些關鍵點： 1. 泛型是通過在函數或類型定義中使用類型參數來實現的。類型參數可以被看作是一個特殊的類型，它可以在函數或類型定義中的任何位 ...
1.0 Python 標準輸入與輸出

python 是一種高級、面向對象、通用的編程語言，由`Guido van Rossum`發明，於1991年首次發佈。python 的設計哲學強調代碼的可讀性和簡潔性，同時也非常適合於大型項目的開發。python 語言被廣泛用於Web開發、科學計算、人工智慧、自動化測試、游戲開發等各個領域，並且擁有... ...
hibernate入門

Hibernate 是一個開源的 ORM（對象關係映射）框架，它可以將 Java 對象與資料庫表進行映射，從而實現面向對象的數據持久化。使用 Hibernate，可以避免手動編寫 SQL 語句，從而提高開發效率，並且可以輕鬆地切換不同的資料庫。 ## 基礎概念 entity 實體類是映射到資料庫表中 ...
用PHP封裝一個強大且通用的cURL方法

用PHP封裝一個強大且通用的cURL方法。用PHP封裝一個強大且通用的cURL方法。用PHP封裝一個強大且通用的cURL方法。用PHP封裝一個強大且通用的cURL方法。 ```php /** * @function 強大且通用的cURL請求庫 * @param $url string 路徑如 ...
spring多數據源動態切換的實現原理及讀寫分離的應用

AbstractRoutingDataSource是Spring框架中的一個抽象類，可以實現多數據源的動態切換和路由，以滿足複雜的業務需求和提高系統的性能、可擴展性、靈活性。 ...
nlp入門（三）基於貝葉斯演算法的拼寫錯誤檢測器

源碼請到：自然語言處理練習: 學習自然語言處理時候寫的一些代碼 (gitee.com) 數據來源：norvig.com/big.txt 貝葉斯原理可看這裡：機器學習演算法學習筆記 - 過客匆匆，沉沉浮浮 - 博客園 (cnblogs.com) 一、數據預處理將輸入的數據全部變為小寫方便後續處理 de ...
Java 中的 7 種重試機制，還有誰不會？！

隨著互聯網的發展項目中的業務功能越來越複雜，有一些基礎服務我們不可避免的會去調用一些第三方的介面或者公司內其他項目中提供的服務，但是遠程服務的健壯性和網路穩定性都是不可控因素。在測試階段可能沒有什麼異常情況，但上線後可能會出現調用的介面因為內部錯誤或者網路波動而出錯或返回系統異常，因此我們必須考慮 ...
springboot~mybatis中使用selectKey獲取自增主鍵

在mybatis中，我們在insert操作之後，可以獲取到自增主鍵的值，這個需要我們用到 INSERT INTO lawyer_id_offset (kgid) VALUES (#{kgid}) ``` # java中調用它 > 註意，這裡有個坑，獲取自增主鍵，不是獲取mapper的返回值，而是從當 ...