Python之所以能夠成為流行的數據分析語言,有一部分原因在於其簡潔易用的字元串處理能力。 Python的字元串對象封裝了很多開箱即用的內置方法,處理單個字元串時十分方便;對於Excel、csv等表格文件中整列的批量字元串操作,pandas庫也提供了簡潔高效的處理函數,幾乎與內置字元串函數一一對應。 ...
Python之所以能夠成為流行的數據分析語言,有一部分原因在於其簡潔易用的字元串處理能力。
Python的字元串對象封裝了很多開箱即用的內置方法,處理單個字元串時十分方便;對於Excel、csv等表格文件中整列的批量字元串操作,pandas庫也提供了簡潔高效的處理函數,幾乎與內置字元串函數一一對應。也就是說:
-
單個字元串處理,用Python內置的字元串方法;
-
表格整列的字元串處理,用pandas庫中的字元串函數;
本文就以常用的數據處理需求,來對比使用以上兩種方式的異同,從而加深對Python
和pandas
字元串操作的理解。(本文所有數據都是為了演示用的假數據,切勿當真!)
)
一、替換(去除空格)
場景:在問卷收集的姓名欄位中,不少填寫者會誤輸入空格,造成數據匹配不一致的問題。
Python
names = '劉 備、關 羽、 張 飛、趙 雲、馬 超、黃 忠'
names = names.replace(' ','')
print(names)
output
劉備、關羽、張飛、趙雲、馬超、黃忠
pandas
df['姓名'] = df['姓名'].str.replace(' ','')
output
二、分列
場景:在問卷收集數據的時候,多選題的數據往往是帶有分隔符的。在分類彙總前往往需要按分隔符進行分列。
Python
hobbyStr = "足球┋排球┋羽毛球┋籃球"
hobbyList = hobbyStr.split('┋')
output
['足球', '排球', '羽毛球', '籃球']
pandas
# 利用split進行分列,expand = True 返回dataframe;expand=False返回Series
hobbyDf = df['愛好'].str.split('|', expand=True)
# 將hobbyDf 與 df安裝索引合併
df2 = pd.merge(df, hobbyDf, how="left", left_index=True, right_index=True)
三、切片:截取數據
字元串是由一個個字元組成的序列,在Python中可以直接對字元串進行切片操作,來進行截取數據。
如“XX市四季家園二區22幢203室”,可以看作是下圖中16個字元值組成的序列。而切片的語法是:
Python
addressStr = "XX市四季家園二區22幢203室"
print(f"城市:{addressStr[:3]}")
print(f"小區:{addressStr[3:9]}")
output
城市:XX市
小區:四季家園二區
pandas
-
提取城市名稱,由於城市名稱的字數相同,可以直接切片截取前三個。
df["城市"] = df["地址"].str[:3]
-
提取小區名,稍有點複雜。因為小區名稱長度是不一樣長的。可以利用字元串處理的天花板: 正則表達式
。詳細處理方法,見下文五、正則表達式
示例1。
四、補齊數據
有時候,我們在電腦中按文件名排序的時候,你可能會遇到下麵的情況:
在不同系統中,我們希望是按數值排序,但偏偏系統卻是按字元排序的,如某些車載播放器中。比較好的解決方法就是在前面添加0,補齊數據位數。數據量大的時候,手動修改很麻煩,Python字元串處理的zfill()
函數就可以解決這個問題。
Python
myStr = "1章節"
print(myStr.zfill(4)) # 整個字元串補齊到4位
output
01章節
pandas
df["新文件名"] = "第"+df["文件名"].str[1:].str.zfill(8)
配合os.rename()
便可以批量重命名。關鍵代碼如下
df.apply(lambda x: os.rename( path + x["文件名"], path + x["新文件名"]), axis=1)
五、正則表達式
遇到複雜的字元串處理需求時,Python有優勢就可以體現出來了。因為python和pandas有一個超強的字元串處理武器:正則表達式。正則表達式可以匹配字元串的格式特點,如電子郵箱的地址格式、網址的地址格式、電話號碼格式等。如何寫好正則表達式,這是一門精深的學問,本文介紹幾個正則表達式的常用案例,淺嘗輒止。
註:Python預設不支持正則表達式語法,而pandas直接支持正則表達式語法,這裡重點介紹pandas處理表格數據。
1.提取長度不一樣的小區名
思路:
-
提取上面小區名,可以歸納一下地址中小區名的格式特點:
蘇州市之後,幢號數字之前的中文字元
。 -
Series
的str.extract()
,可用正則從字元數據中抽取匹配的數據;
## 匹配中文字元的正則表達式: [\u4e00-\u9fa5]
pattern = r'蘇州市([\u4e00-\u9fa5]+)[0-9]+幢'
df["小區"] = df["地址"].str.extract(pattern, expand=False)
2.提取幾幢幾室
思路:幾幢幾室,格式都是數字+幢
和數字+室
-
數字可以用 [0-9]
或\d
來匹配; -
+
表示1個或多個。
pattern = r'([0-9]+)幢'
df["幢號"] = df["地址"].str.extract(pattern, expand=False)
pattern = r'(\d+)室'
df["室號"] = df["地址"].str.extract(pattern, expand=False)
六、apply函數
apply 函數:可以對DateFrame
進行逐行或逐列進行處理。
1.增加一列,將幢號按照奇偶數分類
將幢號為奇數的為A區,偶數的為B區
# 定義處理的函數,共apply函數調用,傳入的參數為一個Series對象
def my_func(series):
if (series["幢號"]) % 2 != 0:
return "A區"
else:
return "B區"
df["幢號分類"] = df.apply(my_func, axis=1)
上述代碼中apply函數,有兩個參數
-
第一個參數:處理邏輯的函數名。主要傳入名稱,這裡為 my_func
; -
第二個參數: axis = 1
,表示按列處理。即傳入的是每一行的Series
。
output
2.增加一列,字典映射
def my_func2(series):
# 映射字典,key為小區名,value為小區稱號
my_dict = {
'吉祥如意家園': '最佳好運小區',
'科技村': '最佳科創小區',
'四季家園': '最佳風光小區',
'萬象更新家園': '最佳風采小區',
}
# 每一行小區名稱,切片截取至倒數第2個,即-2
nameKey = series['小區'][:-2]
return my_dict[nameKey]
df["小區稱號"] = df.apply(my_func2, axis=1)
output
結語
本文演示的字元串操作:替換
、分列
、切片截取
、補齊數據
、正則表達式
、apply()函數
常見於數據分析的數據清洗環節,替換
、分列
、切片截取
在Excel中也很容易實現,正則表達式
可以說是Python處理複雜字元串問題的一大利器,apply()函數
可以實現自定義函數
處理表格型的數據,十分靈活、威力巨大。由於篇幅有限,正則表達式
、apply()函數
本文就點到為止,今後值得整理更多相關案例。