20個Python 正則表達式應用與技巧

来源:https://www.cnblogs.com/huaweiyun/p/18130446
-Advertisement-
Play Games

本文分享自華為雲社區《Python 正則表達式大揭秘應用與技巧全解析》,作者:檸檬味擁抱。 Python 中的 re 模塊是用於處理正則表達式的強大工具。正則表達式是一種用來匹配字元串的模式,它可以在文本中搜索和匹配特定的字元串模式。在本文中,我們將探討 Python 中 re 模塊的應用和一些技巧 ...


本文分享自華為雲社區《Python 正則表達式大揭秘應用與技巧全解析》,作者:檸檬味擁抱。

Python 中的 re 模塊是用於處理正則表達式的強大工具。正則表達式是一種用來匹配字元串的模式,它可以在文本中搜索和匹配特定的字元串模式。在本文中,我們將探討 Python 中 re 模塊的應用和一些技巧,幫助您更好地理解和利用正則表達式。

1. 導入 re 模塊

在開始之前,首先要確保已經導入了 re 模塊:

import re

2. 使用 re 模塊進行匹配

以下是一個簡單的示例,演示如何使用 re 模塊在字元串中查找特定模式的匹配項:

text = "The quick brown fox jumps over the lazy dog"

# 使用 re 模塊查找匹配項
matches = re.findall(r'\b\w{3}\b', text)

print(matches)  # 輸出匹配的單詞列表

在上面的示例中,我們使用了 \b\w{3}\b 這個正則表達式來匹配長度為3的單詞。\b 表示單詞的邊界,\w{3} 表示匹配三個字母字元。re.findall() 函數返回所有匹配的結果。

3. 使用分組

分組是正則表達式中的一個強大功能,它允許您對匹配的部分進行分組處理。以下是一個示例,演示如何使用分組從文本中提取出郵件地址:

text = "Contact us at: [email protected], [email protected]"

# 使用分組提取郵件地址
emails = re.findall(r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})', text)

print(emails)  # 輸出提取的郵件地址列表

在上面的示例中,([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}) 是一個匹配郵件地址的正則表達式。其中,() 將整個郵件地址作為一個分組,使得 re.findall() 函數只返回匹配的郵件地址部分。

4. 替換文本中的字元串

re 模塊還提供了替換功能,允許您使用正則表達式來替換文本中的特定字元串。以下是一個示例,演示如何將文本中的所有數字替換為 “X”:

text = "There are 123 apples and 456 oranges"

# 使用 re.sub() 函數替換文本中的數字為 "X"
new_text = re.sub(r'\d+', 'X', text)

print(new_text)  # 輸出替換後的文本

在上面的示例中,re.sub(r'\d+', 'X', text) 使用正則表達式 \d+ 匹配一個或多個數字,並將其替換為 “X”。

5. 使用編譯的正則表達式

在處理大量文本時,編譯正則表達式可以提高匹配效率。以下是一個示例,演示如何使用編譯後的正則表達式進行匹配:

pattern = re.compile(r'\bpython\b', re.IGNORECASE)

text = "Python is a popular programming language"

# 使用編譯後的正則表達式進行匹配
match = pattern.search(text)

if match:
    print("Found")
else:
    print("Not found")

在上面的示例中,re.compile() 函數編譯了一個不區分大小寫的正則表達式,並且使用 search() 方法進行匹配。

通過掌握以上技巧,您可以更加靈活和高效地使用 Python 中的 re 模塊進行正則表達式的處理。正則表達式是一項強大的技能,在處理文本和字元串時非常有用。

6. 使用預定義字元類

正則表達式中有一些預定義的字元類,可以簡化匹配特定類型字元的操作。以下是一些常用的預定義字元類及其示例用法:

  • \d:匹配任意數字字元。
  • \w:匹配任意字母、數字或下劃線字元。
  • \s:匹配任意空白字元(空格、製表符、換行符等)。
text = "The code is 1234 and the password is abcd_123"

# 使用預定義字元類匹配數字和字母密碼
codes = re.findall(r'\b\w+\b', text)

print(codes)  # 輸出匹配的代碼和密碼列表

7. 使用量詞

量詞用於指定匹配字元或組的數量。以下是一些常用的量詞及其示例用法:

  • *:匹配前一個字元零次或多次。
  • +:匹配前一個字元一次或多次。
  • ?:匹配前一個字元零次或一次。
  • {n}:匹配前一個字元恰好 n 次。
  • {n,}:匹配前一個字元至少 n 次。
  • {n,m}:匹配前一個字元至少 n 次,但不超過 m 次。
text = "The Python programming language is widely used for data analysis"

# 使用量詞匹配至少包含兩個字母的單詞
words = re.findall(r'\b\w{2,}\b', text)

print(words)  # 輸出匹配的單詞列表

8. 使用錨點

錨點用於匹配字元串的邊界,而不是實際的字元。以下是一些常用的錨點及其示例用法:

  • ^:匹配字元串的開頭。
  • $:匹配字元串的結尾。
  • \b:匹配單詞的邊界。
text = "Python is a great language for both beginners and experts"

# 使用錨點匹配以 Python 開頭的句子
sentence = re.findall(r'^Python.*', text)

print(sentence)  # 輸出匹配的句子

9. 貪婪與非貪婪匹配

在正則表達式中,量詞預設是貪婪的,即它們會儘可能匹配最長的字元串。但有時候我們希望匹配最短的字元串,這時候就需要使用非貪婪匹配。在量詞後面加上 ? 符號可以將其變為非貪婪匹配。

text = "Python is a powerful programming language"

# 使用貪婪匹配查找 "p""g" 之間的內容
greedy_match = re.findall(r'p.*g', text)

# 使用非貪婪匹配查找 "p""g" 之間的內容
non_greedy_match = re.findall(r'p.*?g', text)

print("貪婪匹配:", greedy_match)  # 輸出貪婪匹配結果
print("非貪婪匹配:", non_greedy_match)  # 輸出非貪婪匹配結果

10. 使用後向引用

後向引用允許您在正則表達式中引用先前匹配的內容。這在需要匹配重覆的模式時非常有用。

text = "apple apple orange orange"

# 使用後向引用匹配重覆的單詞
duplicates = re.findall(r'(\b\w+\b) \1', text)

print("重覆的單詞:", duplicates)  # 輸出匹配到的重覆單詞列表

11. 多行匹配

有時候我們需要匹配多行文本,而不僅僅是單行。這時可以使用 re.MULTILINE 標誌來啟用多行匹配模式。

text = """Python is a popular programming language.
It is used for web development, data analysis, and more.
Python has a simple syntax and is easy to learn."""

# 使用多行匹配模式匹配以大寫字母開頭的句子
sentences = re.findall(r'^[A-Z].*$', text, re.MULTILINE)

print("以大寫字母開頭的句子:", sentences)  # 輸出匹配到的句子列表

12. 使用命名分組

在複雜的正則表達式中,為了增加可讀性和維護性,可以使用命名分組來標識匹配的部分。

text = "John has 5 apples, Mary has 3 oranges"

# 使用命名分組提取人名和水果數量
matches = re.findall(r'(?P<name>\w+) has (?P<quantity>\d+) \w+', text)

for match in matches:
    print("Name:", match['name'], "- Quantity:", match['quantity'])

以上是一些高級技巧,可以進一步擴展您對正則表達式的應用和理解。通過不斷練習和嘗試,您將能夠更靈活地應用正則表達式來解決各種文本處理問題。

13. 使用預搜索斷言

預搜索斷言允許您在匹配字元串時,指定字元串之前或之後的條件。它不會消耗匹配的字元,僅用於指定條件。

text = "apple banana orange grape"

# 使用預搜索斷言匹配出包含 "apple" 之後的所有水果
result = re.findall(r'(?<=apple\s)(\w+)', text)

print("包含 'apple' 之後的水果:", result)  # 輸出匹配到的水果列表

14. 使用肯定與否定預搜索斷言

肯定預搜索斷言 (?=...) 匹配滿足條件的字元串,而否定預搜索斷言 (?!) 匹配不滿足條件的字元串。

text = "Python is a powerful programming language"

# 使用肯定預搜索斷言匹配包含 "is" 的單詞
positive_result = re.findall(r'\b\w+(?= is\b)', text)

# 使用否定預搜索斷言匹配不包含 "is" 的單詞
negative_result = re.findall(r'\b\w+(?! is\b)', text)

print("肯定預搜索斷言:", positive_result)  # 輸出匹配到的單詞列表
print("否定預搜索斷言:", negative_result)  # 輸出匹配到的單詞列表

15. 使用 re.finditer() 函數

re.finditer() 函數與 re.findall() 函數類似,但它返回一個迭代器,可以逐個訪問匹配對象。

text = "Python is a powerful programming language"

# 使用 re.finditer() 函數匹配所有單詞
matches_iter = re.finditer(r'\b\w+\b', text)

for match in matches_iter:
    print(match.group())  # 輸出匹配到的單詞

16. 使用 re.split() 函數

除了匹配和查找文本模式,re 模塊還提供了 re.split() 函數,用於根據正則表達式模式拆分字元串。

text = "apple,banana,orange,grape"

# 使用 re.split() 函數根據逗號拆分字元串
fruits = re.split(r',', text)

print("拆分後的水果列表:", fruits)  # 輸出拆分後的水果列表

17. 使用 re.sub() 函數的替換函數參數

re.sub() 函數的第二個參數可以是一個函數,用於處理匹配的結果後再替換。

def double(match):
    return str(int(match.group(0)) * 2)

text = "The numbers are 1, 2, 3, and 4"

# 使用替換函數參數將所有數字乘以2
new_text = re.sub(r'\d+', double, text)

print("替換後的文本:", new_text)  # 輸出替換後的文本

18. 使用 re.fullmatch() 函數

re.fullmatch() 函數用於檢查整個字元串是否完全匹配給定的模式。

pattern = re.compile(r'\d{4}-\d{2}-\d{2}')

date1 = "2022-01-15"
date2 = "15-01-2022"

# 使用 re.fullmatch() 函數檢查日期格式
match1 = pattern.fullmatch(date1)
match2 = pattern.fullmatch(date2)

if match1:
    print("日期格式正確")
else:
    print("日期格式錯誤")

if match2:
    print("日期格式正確")
else:
    print("日期格式錯誤")

19. 使用 re.IGNORECASE 標誌進行不區分大小寫匹配

在編譯正則表達式時,可以使用 re.IGNORECASE 標誌來進行不區分大小寫的匹配。

pattern = re.compile(r'python', re.IGNORECASE)

text = "Python is a powerful programming language"

# 使用不區分大小寫匹配模式查找 "Python"
match = pattern.search(text)

if match:
    print("Found")
else:
    print("Not found")

20. 使用 re.DEBUG 標誌進行正則表達式調試

在編譯正則表達式時,可以使用 re.DEBUG 標誌來輸出正則表達式的調試信息,以便更好地理解它的工作原理。

pattern = re.compile(r'\b\w{3}\b', re.DEBUG)

text = "The quick brown fox jumps over the lazy dog"

# 輸出編譯後的正則表達式調試信息
pattern.findall(text)

通過繼續學習和實踐這些高級的正則表達式技巧,您將能夠更好地應用正則表達式來處理各種文本匹配和處理任務,提高代碼的效率和可維護性。正則表達式是 Python 中強大而靈活的工具之一,對於處理字元串模式非常有用。

總結

通過本文的介紹,我們探索了 Python 中 re 模塊的應用與技巧,使您能夠更靈活和高效地處理正則表達式。我們從基礎的模式匹配開始,介紹瞭如何使用 re 模塊進行匹配、分組、替換等操作。隨後,我們深入探討了一些高級技巧,包括貪婪與非貪婪匹配、後向引用、多行匹配、預搜索斷言等,這些技巧可以幫助您更好地處理複雜的文本處理任務。此外,我們還介紹了一些實用的函數和標誌,如 re.split()re.sub() 的替換函數參數、re.fullmatch()re.IGNORECASEre.DEBUG 等,使您能夠更靈活地應用正則表達式解決實際問題。

掌握正則表達式是 Python 編程中非常重要的一部分,它能夠幫助我們更快地處理字元串模式匹配、文本提取等任務,提高代碼的效率和可維護性。通過不斷學習和實踐,您將能夠更深入地理解和應用正則表達式,解決各種文本處理問題,提升自己在 Python 編程中的技能水平。希望本文對您有所幫助,歡迎繼續探索和學習更多關於正則表達式的知識。

點擊關註,第一時間瞭解華為雲新鮮技術~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 隨著B端業務快速發展,系統愈趨複雜。我們發起了B端架構升級專項,基於B端業務的特點,從研發規範建設、B端架構基建、系統架構升級和落地保障等多方面提升了B端的架構水平 ...
  • 問題背景 訪問某個 HTTP 功能變數名稱介面,偶發性超時,原因可能多種多樣,比如 DNS 解析問題、網路質量問題、對端服務負載問題等,在客戶端沒有良好埋點的情況下,排查起來比較費勁,只能挨個方向嘗試,這裡送大家一個小工具,可以快速採樣 DNS 解析延遲,快速確認是否是 DNS 解析問題。 使用演示 運行工 ...
  • 前端 https://blog.csdn.net/m0_37613503/article/details/128961447 資料庫 1.用戶表 CREATE TABLE `x_user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varc ...
  • 1.VS上安裝Qt擴展 點擊菜單欄【擴展】->【管理擴展】,在搜索框搜索“Qt”, 點擊下載Qt Visual Studio Tools, 以2022版為例,需要關閉所有視窗才能執行安裝 關閉VS後,彈出安裝視窗,等待其安裝完成 2. 新建QT工程測試 等待安裝完成後,添加一個Qt Vertion後 ...
  • 隨著互聯網的迅猛發展,越來越多的應用場景需要進行用戶實名認證,其中手機號機主姓名核驗就是其中必不可少的一環。在電商、游戲、直播、金融等領域,用戶實名認證成為了一個重要的手段,以提高安全性和信任度。 近年來,隨著手機號的普及和使用頻率的增加,手機號的歸屬地信息也逐漸成為人們關註的焦點。手機號機主姓名核 ...
  • decltype關鍵字是C++11新標準引入的關鍵字,它和關鍵字auto的功能類似,也可以自動推導出給定表達式的類型,但它和auto的語法有些不同,這篇文章講解了decltype的使用場景以及和auto不同的地方,同時也講解了和auto結合使用的用法。 ...
  • 為了增加查詢的性能,MyBatis 提供了二級緩存架構,分為一級緩存和二級緩存。 這兩級緩存最大的區別就是:一級緩存是會話級別的,只要出了這個 SqlSession,緩存就沒用了。而二級緩存可以跨會話,多個會話可以使用相同的緩存! 一級緩存使用簡單,預設就開啟。二級緩存需要手動開啟,相對複雜,而且要 ...
  • 本文深入探討了Kubernetes Pod配置的實戰技巧和常見易錯點。 關註【TechLeadCloud】,分享互聯網架構、雲服務技術的全維度知識。作者擁有10+年互聯網服務架構、AI產品研發經驗、團隊管理經驗,同濟本復旦碩,復旦機器人智能實驗室成員,阿裡雲認證的資深架構師,項目管理專業人士,上億營 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...