python模塊之re正則表達式

来源:http://www.cnblogs.com/bugsbunny/archive/2017/02/03/6308852.html
-Advertisement-
Play Games

本文演示環境為python2.7,主要介紹了python模塊之re正則表達式 ...


一、簡單介紹

正則表達式是一種小型的、高度專業化的編程語言,並不是python中特有的,是許多編程語言中基礎而又重要的一部分。在python中,主要通過re模塊來實現。

正則表達式模式被編譯成一系列的位元組碼,然後由用c編寫的匹配引擎執行。那麼正則表達式通常有哪些使用場景呢?

  • 比如為想要匹配的相應字元串集指定規則;
  • 該字元串集可以是包含e-mail地址、Internet地址、電話號碼,或是根據需求自定義的一些字元串集;
  • 當然也可以去判斷一個字元串集是否符合我們定義的匹配規則;
  • 找到字元串中匹配該規則的部分內容;
  • 修改、切割等一系列的文本處理;
  • ......

二、特殊符號和字元(元字元)

這裡介紹常見的一些元字元,它給予正則表達式強大的功能和靈活性。表2-1列出了比較常見的符號和字元。

 

三、正則表達式

1、使用 compile()函數編譯正則表達式

由於python代碼最終會被翻譯成位元組碼,然後在解釋器上執行。所以對於我們代碼中經常要用到的一些正則表達式進行預編譯,執行起來會更加便捷。

re模塊中的大多數函數和已經編譯的正則表達式對象和正則匹配對象的方法同名並且具有相同的功能。

示例:

>>> import re 
>>> r1 = r'bugs'                            # 字元串前加"r"反斜杠就不會被任何特殊方式處理,這是個習慣,雖然這裡沒用到
>>> re.findall(r1, 'bugsbunny')             # 直接利用re模塊進行解釋性地匹配
['bugs']                          
>>> 
>>> r2 = re.compile(r1)                     # 如果r1這個匹配規則你會經常用到,為了提高效率,那就進行預編譯吧
>>> r2                                      # 編譯後的正則對象
<_sre.SRE_Pattern object at 0x7f5d7db99bb0> 
>>> 
>>> r2.findall('bugsbunny')                 # 訪問對象的findall方法得到的匹配結果與上面是一致的
['bugs']                                    # 所以說,re模塊中的大多數函數和已經編譯的正則表達式對象和正則匹配對象的方法同名並且具有相同的功能

re.compile()函數也接受可選的標誌參數,常用來實現不同的特殊功能和語法變更。這些標誌也可以作為參數適用於大多數re模塊函數。這些標誌可以用操作符(|)合併。

示例:

>>> import re
>>> r1 = r'bugs'
>>> r2 = re.compile(r1,re.I)  # 這裡選擇的是忽略大小寫的標誌,完整的是re.IGNORECASE,這裡簡寫re.I
>>> r2.findall('BugsBunny')
['Bugs']

# re.S 使.匹配換行符在內的所有字元
# re.M 多行匹配,英雄^和$
# re,X 用來使正則匹配模式組織得更加清晰

完整的標誌參數列表和用法可以參考相關官方文檔。

 

2、使用正則表達式

re模塊提供了一個正則表達式引擎的介面,下麵具體介紹一些常用的函數和方法。

  • 匹配對象以及group()和groups()方法

當處理正則表達式時,除了正則表達式對象之外,還有一個對象類型:匹配對象。這些是成功調用 match()或者search()返回的對象。匹配對象有兩個主要的方法:group()和groups()。

group()要麼返回整個匹配對象,要麼根據要求返回特定子組。groups()則僅返回一個包含唯一或者全部子組的元組。如果沒有子組的要求,那麼當group()仍然返回整個匹配時,groups返回一個空元組。下麵一些函數示例會演示到此方法。

  • 使用 match()方法匹配字元串

match()函數從字元串的起始部分對模式進行匹配。如果匹配成功,就返回一個匹配對象;如果匹配失敗,就返回 None,匹配對象的方法 group()方法就能夠用於顯示那個成功的匹配。

示例如下:

>>> m = re.match('bugs', 'bugsbunny')     # 模式匹配字元串
>>> if m is not None:                     # 如果匹配成功,就輸出匹配內容
...     m.group()
... 
'bugs'
>>> m
<_sre.SRE_Match object at 0x7f5d7da1f168> # 確認返回的匹配對象
  •  使用search()在一個字元串中查找模式

search()的工作方式與match()完全一致,不同之處在於search()是對給定正則表達式模式搜索第一次出現的匹配情況。簡單來說,就是在任意位置符合都能匹配成功,不僅僅是字元串的起始部分,這就是與match()函數的區別,用腳指頭想想search()方法使用的範圍更多更廣。

示例:

>>> m = re.search('bugs', 'hello bugsbunny')
>>> if m is not None:
...     m.group()
... 
'bugs'
  •  使用findall()和finditer()查找每一次出現的位置

findall()是用來查找字元串中所有(非重覆)出現的正則表達式模式,並返回一個匹配列表;finditer()與findall()不同的地方是返回一個迭代器,對於每一次匹配,迭代器都返回一個匹配對象。

>>> m = re.findall('bugs', 'bugsbunnybugs')
>>> m
['bugs', 'bugs']
>>> m = re.finditer('bugs', 'bugsbunnybugs')
>>> m.next()                                   # 迭代器用next()方法返回一個匹配對象
<_sre.SRE_Match object at 0x7f5d7da71a58>      # 匹配用group()方法顯示出來
>>> m.next().group()
'bugs'
  •  使用sub()和subn()搜索與替換

都是將某字元串中所有匹配正則表達式的部分進行某種形式的替換。sub()返回一個用來替換的字元串,可以定義替換次數,預設替換所有出現的位置。subn()和sub()一樣,但subn()還返回一個表示替換的總是,替換後的字元串和表示替換總數一起作為一個擁有兩個元素的元組返回。

示例:

>>> r = 'a.b'
>>> m = 'acb abc aab aac'
>>> re.sub(r,'hello',m)
'hello abc hello aac'
>>> re.subn(r,'hello',m)
('hello abc hello aac', 2)

 字元串也有一個replace()方法,當遇到一些模糊搜索替換的時候,就需要更為靈活的sub()方法了。

  • 使用split()分割字元串

同樣的,字元串中也有split(),但它也不能處理正則表達式匹配的分割。在re模塊中,分居正則表達式的模式分隔符,split函數將字元串分割為列表,然後返回成功匹配的列表。

示例:

>>> s = '1+2-3*4'
>>> re.split(r'[\+\-\*]',s)
['1', '2', '3', '4']
  •  分組

有時在匹配的時候我們只想提取一些想要的信息或者對提取的信息作一個分類,這時就需要對正則匹配模式進行分組,只需要加上()即可。

示例:

>>> m = re.match('(\w{3})-(\d{3})','abc-123')
>>> m.group()       # 完整匹配                         
'abc-123'
>>> m.group(1)      # 子組1
'abc'
>>> m.group(2)      # 子組2
'123'
>>> m.groups()      # 全部子組
('abc', '123')

 由以上的例子可以看出,group()通常用於以普通方式顯示所有的匹配部分,但也能用於獲取各個匹配的子組。可以使用groups()方法來獲取一個包含所有匹配字元串的元組。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 什麼是緩存? 資料庫的緩存指的是應用程式和物理數據源之間的數據。即把物理數據源的數據複製到緩存。有了緩存,可以降低應用程式對物理數據源的訪問頻率,從而提高效率。緩存的介質一般是記憶體,也可以是硬碟。 Hibernate的緩存有三種類型:一級緩存、二級緩存和查詢緩存。 2. 一級緩存 一級緩存即S ...
  • 在Python里,海龜不僅可以畫簡單的黑線,還可以用它畫更複雜的幾何圖形,用不同的顏色,甚至還可以給形狀填色。 一、從基本的正方形開始 引入turtle模塊並創建Pen對象: 前面我們用來創建正方形的代碼如下: 此段代碼太長,我們可以用for迴圈進行優化: 效果如下: 二、畫星星 我們只需把for循 ...
  • 要想讀懂本文,你需要對C語言有基本的瞭解,本文將介紹如何使用gcc編譯器。 首先,我們介紹如何在命令行的方式下使用編譯器編譯簡單的C源代碼。 然後,我們簡要介紹一下編譯器究竟作了哪些工作,以及如何控制編譯的過程。 我們也簡要介紹了調試器的使用方法。 gcc介紹 你能想象使用封閉源代碼的私有編譯器編譯 ...
  • 先說一下需求: 在頁面上顯示資料庫中的所有圖書,顯示圖書的同時,顯示出該圖書所屬的類別(這裡一本書可能同時屬於多個類別) 創建表: 筆者這裡使用 中間表 連接 圖書表 和 圖書類別表,圖書表中 沒有使用外鍵關聯 圖書類別表 而是在中間表中引用了 圖書主鍵 和 類別主鍵 通過中間表來 表示 圖書 和 ...
  • 使用Python的turtle(海龜)模塊畫圖 第一步:讓Python引入turtle模塊,引入模塊就是告訴Python你想要用它。 第二步:創建畫布。調用turtle中的Pen函數。 第三步:移動海龜。 forward的中文意思是“向前地;促進”。所以這行代碼的意思是海龜向前移動50個像素: 讓海 ...
  • 有時候,我們也會有在C++中調用.NET的需求,C++/CLI就是這樣一種技術,它能夠與本地代碼混合編程,從而提供強大的功能,本文將介紹如何使用反射的一些實踐。 ...
  • 代碼入口 上文【Spring源碼分析】Bean載入流程概覽,比較詳細地分析了Spring上下文載入的代碼入口,並且在AbstractApplicationContext的refresh方法中,點出了finishBeanFactoryInitialization方法完成了對於所有非懶載入的Bean的初 ...
  • 最近要從一個http上下載個文件,差點就直接telnet了,突然發現了這個: 但是還得讀取它,用什麼呢? 直接用 但是在類里,不能用Application.StartupPath代表程式所在目錄呀,這怎麼辦呢?遂baidu了一下,發現可以這樣: 然後,就可以讀取了。 完整代碼:(目標文件地址http ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...