Python之re模塊 —— 正則表達式操作

来源:http://www.cnblogs.com/shouce/archive/2016/05/25/5525711.html
-Advertisement-
Play Games

這個模塊提供了與 Perl 相似l的正則表達式匹配操作。Unicode字元串也同樣適用。 正則表達式使用反斜杠" \ "來代表特殊形式或用作轉義字元,這裡跟Python的語法衝突,因此,Python用" \\\\ "表示正則表達式中的" \ ",因為正則表達式中如果要匹配" \ ",需要用\來轉義, ...


這個模塊提供了與 Perl 相似l的正則表達式匹配操作。Unicode字元串也同樣適用。

 

正則表達式使用反斜杠" \ "來代表特殊形式或用作轉義字元,這裡跟Python的語法衝突,因此,Python用" \\\\ "表示正則表達式中的" \ ",因為正則表達式中如果要匹配" \ ",需要用\來轉義,變成" \\ ",而Python語法中又需要對字元串中每一個\進行轉義,所以就變成了" \\\\ "。

 

上面的寫法是不是覺得很麻煩,為了使正則表達式具有更好的可讀性,Python特別設計了原始字元串(raw string),需要提醒你的是,在寫文件路徑的時候就不要使用raw string了,這裡存在陷阱。raw string就是用'r'作為字元串的首碼,如 r"\n":表示兩個字元"\"和"n",而不是換行符了。Python中寫正則表達式時推薦使用這種形式。

 

絕大多數正則表達式操作與 模塊級函數或RegexObject方法 一樣都能達到同樣的目的。而且不需要你一開始就編譯正則表達式對象,但是不能使用一些實用的微調參數。

 

1.正則表達式語法

        為了節省篇幅,這裡不再敘述了。

 

2.martch和search的區別

        Python提供了兩種不同的原始操作:match和search。match是從字元串的起點開始做匹配,而search(perl預設)是從字元串做任意匹配。

 

        註意:當正則表達式是' ^ '開頭時,match與search是相同的。match只有當且僅當被匹配的字元串開頭就能匹配 或 從pos參數的位置開始就能匹配 時才會成功。如下:

>>> import re 
>>> re.match("c", "abcdef") 
>>> re.search("c","abcdef") 
<_sre.SRE_Match object at 0x00A9A988>

>>> re.match("c", "cabcdef") 
<_sre.SRE_Match object at 0x00A9AB80>

>>> re.search("c","cabcdef") 
<_sre.SRE_Match object at 0x00AF1720>

>>> patterm = re.compile("c") 
>>> patterm.match("abcdef") 
>>> patterm.match("abcdef",1) 
>>> patterm.match("abcdef",2) 
<_sre.SRE_Match object at 0x00A9AB80>

3.模塊內容

re.compile(pattern, flags=0)

 

編譯正則表達式,返回RegexObject對象,然後可以通過RegexObject對象調用match()和search()方法。

 

prog = re.compile(pattern)

result = prog.match(string)

result = re.match(pattern, string)

是等價的。

 

第一種方式能實現正則表達式的重用。

 

re.search(pattern, string, flags=0)

 

在字元串中查找,是否能匹配正則表達式。返回_sre.SRE_Match對象,如果不能匹配返回None。

 

re.match(pattern, string, flags=0)

 

字元串的開頭是否能匹配正則表達式。返回_sre.SRE_Match對象,如果不能匹配返回None。

 

re.split(pattern, string, maxsplit=0)

 

通過正則表達式將字元串分離。如果用括弧將正則表達式括起來,那麼匹配的字元串也會被列入到list中返回。maxsplit是分離的次數,maxsplit=1分離一次,預設為0,不限制次數。

>>> re.split('\W+', 'Words, words, words.') 
['Words', 'words', 'words', ''] 
>>> re.split('(\W+)', 'Words, words, words.') 
['Words', ', ', 'words', ', ', 'words', '.', ''] 
>>> re.split('\W+', 'Words, words, words.', 1) 
['Words', 'words, words.'] 
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

 

註意:我使用的Python是2.6,查看源代碼發現split()並沒有flags的參數,2.7才增加。這種問題我發現不止一次了,官方的文檔 跟 源碼不一致的現象,如果發現異常,應該去源碼中找找原因。

 

如果在字元串的開始或結尾就匹配,返回的list將會以空串開始或結尾。

>>> re.split('(\W+)', '...words, words...') 
['', '...', 'words', ', ', 'words', '...', '']

 

如果字元串不能匹配,將會返回整個字元串的list。

>>> re.split("a","bbb") 
['bbb']

 

re.findall(pattern, string, flags=0)

 

找到 RE 匹配的所有子串,並把它們作為一個列表返回。這個匹配是從左到右有序地返回。如果無匹配,返回空列表。

>>> re.findall("a","bcdef") 
[]

>>> re.findall(r"\d+","12a32bc43jf3") 
['12', '32', '43', '3']

 

re.finditer(pattern, string, flags=0)

 

找到 RE 匹配的所有子串,並把它們作為一個迭代器返回。這個匹配是從左到右有序地返回。如果無匹配,返回空列表。

>>> it = re.finditer(r"\d+","12a32bc43jf3") 
>>> for match in it: 
              print match.group()

12 
32 
43 
3

 

re.sub(pattern, repl, string, count=0, flags=0)

 

找到 RE 匹配的所有子串,並將其用一個不同的字元串替換。可選參數 count 是模式匹配後替換的最大次數;count 必須是非負整數。預設值是 0 表示替換所有的匹配。如果無匹配,字元串將會無改變地返回。

 

re.subn(pattern, repl, string, count=0, flags=0)

 

與re.sub方法作用一樣,但返回的是包含新字元串和替換執行次數的兩元組。

 

re.escape(string)

 

對字元串中的非字母數字進行轉義

 

re.purge()

 

清空緩存中的正則表達式

 

4.正則表達式對象

 

re.RegexObject

 

re.compile()返回RegexObject對象

 

re.MatchObject

 

group()返回被 RE 匹配的字元串

start()返回匹配開始的位置

end()返回匹配結束的位置

span()返回一個元組包含匹配 (開始,結束) 的位置

 

5.編譯標誌

編譯標誌讓你可以修改正則表達式的一些運行方式。在 re 模塊中標誌可以使用兩個名字,一個是全名如 IGNORECASE,一個是縮寫,一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同樣的字母;例如 re.VERBOSE的縮寫形式是 re.X。)多個標誌可以通過按位 OR-ing 它們來指定。如 re.I | re.M 被設置成 I 和 M 標誌:

I 
IGNORECASE

使匹配對大小寫不敏感;字元類和字元串匹配字母時忽略大小寫。舉個例子,[A-Z]也可以匹配小寫字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。這個小寫字母並不考慮當前位置。

L 
LOCALE

影響 "w, "W, "b, 和 "B,這取決於當前的本地化設置。

locales 是 C 語言庫中的一項功能,是用來為需要考慮不同語言的編程提供幫助的。舉個例子,如果你正在處理法文文本,你想用 "w+ 來匹配文字,但 "w 只匹配字元類 [A-Za-z];它並不能匹配 "é" 或 "?"。如果你的系統配置適當且本地化設置為法語,那麼內部的 C 函數將告訴程式 "é" 也應該被認為是一個字母。當在編譯正則表達式時使用 LOCALE 標誌會得到用這些 C 函數來處理 "w 後的編譯對象;這會更慢,但也會象你希望的那樣可以用 "w+ 來匹配法文文本。

M 
MULTILINE

(此時 ^ 和 $ 不會被解釋; 它們將在 4.1 節被介紹.)

使用 "^" 只匹配字元串的開始,而 $ 則只匹配字元串的結尾和直接在換行前(如果有的話)的字元串結尾。當本標誌指定後, "^" 匹配字元串的開始和字元串中每行的開始。同樣的, $ 元字元匹配字元串結尾和字元串中每行的結尾(直接在每個換行之前)。

S 
DOTALL

使 "." 特殊字元完全匹配任何字元,包括換行;沒有這個標誌, "." 匹配除了換行外的任何字元。

X 
VERBOSE

該標誌通過給予你更靈活的格式以便你將正則表達式寫得更易於理解。當該標誌被指定時,在 RE 字元串中的空白符被忽略,除非該空白符在字元類中或在反斜杠之後;這可以讓你更清晰地組織和縮進 RE。它也可以允許你將註釋寫入 RE,這些註釋會被引擎忽略;註釋用 "#"號 來標識,不過該符號不能在字元串或反斜杠之後。

 

最後:如果能用字元串的方法,就不要選擇正則表達式,因為字元串方法更簡單快速。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 直接在vs2013里的App_Data目錄創建資料庫,在伺服器資源管理器中查看時報錯: 未能載入包“Microsoft SQL Server Data Tools” 英文: 以下是右擊表的效果。 解決方案: 1.去https://msdn.microsoft.com/zh-cn/dn864412 下 ...
  • 今天在ASP.NET MVC項目中,實現一個小功能,就是記錄瀏覽者客戶端的一些信息。比如瀏覽者的IP,訪問了哪些頁面,以及瀏覽器相關的信息。在資料庫中創建一張表[VisitData]: SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO SET ANSI ...
  • ...
  • 本文是Linux Shell系列教程的第(四)篇,更多shell教程請看:Linux Shell系列教程 與許多的編程語言一樣,Shell中也有註釋符號,今天就為大家來介紹下Shell中的註釋的語法及用法。 Shell中的註釋以“#”號開頭,所有以“#”號開頭的代碼都會被解釋器所忽略。 比如下麵的代 ...
  • 官方文檔給出了兩種Yii2的安裝方式。一種是通過歸檔文件安裝,另一種則是通過composer進行安裝。兩種方式具體有什麼不同呢?我們這裡不討論,安裝完了你自然也就明白了。 相信很多小伙伴想學Yii2,但是大部分都死在了開頭。所謂萬事開頭難,Yii2無疑更好的證實了這一點,還沒開始就先給你一棒槌。 安 ...
  • 利用介面做參數,寫個計算器,能完成+-*/運算 (1)定義一個介面Compute含有一個方法int computer(int n,int m); (2)設計四個類分別實現此介面,完成+-*/運算 (3)設計一個類UseCompute,含有方法:public void useCom(Compute c ...
  • 概述 GenEvent 是事件處理的通用部分的抽象。 通過 GenEvent ,我們給已有的服務 動態 的添加 事件處理。 GenEevent 和 GenServer 的區別 之前已經介紹了 GenServer ,GenServer 和 GenEvent 的主要區別在於: GenServer 是服務 ...
  • WIN 下的超動態菜單(一)簡介 WIN 下的超動態菜單(二)用法 作者:黃山松,發表於博客園:http://www.cnblogs.com/tomview/ auto_dynamenu 是一個動態生成WINDOWS菜單的c++封裝庫,設計思路是要儘量簡化動態菜單的生成代碼,在程式界面任何地方想要顯... ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...