Python re 模塊_ZenDei技術網路在線

Python re 模塊 TOC 介紹作用正則表達式語法貪婪和非貪婪普通字元和特殊字元 re modul level 方法正則表達式對象匹配對象常用例子註意事項 Jamie Zawinski said: Some people,when confronted with a probl ...

Python re 模塊

TOC

介紹
- 作用
正則表達式語法
- 貪婪和非貪婪
- 普通字元和特殊字元
re modul level 方法
正則表達式對象
匹配對象
常用例子
註意事項

Jamie Zawinski said:

Some people,when confronted with a problem,think,"I know,I'll use regular expressions."
Now they have two problem!

當人們遇到一個問題，想到用正則表達式解決時。他們的問題馬上就變成了兩個問題
調侃正則表達式不好學。

python支持正則表達式是通過re模塊
Regular Expressions 也叫 REs,regex,regexp,regex patterns。看見這些名字就知道是正則表達式
Regex本質是一個小型的，高度專業的編程語言。很多高級語言都嵌入了Regex,Python只是通過re模塊來讓python可以支持Regex。
For advanced use ,it may be necessary to pay careful attention to how the engine will execute a given RE, and write the RE in a certain way in order to produce bytecode that runs faster.
正則表達式不是全能的，也有一些處理不了的字元任務。
正則表達式是對某種字元串的表示。一個字元串符合一個正則表達式規則，我們就說這個字元串匹配該正則表達式。
匹配過後就可以做很多事情了。正則常用於處理：
- 替換:將字元串中匹配到正則表達式的進行替換
- 截取：將匹配的從字元串截取掉。根據start,end索引截取
- 匹配邏輯判斷：匹配search ，match等
- 計數：使用finditer迭代記性迭代計數，其它方式也行
- 過濾：通過匹配結果bool進行過濾
- 包含：search
- 全匹配：fullmatch
- 分隔：split

註意：

Python中的字元串是支持轉義符的，所以要特別註意正則表達式在python中也是用字元串標識而正則表達式也是支持轉移字元的，所以避免python字元串將轉移解析，就需要給python指示出正則表達式字元串中的轉移字元是正則用的，而不是python字元串所用，就需要這樣做r'partten'，這樣正則表達式中的字元都是沒有特殊功能。如：r'\n'是兩個字元，'\n'是一個字元，代表換行符。
正則和需要匹配的字元串，都是要Unicode string 或 8-bit string。兩種是不能混合使用。

正則表達式語法

表達式串表達式
複雜表達式可以由簡單表達式構成
正則表達式的貪婪greedy和非貪婪non-greedy
- 是說'+' '*' '?'等多態數量指定的是貪婪匹配，會去匹配儘可能大的範圍。
- 給這三個加上'?'，就是非貪婪，回去匹配儘可能小的範圍。
正則表達式包含特殊字元和普通字元
- 普通字元
  - 什麼'A' 'B' 'c' 'd';什麼'last' 'next' 'hello' 由普通字元串連起來的。
- 特殊字元
  - 像 '.' '()' '|' 等

special character	means	comments
'.'	點號，代表所有字元除了newline換行符	如果設置了DOTALL flag標識，那就會包含newline
'^'	代表字元串的開始,The start of the string	In MULTLINE mode在多行模式也匹配每個newline的結尾處
'$'	匹配the end of the string or just befor the newline at the end of the string	In MULTILINE mode also matches before a newline.
'\b'	不匹配任何字元串，匹配單詞的開頭或結尾	如r'\bfoo\b' 能匹配 'foo','foo.','(foo)','bar foo bar'，但是不能匹配'foobar'
'\B'	不匹配任何字元串，是\b的反義
__'*'__	匹配 0個或多次重覆這個符號前面的RE	貪婪
'+'	匹配 1個或多次重覆這個符號前面的RE	貪婪，註意是前面的一個RE，一個普通字元就是一個RE不是所有，是最小單位的一個RE.如 ab+ 匹配的是ab or abbb... 而不是ababab
'?'	匹配 0個或 1次重覆這個符號前面的RE	貪婪
__'*?,??,+?'__	禁掉*,?,+的貪婪，取他們能匹配的最小範圍	非貪婪
'{m}'	指定數量重覆這個符號前面的RE	非貪婪
'{m,n}'	指定m到n數量重覆這個符號前面的RE	貪婪，n如果不指定的話，至少m個重覆RE
'{m,n}?'	指定m到n數量重覆這個符號前面的RE，但是至匹配最小數量	非貪婪
''	轉義特殊字元	即然特殊字元表示其字面義
'[]'	Used to indicate a set of characters	特殊字元在[]中會沒有特殊意義；但是^符號在[]中如果是第一個字元，那麼^是有意義的，這裡不是表示字元串的開頭，而是取反取補集 .並且在[]除了開頭的^惡化]符號是有各自的意義
'\|'	兩邊是RE，匹配左邊或者右邊，或關係	非貪婪，從左到右匹配
'\w'
'\W'
'\d'
'\D'
'\s'

等等等等。。。。

re 模塊提供的方法

re.compile(partten,flag) 返回一個regex對象，regex對象支持很多模塊級的函數相同功能的方法,如prog.search(str),prog.match(str)...等等。->返回一個regular expression 對象
re.search(partten,string,flag) 掃描字元串，找到第一個符合正則表達式匹配的字元，匹配到並返回match對象，一個都沒匹配到返回None。
re.match(partten,string,flag) 從字元串開始匹配partten，如果匹配到返回match對象，否則返回None。
re.split(partten,string,maxsplite=0,flag=0) 將string中所有匹配的上partten的作為字元串的分隔符進行分隔字元串。如果一個沒匹配上返回列表中只有string一個字元串。如果匹配上就分隔返回分隔後元素組成的列表。maxsplit指定字元串最多可以分割的次數。還要特別註意，如果partten中是用了分組，那麼分組將出現在最後分隔列表中，每個元素之間。就是將分組中匹配到的也添加到列表中。
re.findall(partten,string,flag=0) 返回一個列表，將字元串總所有匹配上模式的都出道列表中。
re.sub(pattern, repl, string , count=0, flags=0) 將 string中匹配到partten的替換為repl。count指定匹配多少個。返回替換後的字元串。repl也可以是一個函數，接受一個字元串，返回一個字元串。函數是非常有用的，可以添加邏輯判斷。這個很有用的！！！
re.escape(str) 將str中處在在正則表達式中有特殊意義的字元進行轉移。返迴轉移後的字元串。
re.fullmatch(partten, string, flags=0) 整個字元串都匹配partten,就返回re對象，否則返回None。
re.finditer(partten, string, flags=0) 返回一個生成器，生成器每次next()返回的是一個match對象，這個match對象是依次正則匹配上的。

Regular Expression Object

正則表達式對象：

就是通過re.compile(partte)返回的對象
如果一個正則表達式在代碼中多次被使用，那麼最好將其編譯成正則對象，這樣代碼運行效率更快。
正則對象擁有re模塊所有的的函數對應的方法
這這表達式還有屬性prog.groups 是正則對象包含的分組數
prog.groupindex 是命名分組名和組id的一個字典

Match Object

匹配對象：

re模塊search,match,fullmatch以及finditer的生成器返回的，這些將匹配上的都作為一個match對象返回
match對象存儲了匹配上的字元串。並且如果正則表達式有分組的話，那麼還會按照分組進行邏輯上的分組存儲，提供group()方法進行分組訪問。
match.group([group1,...]) 參數為組的偏移值，第一個組那麼是1，第二個組那麼是2，依次類推。如果不帶參數或者參數偏移為0，那麼返回整個正則匹配的字元串。如果是單個組的偏移量，那麼就是某個組的字元串。如果是多個組的偏移，那麼就將多個組匹配的字元串組成的元組返回。
match.group() 如果正則表達式是命名組，那麼也支持名字訪問組值。也支持索引。
如果group是貪婪的，那麼已最後一次匹配為該組的值。
match.groups() 返回所有的組所構成的元組，這個方法的參數是預設值，用在某個主沒匹配上任何字元。
match.groupdict() 返回命名組字典，也是可以傳入一個預設值參數，當某個組沒有匹配上。
註意group()返回匹配的字元串，就算沒有分組。而groups()必須有分組才會有值，不然是空元組，groupdict()返回空字典
match.start() 匹配上字元串的開始位置
match.end() 匹配上字元串的結束位置

re 例子

參考官方手冊re模塊例子

手機格式 1\d{10}
郵箱格式 r"^\w+(.?\w+)@(\w+.)\w+$"
帶名字郵箱地址格式
IPv4地址

註意

正則表達式，在有可變長的貪婪配置時，一定要考慮好後面的匹配會影響可變長表達式所能匹配到的範圍。
正則表達式中反斜杠字元的表示。由於字元要進行轉義，轉移的字元又要進行轉義，所以轉義一個反斜杠需要四個反斜杠或者r"\\\" r加三個反斜杠。