正則表達式是對字元串操作的一種邏輯公式,就是用事先定義好的一些特定字元、及這些特定字元的組合,組成一個“規則字元串”,這個“規則字元串”用來表達對字元串的一種過濾邏輯。 在python中正則表達式被封裝到了re模塊,通過引入re模塊來使用正則表達式 re模塊中有很多正則表達式處理函數,首先用find ...
正則表達式是對字元串操作的一種邏輯公式,就是用事先定義好的一些特定字元、及這些特定字元的組合,組成一個“規則字元串”,這個“規則字元串”用來表達對字元串的一種過濾邏輯。
在python中正則表達式被封裝到了re模塊,通過引入re模塊來使用正則表達式
re模塊中有很多正則表達式處理函數,首先用findall函數介紹基本基本字元的含義
元字元有:. \ * + ? ^ $ | {} [] ()
findall函數
遍歷匹配,可以獲取字元串中所有匹配的字元串,返回一個列表
. 匹配任意除換行符"\n"外的字元
import re temp=re.findall("a.c","abcdefagch") print(temp)#['abc', 'agc']
* 匹配前一個字元0或多次
temp=re.findall("a*b","abcaaaaabcdefb") print(temp)#['ab', 'aaaaab', 'b']
+ 匹配前一個字元1次或無限次
temp=re.findall("a+b","abcaaaaabcdefb") print(temp)#['ab', 'aaaaab']
? 匹配前一個字元0次或1次
temp=re.findall("a?b","abcaaaaabcdefb") print(temp)#['ab', 'ab', 'b']
^ 匹配字元串開頭。在多行模式中匹配每一行的開頭
temp=re.findall("^ab","abcaaaaabcdefb") print(temp)#['ab']
$ 匹配字元串末尾,在多行模式中匹配每一行的末尾
temp=re.findall("ab$","abcaaaaabcdefab") print(temp)#['ab']
| 或。匹配|左右表達式任意一個,從左到右匹配,如果|沒有包括在()中,則它的範圍是整個正則表達式
temp=re.findall("abc|def","abcdef") print(temp)#['abc', 'def']
{} {m}匹配前一個字元m次,{m,n}匹配前一個字元m至n次,若省略n,則匹配m至無限次
temp=re.findall("a{3}","aabaaacaaaad") print(temp)#['aaa', 'aaa'] temp=re.findall("a{3,5}","aaabaaaabaaaaabaaaaaa") print(temp)#['aaa', 'aaaa', 'aaaaa', 'aaaaa']在獲取了3個a後,若下一個還是a,並不會得到aaa,而是算下一個a
[] 字元集。對應的位置可以是字元集中任意字元。字元集中的字元可以逐個列出,也可以給出範圍,如[abc]或[a-c]。[^abc]表示取反,即非abc,所有特殊字元在字元集中都失去其原有的特殊含義。用\反斜杠轉義恢復特殊字元的特殊含義。
temp=re.findall("a[bcd]e","abcdefagch") print(temp)#[]此時bcd為b或c或d temp=re.findall("a[a-z]c","abcdefagch") print(temp)#['abc', 'agc'] temp=re.findall("[^a]","aaaaabcdefagch") print(temp)#['b', 'c', 'd', 'e', 'f', 'g', 'c', 'h'] temp=re.findall("[^ab]","aaaaabcdefagch") print(temp)#['c', 'd', 'e', 'f', 'g', 'c', 'h']a和b都不會被匹配
() 被括起來的表達式將作為分組,從表達式左邊開始每遇到一個分組的左括弧“(”,編號+1.分組表達式作為一個整體,可以後接數量詞。表達式中的|僅在該組中有效。
temp=re.findall("(abc){2}a(123|456)c","abcabca456c") print(temp)#[('abc', '456')] temp=re.findall("(abc){2}a(123|456)c","abcabca456cbbabcabca456c") print(temp)#[('abc', '456'), ('abc', '456')] #這裡有()的情況中,findall會將該規則的每個()中匹配到的字元創放到一個元組中
要想看到被完全匹配的內容,我們可以使用一個新的函數search函數
search函數
在字元串內查找模式匹配,只要找到第一個匹配然後返回,如果字元串沒有匹配,則返回None
temp=re.search("(abc){2}a(123|456)c","abcabca456c") print(temp)#<re.Match object; span=(0, 11), match='abcabca456c'> print(temp.group())#abcabca456c
\ 轉義字元,使後一個字元改變原來的意思
反斜杠後邊跟元字元去除特殊功能;(即將特殊字元轉義成普通字元)
temp=re.search("a\$","abcabca456ca$") print(temp)#<<re.Match object; span=(11, 13), match='a$'> print(temp.group())#a$
引用序號對應的字組所匹配的字元串。
即下麵的\2為前邊第二個括弧中的內容,2代表第幾個,從1開始
a=re.search(r'(abc)(def)gh\2','abcdefghabc abcdefghdef').group() print(a)#abcdefghdef
反斜杠後邊跟普通字元實現特殊功能;(即預定義字元)
預定義字元有:\d \D \s \S \w \W \A \Z \b \B
預定義字元在字元集中仍有作用
\d 數字:[0-9]
temp=re.search("a\d+b","aaa234bbb") print(temp.group())#a234b
\D 非數字:[^\d]
\s 匹配任何空白字元:[<空格>\t\r\n\f\v]
temp=re.search("a\s+b","aaa bbb") print(temp.group())#a b
\S 非空白字元:[^\s]
\w 匹配包括下劃線在內的任何字字元:[A-Za-z0-9_]
\W 匹配非字母字元,即匹配特殊字元
temp=re.search("\W","$") print(temp.group())#$
\A 僅匹配字元串開頭,同^
\Z 僅匹配字元串結尾,同$
\b 匹配\w和\W之間的邊界
temp=re.search(r"\bas\b","a as$d") print(temp.group())#$as
\B [^\b]
下麵介紹其他的re常用函數
compile函數
編譯正則表達式模式,返回一個對象的模式
rule = re.compile("abc\d+\w") str = "aaaabc6def" temp = rule.findall(str) print(temp)#['abc6d']
match函數
在字元串剛開始的位置匹配,和^功能相同
temp=re.match("asd","asdfasd") print(temp.group())#asd
finditer函數
將所有匹配到的字元串以match對象的形式按順序放到一個迭代器中返回
temp=re.finditer("\d+","as11d22f33a44sd") print(temp)#<callable_iterator object at 0x00000242EEEE9E48> for i in temp: print(i.group()) #11 #22 #33 #44
split函數
用於分割字元串,將分割後的字元串放到一個列表中返回
如果在字元串的首或尾分割,將會出現一個空字元串
temp=re.split("\d+","as11d22f33a44sd55") print(temp)#['as', 'd', 'f', 'a', 'sd', '']
使用字元集分割
如下先以a分割,再將分割後的字元串們以b分割,所以會出現3個空字元串
temp=re.split("[ab]","ab123b456ba789b0") print(temp)#['', '', '123', '456', '', '789', '0']
sub函數
將re匹配到的部分進行替換再返回新的字元串
temp=re.sub("\d+","_","ab123b456ba789b0") print(temp)#ab_b_ba_b_
後邊還可以再加一個參數表示替換次數,預設為0表示全替換
subn函數
將re匹配到的部分進行替換再返回一個裝有新字元串和替換次數的元組
temp=re.subn("\d+","_","ab123b456ba789b0") print(temp)#('ab_b_ba_b_', 4)
然後講一下特殊分組
temp=re.search("(?P<number>\d+)(?P<letter>[a-zA-Z])","ab123b456ba789b0") print(temp.group("number"))#123 print(temp.group("letter"))#b
以?P<name>的形式起名
最後說一下惰性匹配和貪婪匹配
temp=re.search("\d+","123456") print(temp.group())#123456
此時為貪婪匹配,即只要符合就匹配到底
temp=re.search("\d+?","123456") print(temp.group())#1
在後面加一個?變為惰性匹配,即只要匹配成功一個字元就結束匹配
參考https://www.cnblogs.com/tina-python/p/5508402.html