1 導庫 import re 2 使用模板 re_pattern = re.compile(pattern, flags=0) result = re.findall(re_pattern,string) 3 說明 參數 描述 pattern 匹配的正則表達式,如 r'abc' 可用來匹配abc ...
1 導庫
import re
re_pattern = re.compile(pattern, flags=0)
result = re.findall(re_pattern,string)
參數 | 描述 |
pattern | 匹配的正則表達式,如 r'abc' 可用來匹配abc |
flags |
可選,標誌位,控制匹配方式,可選值: re.I 忽略大小寫 re.L 表示特殊字元集\w \W \b \B \s \S,依賴於當前環境 re.M 多行模式 re.S 包括換行符在內的任意字元 re.U 根據Unicode字元集解析字元 re.X 為了增加可讀性,忽略空格和#後面的註釋 re.A 根據ASCII碼解析字元 |
string | 待匹配字元串 |
方法 | 描述 |
compile | 編譯正則表達式,生成一個正則表達式(Pattern)對象 |
findall | 全文匹配,匹配結果以列表形式返回 |
4 示例
以下代碼用來在字元串 str 中匹配符合如下規則的字元串:
中英文括弧開頭+1個大寫字母+1個或無限個數字+0個或1個字元“.”+0個或1個字元“/”+0個或無限個數字+中英文括弧結尾
# 導庫 import re # 待處理字元串 str = '小分裂細胞型(瀰漫性)非霍奇金淋巴瘤(M96720/3)(Y97.1)(Y77)(yyy)' # 設定匹配規則,編譯 re_str = re.compile(r'[(|(][A-Z][0-9]+[.]?[/]?[0-9]*[)|)]', re.S) # 匹配 ans = re.findall(re_str,str) # 列印 print(ans)
在字元串 str 中的匹配結果如下,可見有三個字元串符合匹配規則:
5 正則表達式匹配規則
語法 |
描述 |
正則表達式示例 |
對應可匹配字元串示例 |
一般字元 | 匹配自身 | abc | abc |
元字元 | |||
. | 除了換行符之外的任意單個字元 | a.c | abc |
* | 匹配前面一個字元0或無限次 | ab* |
a abbb |
+ | 匹配前面一個字元1次或無限次 | ab+ |
ab abbb |
? | 匹配前面一個字元0次或1次 | ab? |
a ab |
\ | 轉義符,使後面一個字元保持原來的意思 | a\.b | a.b |
[] |
字元集,裡面的字元可以是任意數量個字元,也可以是一個範圍,比如可以是[abc]或者[a-c],均表示匹配abc中的一個字元。同時,可以將第一個字元設為^,用來表示取反,如[^abc]表示除了abc以外的字元。
註意,所有的特殊字元在[]內都失去其原有的特殊含義,如[.]僅表示匹配字元.而不是匹配任意字元了,當然,如果要使用]、-或^三個字元,仍需要使用轉義字元\ |
[abc] [a-c] |
a b c |
{m} | m是一個非負整數,表示匹配前一個字元m次 | abc{2} | abcc |
{m,n} | m和n都是非負整數,且m≤n,表示最少匹配m次且最多匹配n次 | ab{2,4}c | abbc |
| | 邏輯或,匹配左右表達式中的任意一個。具有“短路”特點,先匹配左側表達式,再匹配右側表達式。建議用()括起來,否則會作用於整個正則表達式 | abc|123 |
abc 123 |
() | 括弧,將表達式括起來作為一個分組。分組表達式是一個整體 | a(bc)?d |
ad abcd |
定位符 | |||
^ | 匹配字元串的開頭字元 | ^abc | abc |
$ | 匹配字元串的結尾字元 | abc$ | abc |
\b |
匹配一個單詞的邊界 如\bab表示匹配字元串ab且ab前面要是空格 如ab\b表示匹配字元串ab且ab後面要是空格 |
\bab |
可以匹配到abc中的ab 無法匹配到cab中的ab |
\B | 匹配非邊界 | \Bab |
可以匹配到cab中的ab 無法匹配到abc中的ab |
預定義字元集 | |||
\d | 匹配數字,等價於[0-9] | a\dc | a1c |
\D | 匹配非數字,等價於[^\d] | a\Dc | abc |
\s | 匹配空白字元,包括空格、製表符、換頁符等 | a\sc | a c |
\S | 匹配非空白字元,等價於[^\s] | a\Sc | abc |
\w | 匹配字母數字下劃線,等價於[a-zA-Z0-9_] | a\wc | a_c |
\W | 匹配非字母數字下劃線,等價於[^\w] | a\Wc | a c |