1.正則中所有的匹配模式,都應該理解為"匹配了某字元或字元串後,緊跟著再匹配"。這個概念很重要。 2.中括弧首部使用脫字元時,表示的是緊跟著匹配不含給定字元的字元,而不是允許不匹配給定的字元。 它們大多數時候是等價的,但在匹配行尾時,意義不同,例如:Aa[^bcd]$ 所匹配的行允許是Aaa$或Aa ...
1.正則中所有的匹配模式,都應該理解為"匹配了某字元或字元串後,緊跟著再匹配"。這個概念很重要。
2.中括弧首部使用脫字元時,表示的是緊跟著匹配不含給定字元的字元,而不是允許不匹配給定的字元。
它們大多數時候是等價的,但在匹配行尾時,意義不同,例如:Aa[^bcd]$ 所匹配的行允許是Aaa$或Aax$,但不允許僅是Aa$。
這就是正則中"緊跟著匹配"的意思。
3.(\.[0-9]+)? 可匹配小數點部分,不能寫成 (\.?[0-9]*) ,後者即使不能匹配小數點,也能匹配原本處於小數點後的數值
4.perl正則括弧分組時,使用(?:替代左括弧(,可以表示只分組不捕獲。所謂的捕獲表示的是可以反向引用或保存到正則外部的變數中
([-+]?[0-9]+(\.[0-9]+)?) *(cm|mm) :(cm|mm)將保存為$3
([-+]?[0-9]+(?:\.[0-9]+)?) *(cm|mm) : (cm|mm)將保存為$2
5.特殊錨定符,錨定所匹配的是位置,而非字元,行首^和行尾$同樣如此。
註意某些程式對單詞的理解和邊界定義不一樣,且有些程式並不完全支持下列所有的特殊元字元
例如gnu grep 2.6版本就不支持\s和\d,而gnu grep 2.20支持\s但不支持\d
'\b':匹配單詞邊界處的空字元Match the empty string at the edge of a word.
'\B':匹配單詞邊界處的非空字元Match the empty string provided it's not at the edge of a word.
'\<':匹配單詞開頭處的空字元Match the empty string at the beginning of word.
'\>':匹配單詞結尾處的空字元Match the empty string at the end of word.
'\w':匹配單詞構成部分Match word constituent, it is a synonym for `[_[:alnum:]]'.
'\W':匹配單詞非構成部分Match non-word constituent, it is a synonym for `[^_[:alnum:]]'.
'\s':匹配空白字元Match whitespace, it is a synonym for `[[:space:]]'.
'\S':匹配非空白字元Match non-whitespace, it is a synonym for `[^[:space:]]'.
'\d':匹配數字it is a synonym for `[0-9]'.
'\D':匹配非數字it is a synonym for `[^0-9]'.
For example, '\brat\b' matches the separate word 'rat', '\Brat\B' matches 'crate' but not 'furry rat'.
6.字元類,註意某些程式並不完全支持下列所有的字元類
'[:alnum:]' :same as '[0-9A-Za-z]'.
'[:alpha:]' :'[:lower:]' and '[:upper:]', same as '[A-Za-z]'.
'[:lower:]' :
'[:upper:]' :
'[:digit:]' :'0 1 2 3 4 5 6 7 8 9'.
'[:xdigit:]' :Hex digits: `0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f'.
'[:blank:]' :space and tab.
'[:space:]' :tab, newline, vertical tab, form feed, carriage return, and space.
'[:punct:]' :Punctuation characters; this is '! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~'.
'[:print:]' :'[:alnum:]', '[:punct:]', and space.
'[:graph:]' :Graphical characters: '[:alnum:]' and '[:punct:]'.
'[:cntrl:]' :Control characters. octal codes 000 through 037, and 177 (`DEL').
7.同一個表達式中,被匹配過的字元無法被第二次匹配。因為正則的宗旨是:匹配了某字元或字元串後,緊跟著再匹配。
例如字元串"#c#",正則表達式"(#.)(.#)"無法匹配。
再例如字元串"#cc#",正則表達式"(.#)(.*)(.#)"能匹配成功,只不過第二個分組只能匹配空。
8."環視"錨定,即lookaround anchor。
以 (?= 替代左括弧表示從左向右的順序環視,例如(?=\d)表示當前字元的右邊是一個數字時就滿足條件
以 (?<= 替代左括弧表示從右向左的逆序環視,例如(?<=\d)表示當前字元的左邊是一個數字時就滿足條件
- 正向環視:(?=...)和(?!...)
- 逆向環視:(?<=...)和(?<!...)
逆向環視的表達式必須只能表示固定長度的字元串,例如(?<=word)或(?<=word|word)可以,但(?<=word?)不可以,因為?匹配0或1長度,長度不定。
在PCRE中,可重寫為(?<=word|words),但perl中不允許,因為perl嚴格要求長度必須固定。
9.關於"環視"錨定,最需要註意的一點是匹配的結果不占用任何字元,它僅僅只是錨定位置。
例如:your name is longshuai MA 和 your name is longfei MA
使用(?=longshuai)將能錨定第一個句子中單詞"longshuai"前面的空字元,但它的匹配結果是"longshuai"前的空白字元,
所以(?=longshuai)long才能代表"long"這幾個字元串
所以僅對於此處的兩個句子,long(?=shuai)和(?=longshuai)long是等價的
10.貪婪匹配、惰性匹配和占有優先匹配
預設情況下,對於重覆次數的表達式都是貪婪匹配,表示儘可能多的匹配。
有些高級正則引擎支持惰性匹配,表示儘可能少的匹配,只要能滿足條件就立即停止。
- * + ? {M,N} :都是貪婪匹配(lazy)
- *? +? ?? {M,N}? :都是惰性匹配(greedy)
- *+ ++ ?++ {M,N}+ :都是占有優先匹配(possessive)
占有優先和固化分組是相同的,只要占有了就不再交換,不允許進行回溯。示例見下麵的(?>...)固化分組方式
11.匹配模式
- (?i):不區分大小寫,可使用(?-i)取消該模式。例如"(?i)abc(?-i)cdB"只對中間的abc進行不區分大小寫的匹配
- 由於(?i)遇到閉括弧就失效,可以將需要不區分大小寫匹配的部分寫入分組括弧中,例如"((?i)abc)cdB",(?:(?i)abc)cdB=(?i:abc)cdB
- (?x):extend模式,將忽略多個連續空格和註釋符到行尾的字元
- (?m):(multiline)多行模式,改變^和$的匹配模式。預設模式下,它們匹配字元串首部和尾部。此模式下:
- ^將匹配字元串首部和換行符。若要僅匹配字元串首部,使用\A。
- $將匹配字元串尾部、換行符和換行符前的空字元。若要僅匹配字元串尾部和行尾,使用\Z,若要僅匹配字元串尾部,使用\z
- (?s):(singleline或dotall)單行模式,改變"."的匹配模式,預設模式下,點"."無法匹配換行符,dotall模式下可以
- (?U):lazy匹配模式。預設是greedy匹配。
12.強制字面解釋:\Q...\E。該序列將其中間的所有字元強制解釋為字面符號,強制性極強。
但perl和pcre有所不同。perl中,該序列中間可引用變數進行變數替換,而pcre中變數符號也被當作普通字元。
13.普通分組和捕獲
- (),$1,$2,$3,$4...有些地方使用\1,\2,\3,\4,sed中使用&表示所有匹配,perl中則使用$&
- \g1,\g2,\g3或\g{1},\g{2},\g{3}。
其中$1,$2, ...用於正則外面,而"\g1", "\g2", ... 用於正則內部
14.命名分組和捕獲
- (?:...):非命名捕獲,僅用於分組,不可用於引用,也稱為非捕獲型括弧。例如"(1|one)(?:2|two)(3|three)",$1=(1|one),$2=(3|three)
- (?<NAME>...):命名捕獲,分組捕獲後還命名,就像變數賦值一樣。可以使用\k<NAME>或\k'NAME'或\g{NAME}的方法來引用
- (?>...):固化分組。一匹配成功就永不交回內容(用回溯的想法理解很容易)。
例如"hello world"可以被"hel.* world"進行匹配,但不能被"hel(?>.*) world"匹配。
因為正常情況下,".*"匹配到所有內容,然後回溯釋放一匹配內容直到空格" "字元。而固化分組後,已匹配的內容絕不交回,也就無法回溯。