pcre和正則表達式的誤點_ZenDei技術網路在線

1.正則中所有的匹配模式，都應該理解為"匹配了某字元或字元串後，緊跟著再匹配"。這個概念很重要。 2.中括弧首部使用脫字元時，表示的是緊跟著匹配不含給定字元的字元，而不是允許不匹配給定的字元。它們大多數時候是等價的，但在匹配行尾時，意義不同，例如：Aa[^bcd]$ 所匹配的行允許是Aaa$或Aa ...

1.正則中所有的匹配模式，都應該理解為"匹配了某字元或字元串後，緊跟著再匹配"。這個概念很重要。

2.中括弧首部使用脫字元時，表示的是緊跟著匹配不含給定字元的字元，而不是允許不匹配給定的字元。
它們大多數時候是等價的，但在匹配行尾時，意義不同，例如：Aa[^bcd]$ 所匹配的行允許是Aaa$或Aax$，但不允許僅是Aa$。
這就是正則中"緊跟著匹配"的意思。

3.(\.[0-9]+)? 可匹配小數點部分，不能寫成 (\.?[0-9]*) ，後者即使不能匹配小數點，也能匹配原本處於小數點後的數值

4.perl正則括弧分組時，使用(?:替代左括弧(，可以表示只分組不捕獲。所謂的捕獲表示的是可以反向引用或保存到正則外部的變數中
([-+]?[0-9]+(\.[0-9]+)?) *(cm|mm) ：(cm|mm)將保存為$3
([-+]?[0-9]+(?:\.[0-9]+)?) *(cm|mm) : (cm|mm)將保存為$2

5.特殊錨定符，錨定所匹配的是位置，而非字元，行首^和行尾$同樣如此。
註意某些程式對單詞的理解和邊界定義不一樣，且有些程式並不完全支持下列所有的特殊元字元
例如gnu grep 2.6版本就不支持\s和\d，而gnu grep 2.20支持\s但不支持\d
'\b'：匹配單詞邊界處的空字元Match the empty string at the edge of a word.
'\B'：匹配單詞邊界處的非空字元Match the empty string provided it's not at the edge of a word.
'\<'：匹配單詞開頭處的空字元Match the empty string at the beginning of word.
'\>'：匹配單詞結尾處的空字元Match the empty string at the end of word.
'\w'：匹配單詞構成部分Match word constituent, it is a synonym for `[_[:alnum:]]'.
'\W'：匹配單詞非構成部分Match non-word constituent, it is a synonym for `[^_[:alnum:]]'.
'\s'：匹配空白字元Match whitespace, it is a synonym for `[[:space:]]'.
'\S'：匹配非空白字元Match non-whitespace, it is a synonym for `[^[:space:]]'.
'\d'：匹配數字it is a synonym for `[0-9]'.
'\D'：匹配非數字it is a synonym for `[^0-9]'.

For example, '\brat\b' matches the separate word 'rat', '\Brat\B' matches 'crate' but not 'furry rat'.

6.字元類，註意某些程式並不完全支持下列所有的字元類
'[:alnum:]' ：same as '[0-9A-Za-z]'.
'[:alpha:]' ：'[:lower:]' and '[:upper:]'， same as '[A-Za-z]'.
'[:lower:]' ：
'[:upper:]' ：
'[:digit:]' ：'0 1 2 3 4 5 6 7 8 9'.
'[:xdigit:]' ：Hex digits: `0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f'.

'[:blank:]' ：space and tab.
'[:space:]' ：tab, newline, vertical tab, form feed, carriage return, and space.
'[:punct:]' ：Punctuation characters; this is '! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~'.
'[:print:]' ：'[:alnum:]', '[:punct:]', and space.
'[:graph:]' ：Graphical characters: '[:alnum:]' and '[:punct:]'.

'[:cntrl:]' ：Control characters. octal codes 000 through 037, and 177 (`DEL').

7.同一個表達式中，被匹配過的字元無法被第二次匹配。因為正則的宗旨是：匹配了某字元或字元串後，緊跟著再匹配。
例如字元串"#c#"，正則表達式"(#.)(.#)"無法匹配。
再例如字元串"#cc#"，正則表達式"(.#)(.*)(.#)"能匹配成功，只不過第二個分組只能匹配空。

8."環視"錨定，即lookaround anchor。
以 (?= 替代左括弧表示從左向右的順序環視，例如(?=\d)表示當前字元的右邊是一個數字時就滿足條件
以 (?<= 替代左括弧表示從右向左的逆序環視，例如(?<=\d)表示當前字元的左邊是一個數字時就滿足條件

正向環視：(?=...)和(?!...)
逆向環視：(?<=...)和(?<!...)

逆向環視的表達式必須只能表示固定長度的字元串，例如(?<=word)或(?<=word|word)可以，但(?<=word?)不可以，因為?匹配0或1長度，長度不定。
在PCRE中，可重寫為(?<=word|words)，但perl中不允許，因為perl嚴格要求長度必須固定。
9.關於"環視"錨定，最需要註意的一點是匹配的結果不占用任何字元，它僅僅只是錨定位置。
例如：your name is longshuai MA 和 your name is longfei MA
使用(?=longshuai)將能錨定第一個句子中單詞"longshuai"前面的空字元，但它的匹配結果是"longshuai"前的空白字元，
所以(?=longshuai)long才能代表"long"這幾個字元串
所以僅對於此處的兩個句子，long(?=shuai)和(?=longshuai)long是等價的

10.貪婪匹配、惰性匹配和占有優先匹配
預設情況下，對於重覆次數的表達式都是貪婪匹配，表示儘可能多的匹配。
有些高級正則引擎支持惰性匹配，表示儘可能少的匹配，只要能滿足條件就立即停止。

* + ? {M,N} ：都是貪婪匹配(lazy)
*? +? ?? {M,N}? ：都是惰性匹配(greedy)
*+ ++ ?++ {M,N}+ ：都是占有優先匹配(possessive)

占有優先和固化分組是相同的，只要占有了就不再交換，不允許進行回溯。示例見下麵的(?>...)固化分組方式

11.匹配模式

(?i)：不區分大小寫，可使用(?-i)取消該模式。例如"(?i)abc(?-i)cdB"只對中間的abc進行不區分大小寫的匹配
- 由於(?i)遇到閉括弧就失效，可以將需要不區分大小寫匹配的部分寫入分組括弧中，例如"((?i)abc)cdB"，(?:(?i)abc)cdB=(?i:abc)cdB
(?x)：extend模式，將忽略多個連續空格和註釋符到行尾的字元
(?m)：(multiline)多行模式，改變^和$的匹配模式。預設模式下，它們匹配字元串首部和尾部。此模式下：
- ^將匹配字元串首部和換行符。若要僅匹配字元串首部，使用\A。
- $將匹配字元串尾部、換行符和換行符前的空字元。若要僅匹配字元串尾部和行尾，使用\Z，若要僅匹配字元串尾部，使用\z
(?s)：(singleline或dotall)單行模式，改變"."的匹配模式，預設模式下，點"."無法匹配換行符，dotall模式下可以
(?U)：lazy匹配模式。預設是greedy匹配。

12.強制字面解釋：\Q...\E。該序列將其中間的所有字元強制解釋為字面符號，強制性極強。
但perl和pcre有所不同。perl中，該序列中間可引用變數進行變數替換，而pcre中變數符號也被當作普通字元。

13.普通分組和捕獲

(),$1,$2,$3,$4...有些地方使用\1,\2,\3,\4，sed中使用&表示所有匹配，perl中則使用$&
\g1,\g2,\g3或\g{1},\g{2},\g{3}。

其中$1,$2, ...用於正則外面，而"\g1", "\g2", ... 用於正則內部

14.命名分組和捕獲

(?:...)：非命名捕獲，僅用於分組，不可用於引用，也稱為非捕獲型括弧。例如"(1|one)(?:2|two)(3|three)"，$1=(1|one)，$2=(3|three)
(?<NAME>...)：命名捕獲，分組捕獲後還命名，就像變數賦值一樣。可以使用\k<NAME>或\k'NAME'或\g{NAME}的方法來引用
(?>...)：固化分組。一匹配成功就永不交回內容(用回溯的想法理解很容易)。

例如"hello world"可以被"hel.* world"進行匹配，但不能被"hel(?>.*) world"匹配。
因為正常情況下，".*"匹配到所有內容，然後回溯釋放一匹配內容直到空格" "字元。而固化分組後，已匹配的內容絕不交回，也就無法回溯。

pcre和正則表達式的誤點

回到Linux系列文章大綱：http://www.cnblogs.com/f-ck-need-u/p/7048359.html

回到網站架構系列文章大綱：http://www.cnblogs.com/f-ck-need-u/p/7576137.html

回到資料庫系列文章大綱：http://www.cnblogs.com/f-ck-need-u/p/7586194.html

轉載請註明出處：http://www.cnblogs.com/f-ck-need-u/p/7684762.html

註：若您覺得這篇文章還不錯請點擊右下角推薦，您的支持能激發作者更大的寫作熱情，非常感謝！