正則_ZenDei技術網路在線

簡潔而神秘的語法：正則表達式的語法非常簡潔，而且對於不熟悉正則表達式的人，看起來簡直很神秘。有時，正則表達式中看起來好像到處都充斥著反斜杠、圓括弧和方括弧。而只要理解正則表達式中每個字元串和元字元的作用，就能自己編寫正則表達式或者分析其他開發人員編寫的正則表達式。元字元是指在正則表達式模式中具有... ...

簡潔而神秘的語法：

正則表達式的語法非常簡潔，而且對於不熟悉正則表達式的人，看起來簡直很神秘。有時，正則表達式中看起來好像到處都充斥著反斜杠、圓括弧和方括弧。而只要理解正則表達式中每個字元串和元字元的作用，就能自己編寫正則表達式或者分析其他開發人員編寫的正則表達式。

元字元是指在正則表達式模式中具有特殊含義的字元或字元組合：\b,.,*，還有\d.正則表達式里還有更多的元字元，比如\s匹配任意的空白符，包括空格，製表符(Tab)，換行符，中文全形空格等。\w匹配字母或數字或下劃線或漢字等。

示例：

\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b)，然後是字母a,然後是任意數量的字母或數字(\w*)，最後是單詞結束處(\b)。

\d+匹配1個或更多連續的數字。這裡的+是和*類似的元字元，不同的是*匹配重覆任意次(可能是0次)，而+則匹配重覆1次或更多次。

空格會導致含義改變：

如果無意間在正則表達式中插入了空格，就會徹底改變正則表達式的含義，從而使得應該匹配的內容不在匹配，而不想匹配的內容卻匹配了。所以，在建立正則表達式模式時，必須要小心處理空格符。

沒有統一的語法標準：

正則表達式多樣化是因為沒有統一的標准定義正則表達式的語法。正則表達式最早是因為被Perl語言採用才引起人們註意的，由於遵循不同程度的精確性，導致了其他語言和應用程式中的正則表達式語法不相同。

不同環境下的字元含義不同：

正則表達式容易使人感到疑惑的另一個原因是，單個字元或者元字元，其使用環境不同，含義也會不同。例如，^元字元在某些語言的正則表達式中用於表示一行的開始位置。但就是在同一種語言環境下，^元字元類中使用時，就變成了否定的含義（或非、取反、補集——即不包括的意思。）有上可知，正則表達式模式^and匹配字元序列and位於一行開頭的情況，而正則表達式[^and]則表示一個包含a、b、d的字元類。

字元轉義：

如果你想查找元字元本身的話，比如你查找.,或者*,就出現了問題：你沒辦法指定它們，因為它們會被解釋成別的意思。這時你就得使用\來取消這些字元的特殊意義。因此，你應該使用\.和\*。當然，要查找\本身，你也得用\\.

例如：deerchao\.net匹配deerchao.net，C:\\Windows匹配C:\Windows。

重覆：

我們經常看到的無非就是*,+,{2},{5,12}這幾個匹配重覆的方式了。下麵是正則表達式中所有的限定符(指定數量的代碼，例如*,{5,12}等)：

代碼/語法	說明
*	重覆零次或更多次
+	重覆一次或更多次
？	重覆零次或一次
{n}	重覆n次
{n,}	重覆n次或更多次
{n,m}	重覆n到m次

下麵是一些使用重覆的例子：

Windows\d+匹配Windows後面跟1個或更多數字

^\w+匹配一行的第一個單詞(或整個字元串的第一個單詞，具體匹配哪個意思得看選項設置)

分支條件：

正則表達式里的分支條件指的是有幾種規則，如果滿足其中任意一種規則都應該當成匹配，具體方法是用|把不同的規則分隔開。聽不明白？沒關係，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字型大小分隔的電話號碼：一種是三位區號，8位本地號(如010-12345678)，一種是4位區號，7位本地號(0376-2233445)。

\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼，其中區號可以用小括弧括起來，也可以不用，區號與本地號間可以用連字型大小或空格間隔，也可以沒有間隔。你可以試試用分支條件把這個表達式擴展成也支持4位區號的。

\d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字，或者用連字型大小間隔的9位數字。之所以要給出這個例子是因為它能說明一個問題：使用分支條件時，要註意各個條件的順序。如果你把它改成\d{5}|\d{5}-\d{4}的話，那麼就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配分支條件時，將會從左到右地測試每個條件，如果滿足了某個分支的話，就不會去再管其它的條件了。

分組：

我們已經提到了怎麼重覆單個字元（直接在字元後面加上限定符就行了）；但如果想要重覆多個字元又該怎麼辦？你可以用小括弧來指定子表達式(也叫做分組)，然後你就可以指定這個子表達式的重覆次數了，你也可以對子表達式進行其它一些操作(後面會有介紹)。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式，請按下列順序分析它：\d{1,3}匹配1到3位的數字，(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重覆3次，最後再加上一個一到三位的數字(\d{1,3})。

IP地址中每個數字都不能大於255，大家千萬不要被《24》第三季的編劇給忽悠了……

不幸的是，它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術比較的話，或許能簡單地解決這個問題，但是正則表達式中並不提供關於數學的任何功能，所以只能使用冗長的分組，選擇，字元類來描述一個正確的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?，這裡我就不細說了，你自己應該能分析得出來它的意義。

反義：

有時需要查找不屬於某個能簡單定義的字元類的字元。比如想查找除了數字以外，其它任意字元都行的情況，這時需要用到反義：

代碼/語法	說明
\W	匹配任意不是字母，數字，下劃線，漢字的字元
\S	匹配任意不是空白符的字元
\D	匹配任意非數字的字元
\B	匹配不是單詞開頭或結束的位置
[^X]	匹配除了x以外的任意字元
[^aeiou]	匹配除了aeiou這幾個字母以外的任意字元

例子：\S+匹配不包含空白符的字元串。

<a[^>]+>匹配用尖括弧括起來的以a開頭的字元串。