pcre和正則表達式的誤點

来源:http://www.cnblogs.com/f-ck-need-u/archive/2017/10/18/7684762.html
-Advertisement-
Play Games

1.正則中所有的匹配模式,都應該理解為"匹配了某字元或字元串後,緊跟著再匹配"。這個概念很重要。 2.中括弧首部使用脫字元時,表示的是緊跟著匹配不含給定字元的字元,而不是允許不匹配給定的字元。 它們大多數時候是等價的,但在匹配行尾時,意義不同,例如:Aa[^bcd]$ 所匹配的行允許是Aaa$或Aa ...


1.正則中所有的匹配模式,都應該理解為"匹配了某字元或字元串後,緊跟著再匹配"。這個概念很重要。

2.中括弧首部使用脫字元時,表示的是緊跟著匹配不含給定字元的字元,而不是允許不匹配給定的字元。
它們大多數時候是等價的,但在匹配行尾時,意義不同,例如:Aa[^bcd]$ 所匹配的行允許是Aaa$或Aax$,但不允許僅是Aa$。
這就是正則中"緊跟著匹配"的意思。

3.(\.[0-9]+)? 可匹配小數點部分,不能寫成 (\.?[0-9]*) ,後者即使不能匹配小數點,也能匹配原本處於小數點後的數值

4.perl正則括弧分組時,使用(?:替代左括弧(,可以表示只分組不捕獲。所謂的捕獲表示的是可以反向引用或保存到正則外部的變數中
([-+]?[0-9]+(\.[0-9]+)?) *(cm|mm) :(cm|mm)將保存為$3
([-+]?[0-9]+(?:\.[0-9]+)?) *(cm|mm) : (cm|mm)將保存為$2

5.特殊錨定符,錨定所匹配的是位置,而非字元,行首^和行尾$同樣如此。
註意某些程式對單詞的理解和邊界定義不一樣,且有些程式並不完全支持下列所有的特殊元字元
例如gnu grep 2.6版本就不支持\s和\d,而gnu grep 2.20支持\s但不支持\d
'\b':匹配單詞邊界處的空字元Match the empty string at the edge of a word.
'\B':匹配單詞邊界處的非空字元Match the empty string provided it's not at the edge of a word.
'\<':匹配單詞開頭處的空字元Match the empty string at the beginning of word.
'\>':匹配單詞結尾處的空字元Match the empty string at the end of word.
'\w':匹配單詞構成部分Match word constituent, it is a synonym for `[_[:alnum:]]'.
'\W':匹配單詞非構成部分Match non-word constituent, it is a synonym for `[^_[:alnum:]]'.
'\s':匹配空白字元Match whitespace, it is a synonym for `[[:space:]]'.
'\S':匹配非空白字元Match non-whitespace, it is a synonym for `[^[:space:]]'.
'\d':匹配數字it is a synonym for `[0-9]'.
'\D':匹配非數字it is a synonym for `[^0-9]'.

For example, '\brat\b' matches the separate word 'rat', '\Brat\B' matches 'crate' but not 'furry rat'.

6.字元類,註意某些程式並不完全支持下列所有的字元類
'[:alnum:]' :same as '[0-9A-Za-z]'.
'[:alpha:]' :'[:lower:]' and '[:upper:]', same as '[A-Za-z]'.
'[:lower:]' :
'[:upper:]' :
'[:digit:]' :'0 1 2 3 4 5 6 7 8 9'.
'[:xdigit:]' :Hex digits: `0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f'.

'[:blank:]' :space and tab.
'[:space:]' :tab, newline, vertical tab, form feed, carriage return, and space.
'[:punct:]' :Punctuation characters; this is '! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~'.
'[:print:]' :'[:alnum:]', '[:punct:]', and space.
'[:graph:]' :Graphical characters: '[:alnum:]' and '[:punct:]'.

'[:cntrl:]' :Control characters. octal codes 000 through 037, and 177 (`DEL').

7.同一個表達式中,被匹配過的字元無法被第二次匹配。因為正則的宗旨是:匹配了某字元或字元串後,緊跟著再匹配。
例如字元串"#c#",正則表達式"(#.)(.#)"無法匹配。
再例如字元串"#cc#",正則表達式"(.#)(.*)(.#)"能匹配成功,只不過第二個分組只能匹配空。

8."環視"錨定,即lookaround anchor。
以 (?= 替代左括弧表示從左向右的順序環視,例如(?=\d)表示當前字元的右邊是一個數字時就滿足條件
以 (?<= 替代左括弧表示從右向左的逆序環視,例如(?<=\d)表示當前字元的左邊是一個數字時就滿足條件

  • 正向環視:(?=...)和(?!...)
  • 逆向環視:(?<=...)和(?<!...)

逆向環視的表達式必須只能表示固定長度的字元串,例如(?<=word)或(?<=word|word)可以,但(?<=word?)不可以,因為?匹配0或1長度,長度不定。
在PCRE中,可重寫為(?<=word|words),但perl中不允許,因為perl嚴格要求長度必須固定。
9.關於"環視"錨定,最需要註意的一點是匹配的結果不占用任何字元,它僅僅只是錨定位置。
例如:your name is longshuai MA 和 your name is longfei MA
使用(?=longshuai)將能錨定第一個句子中單詞"longshuai"前面的空字元,但它的匹配結果是"longshuai"前的空白字元,
所以(?=longshuai)long才能代表"long"這幾個字元串
所以僅對於此處的兩個句子,long(?=shuai)和(?=longshuai)long是等價的

10.貪婪匹配、惰性匹配和占有優先匹配
預設情況下,對於重覆次數的表達式都是貪婪匹配,表示儘可能多的匹配。
有些高級正則引擎支持惰性匹配,表示儘可能少的匹配,只要能滿足條件就立即停止。

  • * + ? {M,N} :都是貪婪匹配(lazy)
  • *? +? ?? {M,N}? :都是惰性匹配(greedy)
  • *+ ++ ?++ {M,N}+ :都是占有優先匹配(possessive)

占有優先和固化分組是相同的,只要占有了就不再交換,不允許進行回溯。示例見下麵的(?>...)固化分組方式

11.匹配模式

  • (?i):不區分大小寫,可使用(?-i)取消該模式。例如"(?i)abc(?-i)cdB"只對中間的abc進行不區分大小寫的匹配
    • 由於(?i)遇到閉括弧就失效,可以將需要不區分大小寫匹配的部分寫入分組括弧中,例如"((?i)abc)cdB",(?:(?i)abc)cdB=(?i:abc)cdB
  • (?x):extend模式,將忽略多個連續空格和註釋符到行尾的字元
  • (?m):(multiline)多行模式,改變^和$的匹配模式。預設模式下,它們匹配字元串首部和尾部。此模式下:
    • ^將匹配字元串首部和換行符。若要僅匹配字元串首部,使用\A。
    • $將匹配字元串尾部、換行符和換行符前的空字元。若要僅匹配字元串尾部和行尾,使用\Z,若要僅匹配字元串尾部,使用\z
  • (?s):(singleline或dotall)單行模式,改變"."的匹配模式,預設模式下,點"."無法匹配換行符,dotall模式下可以
  • (?U):lazy匹配模式。預設是greedy匹配。

12.強制字面解釋:\Q...\E。該序列將其中間的所有字元強制解釋為字面符號,強制性極強。
但perl和pcre有所不同。perl中,該序列中間可引用變數進行變數替換,而pcre中變數符號也被當作普通字元。

13.普通分組和捕獲

  • (),$1,$2,$3,$4...有些地方使用\1,\2,\3,\4,sed中使用&表示所有匹配,perl中則使用$&
  • \g1,\g2,\g3或\g{1},\g{2},\g{3}。

其中$1,$2, ...用於正則外面,而"\g1", "\g2", ... 用於正則內部

14.命名分組和捕獲

  • (?:...):非命名捕獲,僅用於分組,不可用於引用,也稱為非捕獲型括弧。例如"(1|one)(?:2|two)(3|three)",$1=(1|one),$2=(3|three)
  • (?<NAME>...):命名捕獲,分組捕獲後還命名,就像變數賦值一樣。可以使用\k<NAME>或\k'NAME'或\g{NAME}的方法來引用
  • (?>...):固化分組。一匹配成功就永不交回內容(用回溯的想法理解很容易)。

例如"hello world"可以被"hel.* world"進行匹配,但不能被"hel(?>.*) world"匹配。
因為正常情況下,".*"匹配到所有內容,然後回溯釋放一匹配內容直到空格" "字元。而固化分組後,已匹配的內容絕不交回,也就無法回溯。

 

回到Linux系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7048359.html

回到網站架構系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7576137.html

回到資料庫系列文章大綱:http://www.cnblogs.com/f-ck-need-u/p/7586194.html

轉載請註明出處:http://www.cnblogs.com/f-ck-need-u/p/7684762.html

註:若您覺得這篇文章還不錯請點擊右下角推薦,您的支持能激發作者更大的寫作熱情,非常感謝!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • preface 1.centos operating system. 2.database is oracle 11g. 3.oracle account is scott. step 1.enter into sql windows.follw the below screenshot codes ...
  • 一、Oracle 中的幾個服務 1.OracleDBConsoleorcl 進程:nmesrvc.exe oem控制台服務進程,dba用。Oracle Enterprise Manager(Oracle企業管理器,簡稱OEM)是通過一組Oracle程式,為管理分散式環境提供了管理服務。OEM包括了一 ...
  • --step 1 : 修改資料庫名稱 USE master GO ALTER DATABASE GeovinDuCms SET SINGLE_USER WITH ROLLBACK IMMEDIATE GO EXEC master..sp_renamedb 'GeovinDuCms','DuCms' ... ...
  • 包含要點: 資料庫的迴圈 、 insert select 句式 、 隨機數(rand()函數)、絕對值(abs()函數) ...
  • Oracle是目前最流行的資料庫之一。功能強大,性能卓越。所以學起來比較困難。學習Oracle需要具備一定的基礎。比如學習過一門編程語言,或者學過其他的資料庫等,沒有一些基礎很難下手。 一、Oracle的簡述 1.目前主流資料庫: SQLServer mysql Access Oracle / DB ...
  • 一、安裝 PostgresSQL Centos 7 自帶的 PostgresSQL 是 9.2 版的。因為,yum 已經做了國內源,速度飛快,所以直接就用 yum 安裝了。依次執行以下命令即可,非常簡單。 如果需要安裝最新的版本,那就按官網上的說明來吧,但那個下載速度實在是…… https://ww ...
  • char、varchar、nchar、nvarchar、text的區別 1.有var首碼的,表示是實際存儲空間是變長的,varchar,nvarchar 所謂定長就是長度固定的,當輸入的數據長度沒有達到指定的長度時將自動以英文空格在其後面填充,使長度達到相應的長度,當你輸入的字元大於指定的數時,它會 ...
  • PreparedStatement 1、 2、 3、 4、 並沒有select ?,? from book的形式,都是值為多少的形式 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...