python正則表達式_ZenDei技術網路在線

python正則表達式

-Advertisement-

關於python正則表達式學習小結： 1.首先推薦學習網站：菜鳥學習：http://www.runoob.com/python/python-reg-expressions.html 慕課網：http://www.imooc.com/learn/550 自強學堂：http://code.ziqia ...

關於python正則表達式學習小結：

　　慕課網：http://www.imooc.com/learn/550

　　自強學堂：http://code.ziqiangxuetang.com/regexp/regexp-tutorial.html

2.推薦書籍：python基礎教程、python核心編程（有python基礎）

3.個人小結：

　　python最重要的還是源碼學習！

　　Python 自1.5版本起增加了re 模塊，它提供 Perl 風格的正則表達式模式。re 模塊使 Python 語言擁有全部的正則表達式功能。

　　正則表達式匹配主要包含：單個字元匹配、邊界匹配、字元集匹配、限定範圍和否定、分組匹配和擴展表示法。下麵依次學習總結：

　　1.單個字元匹配

\cx	匹配由 x 指明的控制字元。例如， \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則，將 c 視為一個原義的 'c' 字元。
\d	匹配一個數字字元。等價於 [0-9]。
\D	匹配一個非數字字元。等價於 [^0-9]。
\f	匹配一個換頁符。等價於 \x0c 和 \cL。
\n	匹配一個換行符。等價於 \x0a 和 \cJ。
\r	匹配一個回車符。等價於 \x0d 和 \cM。
\s	匹配任何空白字元，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S	匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。
\t	匹配一個製表符。等價於 \x09 和 \cI。
\v	匹配一個垂直製表符。等價於 \x0b 和 \cK。
\w	匹配包括下劃線的任何單詞字元。等價於'[A-Za-z0-9_]'。
\W	匹配任何非單詞字元。等價於 '[^A-Za-z0-9_]'。
\xn	匹配 n，其中 n 為十六進位轉義值。十六進位轉義值必須為確定的兩個數字長。例如，'\x41' 匹配 "A"。'\x041' 則等價於 '\x04' & "1"。正則表達式中可以使用 ASCII 編碼。
\num	匹配 num，其中 num 是一個正整數。對所獲取的匹配的引用。例如，'(.)\1' 匹配兩個連續的相同字元。
\n	標識一個八進位轉義值或一個向後引用。如果 \n 之前至少 n 個獲取的子表達式，則 n 為向後引用。否則，如果 n 為八進位數字 (0-7)，則 n 為一個八進位轉義值。
\nm	標識一個八進位轉義值或一個向後引用。如果 \nm 之前至少有 nm 個獲得子表達式，則 nm 為向後引用。如果 \nm 之前至少有 n 個獲取，則 n 為一個後跟文字 m 的向後引用。如果前面的條件都不滿足，若 n 和 m 均為八進位數字 (0-7)，則 \nm 將匹配八進位轉義值 nm。
\nml	如果 n 為八進位數字 (0-3)，且 m 和 l 均為八進位數字 (0-7)，則匹配八進位轉義值 nml。
\un	匹配 n，其中 n 是一個用四個十六進位數字表示的 Unicode 字元。例如， \u00A9 匹配版權符號 (?)。

　　2.邊界匹配

\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。

^\|\A	匹配輸入字元串的開始位置。如果設置了 RegExp 對象的 Multiline 屬性，^ 也匹配 '\n' 或 '\r' 之後的位置。
$\|\Z	匹配輸入字元串的結束位置。如果設置了RegExp 對象的 Multiline 屬性，$ 也匹配 '\n' 或 '\r' 之前的位置。

　　3.字元集匹配

[xyz]	字元集合。匹配所包含的任意一個字元。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	負值字元集合。匹配未包含的任意字元。例如， '[^abc]' 可以匹配 "plain" 中的'p'。

　　4.限定範圍和否定

[a-z]	字元範圍。匹配指定範圍內的任意字元。例如，'[a-z]' 可以匹配 'a' 到 'z' 範圍內的任意小寫字母字元。
[^a-z]	負值字元範圍。匹配任何不在指定範圍內的任意字元。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 範圍內的任意字元。

　　5.分組匹配

\d+(\.\d*)?	表示簡單浮點數的字元串。
([\w]+)\w+\1	匹配html或者xml標簽.<span>python<span>

　　6.擴展表示法

(?:pattern)	匹配 pattern 但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以後使用。例如， 'industr(?:y\|ies) 就是一個比 'industry\|industries' 更簡略的表達式。
(?=pattern)	正向預查，在任何匹配 pattern 的字元串開始處匹配查找字元串。
(?!pattern)	負向預查，在任何不匹配 pattern 的字元串開始處匹配查找字元串。
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 則匹配 "zood" 或 "food"。

　　最重要的是命名組合以及非貪婪的使用：

　　　　(*|+|?|{})?用於匹配上面頻繁出現重覆的符號的非貪婪版本。

　　　　(?P<name>...)#name是一個合法的標識符，用於命名捕獲組。

　　　另外：

　　　　python定義pattern最好使用原始字元：pattern=r'pattern'

　　　最後附上python doc -re module：https://docs.python.org/3/library/re.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

求100以內的質數

求100以內的質數。 ...
P1939 【模板】矩陣加速（數列）

題目描述 a[1]=a[2]=a[3]=1 a[x]=a[x-3]+a[x-1] (x>3) 求a數列的第n項對1000000007（10^9+7）取餘的值。輸入輸出格式輸入格式：第一行一個整數T，表示詢問個數。以下T行，每行一個正整數n。輸出格式：每行輸出一個非負整數表示答案。輸入輸 ...
python 網路框架twisted基礎學習及詳細講解

twisted網路框架的三個基礎模塊：Protocol, ProtocolFactory, Transport.這三個模塊是構成twisted伺服器端與客戶端程式的基本。Protocol：Protocol對象實現協議內容，即通信的內容協議ProtocolFactory: 是工廠模式的體現，在這裡面生 ...
淺談Python在信息學競賽中的運用及Python的基本用法

淺談Python在信息學競賽中的運用及Python的基本用法前言眾所周知，Python是一種非常實用的語言。但是由於其運算時的低效和解釋型編譯，在信息學競賽中並不用於完成演算法程式。但正如LRJ在《演算法競賽入門經典訓練指南》中所說的一樣，如果會用Python，在進行一些小程式的編寫，如數據生成器 ...
HDU 1575 Tr A（矩陣快速冪）

Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 5537 Accepted Submission(s): 4161 Problem Descrip ...
php簡單中獎演算法

今天遇到這樣的一個問題封裝一個抽獎概率函數思前想後去網上找點資料吧,而且不止一種方法這種我感覺還是比較容易的還是那句話實現功能的思路不止一種代碼也不止一種 1 function get_rand($proArr) { 2 $result = ''; 3 4 //概率數組的總概率精度 5... ...
HDU 1005 Number Sequence（矩陣）

Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 177761 Accepted Submission(s): 44124 Problem Desc ...
Apache崩掉：為進程配置合適的線程數

放假以來，伺服器Apache二次崩掉了，不能再拖了，找bug解決； <! more 崩掉的具體狀況是，伺服器出現彈框顯示：Apache停止工作；順手關掉這個可惡的小彈框，世界就清靜了，伺服器正常運行；具體問題： lxx__lxx__lxx__lxx__lxx__lxx__lxx__lxx____ ...