python正則表達式

来源:http://www.cnblogs.com/jasonhaven/archive/2017/08/14/7360167.html
-Advertisement-
Play Games

關於python正則表達式學習小結: 1.首先推薦學習網站: 菜鳥學習:http://www.runoob.com/python/python-reg-expressions.html 慕課網:http://www.imooc.com/learn/550 自強學堂:http://code.ziqia ...


關於python正則表達式學習小結:

1.首先推薦學習網站:

  菜鳥學習:http://www.runoob.com/python/python-reg-expressions.html

  慕課網:http://www.imooc.com/learn/550

  自強學堂:http://code.ziqiangxuetang.com/regexp/regexp-tutorial.html

2.推薦書籍:python基礎教程、python核心編程(有python基礎)

3.個人小結:

  python最重要的還是源碼學習!

  Python 自1.5版本起增加了re 模塊,它提供 Perl 風格的正則表達式模式。re 模塊使 Python 語言擁有全部的正則表達式功能。

  正則表達式匹配主要包含:單個字元匹配、邊界匹配、字元集匹配、限定範圍和否定、分組匹配和擴展表示法。下麵依次學習總結:

  1.單個字元匹配

\cx 匹配由 x 指明的控制字元。例如, \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則,將 c 視為一個原義的 'c' 字元。
\d 匹配一個數字字元。等價於 [0-9]。
\D 匹配一個非數字字元。等價於 [^0-9]。
\f 匹配一個換頁符。等價於 \x0c 和 \cL。
\n 匹配一個換行符。等價於 \x0a 和 \cJ。
\r 匹配一個回車符。等價於 \x0d 和 \cM。
\s 匹配任何空白字元,包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S 匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。
\t 匹配一個製表符。等價於 \x09 和 \cI。
\v 匹配一個垂直製表符。等價於 \x0b 和 \cK。
\w 匹配包括下劃線的任何單詞字元。等價於'[A-Za-z0-9_]'。
\W 匹配任何非單詞字元。等價於 '[^A-Za-z0-9_]'。
\xn 匹配 n,其中 n 為十六進位轉義值。十六進位轉義值必須為確定的兩個數字長。例如,'\x41' 匹配 "A"。'\x041' 則等價於 '\x04' & "1"。正則表達式中可以使用 ASCII 編碼。
\num 匹配 num,其中 num 是一個正整數。對所獲取的匹配的引用。例如,'(.)\1' 匹配兩個連續的相同字元。
\n 標識一個八進位轉義值或一個向後引用。如果 \n 之前至少 n 個獲取的子表達式,則 n 為向後引用。否則,如果 n 為八進位數字 (0-7),則 n 為一個八進位轉義值。
\nm 標識一個八進位轉義值或一個向後引用。如果 \nm 之前至少有 nm 個獲得子表達式,則 nm 為向後引用。如果 \nm 之前至少有 n 個獲取,則 n 為一個後跟文字 m 的向後引用。如果前面的條件都不滿足,若 n 和 m 均為八進位數字 (0-7),則 \nm 將匹配八進位轉義值 nm。
\nml 如果 n 為八進位數字 (0-3),且 m 和 l 均為八進位數字 (0-7),則匹配八進位轉義值 nml。
\un 匹配 n,其中 n 是一個用四個十六進位數字表示的 Unicode 字元。例如, \u00A9 匹配版權符號 (?)。

  2.邊界匹配

\b      匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B 匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
^|\A 匹配輸入字元串的開始位置。如果設置了 RegExp 對象的 Multiline 屬性,^ 也匹配 '\n' 或 '\r' 之後的位置。
$|\Z 匹配輸入字元串的結束位置。如果設置了RegExp 對象的 Multiline 屬性,$ 也匹配 '\n' 或 '\r' 之前的位置。

  3.字元集匹配

[xyz] 字元集合。匹配所包含的任意一個字元。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz] 負值字元集合。匹配未包含的任意字元。例如, '[^abc]' 可以匹配 "plain" 中的'p'。

  4.限定範圍和否定

[a-z]      

字元範圍。匹配指定範圍內的任意字元。例如,'[a-z]' 可以匹配 'a' 到 'z' 範圍內的任意小寫字母字元。
[^a-z] 負值字元範圍。匹配任何不在指定範圍內的任意字元。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 範圍內的任意字元。

  5.分組匹配

\d+(\.\d*)? 

表示簡單浮點數的字元串。                              
([\w]+)\w+\1 匹配html或者xml標簽.<span>python<span>

  6.擴展表示法

(?:pattern) 匹配 pattern 但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以後使用。例如, 'industr(?:y|ies) 就是一個比 'industry|industries' 更簡略的表達式。
(?=pattern) 正向預查,在任何匹配 pattern 的字元串開始處匹配查找字元串。
(?!pattern) 負向預查,在任何不匹配 pattern 的字元串開始處匹配查找字元串。
x|y 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 則匹配 "zood" 或 "food"。

   最重要的是命名組合以及非貪婪的使用:

    (*|+|?|{})?用於匹配上面頻繁出現重覆的符號的非貪婪版本。

    (?P<name>...)#name是一個合法的標識符,用於命名捕獲組。

   另外:

    python定義pattern最好使用原始字元:pattern=r'pattern'

   最後附上python doc -re module:https://docs.python.org/3/library/re.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 求100以內的質數。 ...
  • 題目描述 a[1]=a[2]=a[3]=1 a[x]=a[x-3]+a[x-1] (x>3) 求a數列的第n項對1000000007(10^9+7)取餘的值。 輸入輸出格式 輸入格式: 第一行一個整數T,表示詢問個數。 以下T行,每行一個正整數n。 輸出格式: 每行輸出一個非負整數表示答案。 輸入輸 ...
  • twisted網路框架的三個基礎模塊:Protocol, ProtocolFactory, Transport.這三個模塊是構成twisted伺服器端與客戶端程式的基本。Protocol:Protocol對象實現協議內容,即通信的內容協議ProtocolFactory: 是工廠模式的體現,在這裡面生 ...
  • 淺談Python在信息學競賽中的運用及Python的基本用法 前言 眾所周知,Python是一種非常實用的語言。但是由於其運算時的低效和解釋型編譯,在信息學競賽中並不用於完成演算法程式。但正如LRJ在《演算法競賽入門經典 訓練指南》中所說的一樣,如果會用Python,在進行一些小程式的編寫,如數據生成器 ...
  • Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 5537 Accepted Submission(s): 4161 Problem Descrip ...
  • 今天遇到這樣的一個問題 封裝一個 抽獎概率函數 思前想後去網上找點資料吧,而且不止一種方法 這種我感覺還是比較容易的 還是那句話 實現功能的思路不止一種 代碼也不止一種 1 function get_rand($proArr) { 2 $result = ''; 3 4 //概率數組的總概率精度 5... ...
  • Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 177761 Accepted Submission(s): 44124 Problem Desc ...
  • 放假以來,伺服器Apache二次崩掉了,不能再拖了,找bug解決; <! more 崩掉的具體狀況是,伺服器出現彈框顯示:Apache停止工作; 順手關掉這個可惡的小彈框,世界就清靜了,伺服器正常運行; 具體問題: lxx__lxx__lxx__lxx__lxx__lxx__lxx__lxx____ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...