Python re 模塊

来源:https://www.cnblogs.com/ZJiQi/archive/2018/04/22/8905011.html
-Advertisement-
Play Games

Python re 模塊 TOC 介紹 作用 正則表達式語法 貪婪和非貪婪 普通字元和特殊字元 re modul level 方法 正則表達式對象 匹配對象 常用例子 註意事項 Jamie Zawinski said: Some people,when confronted with a probl ...


Python re 模塊

TOC

  • 介紹
    • 作用
  • 正則表達式語法
    • 貪婪和非貪婪
    • 普通字元和特殊字元
  • re modul level 方法
  • 正則表達式對象
  • 匹配對象
  • 常用例子
  • 註意事項

Jamie Zawinski said:

Some people,when confronted with a problem,think,"I know,I'll use regular expressions."
Now they have two problem!

當人們遇到一個問題,想到用正則表達式解決時。他們的問題馬上就變成了兩個問題
調侃正則表達式不好學。

  • python支持正則表達式是通過re模塊
  • Regular Expressions 也叫 REs,regex,regexp,regex patterns。看見這些名字就知道是正則表達式
  • Regex本質是一個小型的,高度專業的編程語言。很多高級語言都嵌入了Regex,Python只是通過re模塊來讓python可以支持Regex。
  • For advanced use ,it may be necessary to pay careful attention to how the engine will execute a given RE, and write the RE in a certain way in order to produce bytecode that runs faster.
  • 正則表達式不是全能的,也有一些處理不了的字元任務。
  • 正則表達式是對某種字元串的表示。一個字元串符合一個正則表達式規則,我們就說這個字元串匹配該正則表達式。
  • 匹配過後就可以做很多事情了。正則常用於處理:
    • 替換:將字元串中匹配到正則表達式的進行替換
    • 截取:將匹配的從字元串截取掉。根據start,end索引截取
    • 匹配邏輯判斷:匹配search ,match等
    • 計數:使用finditer迭代記性迭代計數,其它方式也行
    • 過濾:通過匹配結果bool進行過濾
    • 包含:search
    • 全匹配:fullmatch
    • 分隔:split

註意:

  1. Python中的字元串是支持轉義符的,所以要特別註意正則表達式在python中也是用字元串標識而正則表達式也是支持轉移字元的,所以避免python字元串將轉移解析,就需要給python指示出正則表達式字元串中的轉移字元是正則用的,而不是python字元串所用,就需要這樣做r'partten',這樣正則表達式中的字元都是沒有特殊功能。如:r'\n'是兩個字元,'\n'是一個字元,代表換行符。
  2. 正則和需要匹配的字元串,都是要Unicode string 或 8-bit string。兩種是不能混合使用。

正則表達式語法

  • 表達式串表達式
  • 複雜表達式可以由簡單表達式構成
  • 正則表達式的貪婪greedy和非貪婪non-greedy
    • 是說'+' '*' '?'等多態數量指定的是貪婪匹配,會去匹配儘可能大的範圍。
    • 給這三個加上'?',就是非貪婪,回去匹配儘可能小的範圍。
  • 正則表達式包含特殊字元和普通字元
    • 普通字元
      • 什麼'A' 'B' 'c' 'd';什麼'last' 'next' 'hello' 由普通字元串連起來的。
    • 特殊字元
      • 像 '.' '()' '|' 等
special character means comments
'.' 點號,代表所有字元除了newline換行符 如果設置了DOTALL flag標識,那就會包含newline
'^' 代表字元串的開始,The start of the string In MULTLINE mode在多行模式也匹配每個newline的結尾處
'$' 匹配the end of the string or just befor the newline at the end of the string In MULTILINE mode also matches before a newline.
'\b' 不匹配任何字元串,匹配單詞的開頭或結尾 如r'\bfoo\b' 能匹配 'foo','foo.','(foo)','bar foo bar',但是不能匹配'foobar'
'\B' 不匹配任何字元串,是\b的反義
__'*'__ 匹配 0個或 多次重覆 這個符號前面的RE 貪婪
'+' 匹配 1個或 多次重覆 這個符號前面的RE 貪婪,註意是前面的一個RE,一個普通字元就是一個RE不是所有,是最小單位的一個RE.如 ab+ 匹配的是ab or abbb... 而不是ababab
'?' 匹配 0個或 1次重覆 這個符號前面的RE 貪婪
__'*?,??,+?'__ 禁掉*,?,+的貪婪,取他們能匹配的最小範圍 非貪婪
'{m}' 指定數量重覆 這個符號前面的RE 非貪婪
'{m,n}' 指定m到n數量重覆 這個符號前面的RE 貪婪 ,n如果不指定的話,至少m個重覆RE
'{m,n}?' 指定m到n數量重覆 這個符號前面的RE,但是至匹配最小數量 非貪婪
'' 轉義特殊字元 即然特殊字元表示其字面義
'[]' Used to indicate a set of characters 特殊字元在[]中會沒有特殊意義;但是^符號在[]中如果是第一個字元,那麼^是有意義的,這裡不是表示字元串的開頭,而是取反取補集 .並且在[]除了開頭的^惡化]符號是有各自的意義
'|' 兩邊是RE,匹配左邊或者右邊,或關係 非貪婪,從左到右匹配
'\w'
'\W'
'\d'
'\D'
'\s'

等等等等。。。。

re 模塊提供的方法

  • re.compile(partten,flag) 返回一個regex對象,regex對象支持很多模塊級的函數相同功能的方法,如prog.search(str),prog.match(str)...等等。->返回一個regular expression 對象
  • re.search(partten,string,flag) 掃描字元串,找到第一個符合正則表達式匹配的字元,匹配到並返回match對象,一個都沒匹配到返回None。
  • re.match(partten,string,flag) 從字元串開始匹配partten,如果匹配到返回match對象,否則返回None。
  • re.split(partten,string,maxsplite=0,flag=0) 將string中所有匹配的上partten的作為字元串的分隔符進行分隔字元串。如果一個沒匹配上返回列表中只有string一個字元串。如果匹配上就分隔返回分隔後元素組成的列表。maxsplit指定字元串最多可以分割的次數。還要特別註意,如果partten中是用了分組,那麼分組將出現在最後分隔列表中,每個元素之間。就是將分組中匹配到的也添加到列表中。

  • re.findall(partten,string,flag=0) 返回一個列表,將字元串總所有匹配上模式的都出道列表中。
  • re.sub(pattern, repl, string , count=0, flags=0) 將 string中匹配到partten的替換為repl。count指定匹配多少個。返回替換後的字元串。repl也可以是一個函數,接受一個字元串,返回一個字元串。函數是非常有用的,可以添加邏輯判斷。這個很有用的!!!
  • re.escape(str) 將str中處在在正則表達式中有特殊意義的字元進行轉移。返迴轉移後的字元串。
  • re.fullmatch(partten, string, flags=0) 整個字元串都匹配partten,就返回re對象,否則返回None。
  • re.finditer(partten, string, flags=0) 返回一個生成器,生成器每次next()返回的是一個match對象,這個match對象是依次正則匹配上的。

Regular Expression Object

正則表達式對象:

  • 就是通過re.compile(partte)返回的對象
  • 如果一個正則表達式在代碼中多次被使用,那麼最好將其編譯成正則對象,這樣代碼運行效率更快。
  • 正則對象擁有re模塊所有的的函數對應的方法
  • 這這表達式還有屬性prog.groups 是正則對象包含的分組數
  • prog.groupindex 是命名分組名和組id的一個字典

Match Object

匹配對象:

  • re模塊search,match,fullmatch以及finditer的生成器返回的,這些將匹配上的都作為一個match對象返回
  • match對象存儲了匹配上的字元串。並且如果正則表達式有分組的話,那麼還會按照分組進行邏輯上的分組存儲,提供group()方法進行分組訪問。
  • match.group([group1,...]) 參數為組的偏移值,第一個組那麼是1,第二個組那麼是2,依次類推。如果不帶參數或者參數偏移為0,那麼返回整個正則匹配的字元串。如果是單個組的偏移量,那麼就是某個組的字元串。如果是多個組的偏移,那麼就將多個組匹配的字元串組成的元組返回。
  • match.group() 如果正則表達式是命名組,那麼也支持名字訪問組值。也支持索引。
  • 如果group是貪婪的,那麼已最後一次匹配為該組的值。
  • match.groups() 返回所有的組所構成的元組,這個方法的參數是預設值,用在某個主沒匹配上任何字元。
  • match.groupdict() 返回命名組字典,也是可以傳入一個預設值參數,當某個組沒有匹配上。
  • 註意group()返回匹配的字元串,就算沒有分組。而groups()必須有分組才會有值,不然是空元組,groupdict()返回空字典
  • match.start() 匹配上字元串的開始位置
  • match.end() 匹配上字元串的結束位置

re 例子

參考官方手冊re模塊例子

  • 手機格式 1\d{10}
  • 郵箱格式 r"^\w+(.?\w+)@(\w+.)\w+$"
  • 帶名字郵箱地址格式
  • IPv4地址

註意

  • 正則表達式,在有可變長的貪婪配置時,一定要考慮好後面的匹配會影響可變長表達式所能匹配到的範圍。
  • 正則表達式中反斜杠字元的表示。由於字元要進行轉義,轉移的字元又要進行轉義,所以轉義一個反斜杠需要四個反斜杠或者r"\\\" r加三個反斜杠。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ​ 前面在看題目的時候 偶然看到 使用parseInt 來進行整數判斷 但是這裡的parseInt是錯誤示範 之後瞭解了一下 發現這和函數 很有研究 先看看 w3c怎麼說這個的 說實話 雖然我沒有比較好的描述,但是覺的他的解釋並不好 看不懂 我們來看看當沒有 radix這個參數的時候 parseIn ...
  • 寫過jquery的可能都知道,jquery裡面可以很方便的使用以下代碼: 而jquery這種調用方式就是鏈式調用。我們可以從上述代碼看出來,如果不使用鏈式調用的話,那麼我們會增加很多重覆的代碼,而且特別冗餘。而通過鏈式調用,我們可以節省很多代碼,並且代碼看起來更加優雅和整潔。那麼,接下來,我們來 ...
  • 訪問者模式是一種將數據操作和數據結構分離的設計模式,可以說是面向數據密集型的一種設計方式,數據的結構相對穩定,有明顯的分層和分類,而對數據對象的相關操作進行分組、分析等二次加工,這些操作都是由訪問者來執行的,而不是將這些放到被訪問的數據對象中,方便了操作方法的擴展。 作用 封裝一些作用於某種數據結構 ...
  • 這個問題在本科的時候就接觸過了,這兩天做筆試題的時候又看到覺得有必要碼一下。 高內聚低耦合,是軟體工程中的概念,是判斷設計好壞的標準,主要是面向對象的設計,看類的內聚性是否高,耦合度是否低。 下文轉至 https://blog.csdn.net/walid1992/article/details/7 ...
  • 今天周六,休息,剛下過雨,有風。 哈哈,像不像古龍的小說。程式員不是機器人,不是國家總理,沒有那麼忙。而老闆講究的永遠是利益,利用,所以當你沒利用價值的時候,看老闆能閑養你三個月嗎?程式員的賺錢工具就是技術,別人無法替代的技術。天天休息不好,失眠,心亂,只能寫篇博客靜靜心。 在面向對象中,每個對象都 ...
  • 本題要求實現一個字元串查找的簡單函數。 函數介面定義: 函數search在字元串s中查找子串t,返回子串t在s中的首地址。若未找到,則返回NULL。 裁判測試程式樣例: 輸入樣例1: 輸出樣例1: 輸入樣例2: 輸出樣例2: char *search(char *s, char *t){ char ...
  • 問:我最近聯繫到了一家培訓機構 ,從他們公司瞭解到,學習Java從零基礎到就業就4個月,我很擔心這4個月究竟能學到多少。在這4個月究竟能不能學到東西。還有就是就業率還有失業率 答: 4個月學肯定是可以學習到知識的,但是就業就不敢保證了。要看你學習的效果了。四個月的課程很趕,很多都在趕進度,能不能跟得 ...
  • 1、不僅方法要public,類也要是public許可權 2、修改Java文件字元集 沒有完成,決定修改eclipse的預設字元集為gdk,需要使用時再修改為utf-8 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...