python基礎學習(十三)

来源:http://www.cnblogs.com/cmt110/archive/2017/09/01/7464820.html
-Advertisement-
Play Games

re模塊包含對 正則表達式。本章會對re模塊主要特征和正則表達式進行介紹。 什麼是正則表達式 正則表達式是可以匹配文本片段的模式。最簡單的正則表達式就是普通字元串,可以匹配其自身。換包話說,正則表達式’python’ 可以匹配字元串’python’ 。你可以用這種匹配行為搜索文本中的模式,並且用計算 ...


 

re模塊包含對 正則表達式。本章會對re模塊主要特征和正則表達式進行介紹。

 

什麼是正則表達式

正則表達式是可以匹配文本片段的模式。最簡單的正則表達式就是普通字元串,可以匹配其自身。換包話說,正則表達式’python’ 可以匹配字元串’python’ 。你可以用這種匹配行為搜索文本中的模式,並且用計算後有值併發特定模式,或都將文本進行分段。

 

** 通配符

正則表達式可以匹配多於一個的字元串,你可以使用一些特殊字元創建這類模式。比如點號(.)可以匹配任何字元。在我們用window 搜索時用問號(?)匹配任意一位字元,作用是一樣的。那麼這類符號就叫 通配符。

 

** 對特殊字元進行轉義

通過上面的方法,假如我們要匹配“python.org”,直接用用‘python.org’可以麽?這麼做可以,但這樣也會匹配“pythonzorg”,這可不是所期望的結果。

好吧!我們需要對它進行轉義,可以在它前面加上發斜線。因此,本例中可以使用“python\\.org”,這樣就只會匹配“python.org”了。

 

** 字元集

我們可以使用中括弧([ ])括住字元串來創建字元集。可以使用範圍,比如‘[a-z]’能夠匹配az的任意一個字元,還可以通過一個接一個的方式將範圍聯合起來使用,比如‘[a-zA-Z0-9]’能夠匹配任意大小寫字母和數字。

反轉字元集,可以在開頭使用^字元,比如‘[^abc]’可以匹配任何除了abc之外的字元。

 

** 選擇符

有時候只想匹配字元串’python’ 和 ’perl’  ,可以使用選擇項的特殊字元:管道符號(|) 。因此, 所需模式可以寫成’python|perl’ 。

 

** 子模式

但是,有些時候不需要對整個模式使用選擇符---只是模式的一部分。這時可以使用圓括弧起需要的部分,或稱子模式。 前例可以寫成 ‘p(ython | erl)’

 

** 可選項

在子模式後面加上問號,它就變成了可選項。它可能出現在匹配字元串,但並非必須的。

r’(heep://)?(www\.)?python\.org’

只能匹配下列字元:

‘http://www.python.org’

‘http://python.org’

‘www.python.org’

‘python.org’

 

** 重覆子模式

(pattern)* : 允許模式重覆0次或多次

(pattern)+ : 允許模式重覆1次或多次

(pattern){m,n} : 允許模式重覆m~ n 

例如:

r’w * \.python\.org’  匹配 ‘www.python.org’ 、’.python.org’ 、’wwwwwww.python.org’

r’w + \.python\.org’  匹配 ‘w.python.org’ ;但不能匹配 ’.python.org’ 

r’w {3,4}\.python\.org’  只能匹配‘www.python.org’ 和‘wwww.python.org’ 

 

re模塊的內容

 

re模塊中一些重要的函數:

  re.compile 將正則表達式轉換為模式對象,可以實現更有效率的匹配。

  re.search 會在給定字元串中尋找第一個匹配給正則表式的子字元串。找到函數返回MatchObject(值為True),否則返回None(值為False) 。因為返回值的性質,所以該函數可以用在條件語句中:

if re.serch(pat, string):

print ‘found it !’

 

  re.math 會在給定字元串的開頭匹配正則表達式。因此,re.math(‘p’ , ‘python’)返回真,re.math(‘p’ , ‘www.python’) 則返回假。

  re.split 會根據模式的匹配項來分割字元串。

>>> import re
>>> some_text = 'alpha , beta ,,,gamma delta '
>>> re.split('[,]+',some_text)
['alpha ', ' beta ', 'gamma delta ']

 

  re. findall以列表形式返回給定模式的所有匹配項。比如,要在字元串中查找所有單詞,可以像下麵這麼做:

>>> import re
>>> pat = '[a-zA-Z]+'
>>> text = '"Hm...err -- are you sure?" he said, sounding insecure.'
>>> re.findall(pat,text)
['Hm', 'err', 'are', 'you', 'sure', 'he', 'said', 'sounding', 'insecure']

 

  re.sub的作用在於:使用給定的替換內容將匹配模式的子符串(最左端並且重疊子字元串)替換掉。

>>> import re
>>> pat = '{name}'
>>> text = 'Dear {name}...'
>>> re.sub(pat, 'Mr. Gumby',text)
'Dear Mr. Gumby...'

 

  re.escape 函數,可以對字元串中所有可能被解釋為正則運算符的字元進行轉義的應用函數。

如果字元串很長且包含很多特殊字元,而你又不想輸入一大堆反斜線,可以使用這個函數:

>>> re.escape('www.python.org')
'www\\.python\\.org'
>>> re.escape('but where is the ambiguity?')
'but\\ where\\ is\\ the\\ ambiguity\\?'

 

 

 

匹配對象和組

 

簡單來說,組就是放置在圓括弧里內的子模塊,組的序號取決於它左側的括弧數。組0就是整個模塊,所以在下麵的模式中:

‘There  (was a (wee) (cooper)) who (lived in Fyfe)’

包含組有:

0  There  was a  wee cooper  who  lived in Fyfe

1  was a  wee  cooper

2  wee

3  cooper

4  lived in Fyfe

 

re 匹配對象的重要方法

下麵看實例:

複製代碼
>>> import re
>>> m = re.match(r'www\.(.*)\..{3}','www.python.org')
>>> m.group()
'www.python.org'
>>> m.group(0)
'www.python.org'
>>> m.group(1)
'python'
>>> m.start(1)
4
>>> m.end(1)
10
>>> m.span(1)
(4, 10)
複製代碼

  group方法返回模式中與給定組匹配的字元串,如果沒有組號,預設為;如上面:m.group()==m.group(0) ;如果給定一個組號,會返回單個字元串。

  start 方法返回給定組匹配項的開始索引,

  end方法返回給定組匹配項的結束索引加1

  span以元組(startend)的形式返回給組的開始和結束位置的索引。

 

----------------------------

正則表達式應該是不容易理解的一個知識點;python沒意思的基礎終於學完了。雖然學的不扎實,但大體有了個印象;後面的將會非常有意思,讀取文件,編寫圖形視窗,連接資料庫,web編程....

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在編寫爬蟲時,性能的消耗主要在IO請求中,當單進程單線程模式下請求URL時必然會引起等待,從而使得請求整體變慢。 1. 同步執行 2. 多線程執行(多個線程併發執行,時間長短取決於最長的URL請求) 3. 多進程執行(在CPU核心數足夠的情況下,多個進程並行執行,時間長短取決於最長的URL請求,理論 ...
  • 指針是一個特殊的變數,它裡面存儲的數值被解釋成為記憶體里的一個地址。 要搞清一個指針需要搞清指針的四方面的內容:指針的類型,指針所指向的 類型,指針的值或者叫指針所指向的記憶體區,還有指針本身所占據的記憶體區。讓我們分別說明。 先聲明幾個指針放著做例子: 例一: (1)int*ptr; (2)char*p ...
  • AJAX +JSON=》JSP AJAX AJAX 是一種在無需重新載入整個網頁的情況下,能夠更新部分網頁的技術。 通過在後臺與伺服器進行少量數據交換,AJAX 可以使網頁實現非同步更新。這意味著可以在不重新載入整個網頁的情況下,對網頁的某部分進行更新。 傳統的網頁(不使用 AJAX)如果需要更新內容 ...
  • 之前寫過一篇 Python使用MySQL資料庫的博客,主要使用的是Python2和MySQLdb驅動。 python使用mysql資料庫 Python2 > Python3 MySQLdb --> PyMySQL 一,安裝PyMySQL Python是編程語言,MySQL是資料庫,它們是兩種不同的技 ...
  • 偽靜態 偽靜態是相對真實靜態來講的,通常我們為了增強搜索引擎的友好面,都將文章內容生成靜態頁面,但是有的朋友為了實時的顯示一些信息。或者還想運用動態腳本解決一些問題。不能用靜態的方式來展示網站內容。但是這就損失了對搜索引擎的友好面。怎麼樣在兩者之間找個中間方法呢,這就產生了偽靜態技術。就是展示出來的 ...
  • 之前在學習python的時候有整理過python異常處理的文章,不夠簡單也不夠完整,所以決定再整理一篇,算做補充。 http://www.cnblogs.com/cmt110/p/7464748.html python shell 打開一個不存在的文件abc.txt 文件,當系統找不到abc.txt ...
  • 2.copyOf:複製出新的數組,複製長度由 newLength 決定,長度可大於被覆制數組的長度 copyOfRange:複製指定下標範圍內的值 3.sort:預設進行升序排序,可自定義排序 4.toString:數組toString deepToString:二維數組toString 5.equ ...
  • list是一種有序的集合,可以隨時添加和刪除其中的元素。 知識點: . 創: 增: list是一個可變的有序表,所以,可以往list中追加元素到末尾: 也可以把元素插入到指定的位置,比如索引號為1的位置: 刪: 要刪除list末尾的元素,用pop()方法: 要刪除指定位置的元素,用pop(i)方法, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...