python基礎學習（十三）_ZenDei技術網路在線

python基礎學習（十三）

-Advertisement-

re模塊包含對正則表達式。本章會對re模塊主要特征和正則表達式進行介紹。什麼是正則表達式正則表達式是可以匹配文本片段的模式。最簡單的正則表達式就是普通字元串，可以匹配其自身。換包話說，正則表達式’python’ 可以匹配字元串’python’ 。你可以用這種匹配行為搜索文本中的模式，並且用計算 ...

re模塊包含對正則表達式。本章會對re模塊主要特征和正則表達式進行介紹。

什麼是正則表達式

正則表達式是可以匹配文本片段的模式。最簡單的正則表達式就是普通字元串，可以匹配其自身。換包話說，正則表達式’python’ 可以匹配字元串’python’ 。你可以用這種匹配行為搜索文本中的模式，並且用計算後有值併發特定模式，或都將文本進行分段。

** 通配符

正則表達式可以匹配多於一個的字元串，你可以使用一些特殊字元創建這類模式。比如點號（.）可以匹配任何字元。在我們用window 搜索時用問號（？）匹配任意一位字元，作用是一樣的。那麼這類符號就叫通配符。

** 對特殊字元進行轉義

通過上面的方法，假如我們要匹配“python.org”，直接用用‘python.org’可以麽？這麼做可以，但這樣也會匹配“pythonzorg”，這可不是所期望的結果。

好吧！我們需要對它進行轉義，可以在它前面加上發斜線。因此，本例中可以使用“python\\.org”，這樣就只會匹配“python.org”了。

** 字元集

我們可以使用中括弧（[ ]）括住字元串來創建字元集。可以使用範圍，比如‘[a-z]’能夠匹配a到z的任意一個字元，還可以通過一個接一個的方式將範圍聯合起來使用，比如‘[a-zA-Z0-9]’能夠匹配任意大小寫字母和數字。

反轉字元集，可以在開頭使用^字元，比如‘[^abc]’可以匹配任何除了a、b、c之外的字元。

** 選擇符

有時候只想匹配字元串’python’ 和 ’perl’ ，可以使用選擇項的特殊字元：管道符號（|）。因此，所需模式可以寫成’python|perl’ 。

** 子模式

但是，有些時候不需要對整個模式使用選擇符---只是模式的一部分。這時可以使用圓括弧起需要的部分，或稱子模式。前例可以寫成 ‘p(ython | erl)’

** 可選項

在子模式後面加上問號，它就變成了可選項。它可能出現在匹配字元串，但並非必須的。

r’(heep://)?(www\.)?python\.org’

只能匹配下列字元：

‘http://www.python.org’

‘http://python.org’

‘www.python.org’

‘python.org’

**　重覆子模式

(pattern)* : 允許模式重覆0次或多次

(pattern)+ : 允許模式重覆1次或多次

(pattern){m,n} : 允許模式重覆m~ n 次

例如：

r’w * \.python\.org’ 匹配 ‘www.python.org’ 、’.python.org’ 、’wwwwwww.python.org’

r’w + \.python\.org’ 匹配 ‘w.python.org’ ；但不能匹配 ’.python.org’

r’w {3,4}\.python\.org’ 只能匹配‘www.python.org’ 和‘wwww.python.org’

re模塊的內容

re模塊中一些重要的函數：

　　re.compile 將正則表達式轉換為模式對象，可以實現更有效率的匹配。

　　re.search 會在給定字元串中尋找第一個匹配給正則表式的子字元串。找到函數返回MatchObject(值為True)，否則返回None(值為False) 。因為返回值的性質，所以該函數可以用在條件語句中：

if re.serch(pat, string):

print ‘found it !’

　　re.math 會在給定字元串的開頭匹配正則表達式。因此，re.math(‘p’ , ‘python’)返回真，re.math(‘p’ , ‘www.python’) 則返回假。

　　re.split 會根據模式的匹配項來分割字元串。

>>> import re
>>> some_text = 'alpha , beta ,,,gamma delta '
>>> re.split('[,]+',some_text)
['alpha ', ' beta ', 'gamma delta ']

　　re. findall以列表形式返回給定模式的所有匹配項。比如，要在字元串中查找所有單詞，可以像下麵這麼做：

>>> import re
>>> pat = '[a-zA-Z]+'
>>> text = '"Hm...err -- are you sure?" he said, sounding insecure.'
>>> re.findall(pat,text)
['Hm', 'err', 'are', 'you', 'sure', 'he', 'said', 'sounding', 'insecure']

　　re.sub的作用在於：使用給定的替換內容將匹配模式的子符串（最左端並且重疊子字元串）替換掉。

>>> import re
>>> pat = '{name}'
>>> text = 'Dear {name}...'
>>> re.sub(pat, 'Mr. Gumby',text)
'Dear Mr. Gumby...'

　　re.escape 函數，可以對字元串中所有可能被解釋為正則運算符的字元進行轉義的應用函數。

如果字元串很長且包含很多特殊字元，而你又不想輸入一大堆反斜線，可以使用這個函數：

>>> re.escape('www.python.org')
'www\\.python\\.org'
>>> re.escape('but where is the ambiguity?')
'but\\ where\\ is\\ the\\ ambiguity\\?'

匹配對象和組

簡單來說，組就是放置在圓括弧里內的子模塊，組的序號取決於它左側的括弧數。組0就是整個模塊，所以在下麵的模式中：

‘There (was a (wee) (cooper)) who (lived in Fyfe)’

包含組有：

0 There was a wee cooper who lived in Fyfe

1 was a wee cooper

2 wee

3 cooper

4 lived in Fyfe

re 匹配對象的重要方法

下麵看實例：

>>> import re
>>> m = re.match(r'www\.(.*)\..{3}','www.python.org')
>>> m.group()
'www.python.org'
>>> m.group(0)
'www.python.org'
>>> m.group(1)
'python'
>>> m.start(1)
4
>>> m.end(1)
10
>>> m.span(1)
(4, 10)

　　group方法返回模式中與給定組匹配的字元串，如果沒有組號，預設為0 ；如上面：m.group()==m.group(0) ；如果給定一個組號，會返回單個字元串。

　　start 方法返回給定組匹配項的開始索引，

　　end方法返回給定組匹配項的結束索引加1；

　　span以元組（start，end）的形式返回給組的開始和結束位置的索引。

----------------------------

正則表達式應該是不容易理解的一個知識點；python沒意思的基礎終於學完了。雖然學的不扎實，但大體有了個印象；後面的將會非常有意思，讀取文件，編寫圖形視窗，連接資料庫，web編程....

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

爬蟲必備—性能相關（非同步非阻塞）

在編寫爬蟲時，性能的消耗主要在IO請求中，當單進程單線程模式下請求URL時必然會引起等待，從而使得請求整體變慢。 1. 同步執行 2. 多線程執行（多個線程併發執行，時間長短取決於最長的URL請求） 3. 多進程執行（在CPU核心數足夠的情況下，多個進程並行執行，時間長短取決於最長的URL請求，理論 ...
1.1 初識指針

指針是一個特殊的變數，它裡面存儲的數值被解釋成為記憶體里的一個地址。要搞清一個指針需要搞清指針的四方面的內容：指針的類型，指針所指向的類型，指針的值或者叫指針所指向的記憶體區，還有指針本身所占據的記憶體區。讓我們分別說明。先聲明幾個指針放著做例子：例一： (1)int*ptr; (2)char*p ...
Struts2.5 利用Ajax將json數據傳值到JSP

AJAX +JSON=》JSP AJAX AJAX 是一種在無需重新載入整個網頁的情況下，能夠更新部分網頁的技術。通過在後臺與伺服器進行少量數據交換，AJAX 可以使網頁實現非同步更新。這意味著可以在不重新載入整個網頁的情況下，對網頁的某部分進行更新。傳統的網頁（不使用 AJAX）如果需要更新內容 ...
python專題-Mysql資料庫（python3._+ PyMysql）

之前寫過一篇 Python使用MySQL資料庫的博客，主要使用的是Python2和MySQLdb驅動。 python使用mysql資料庫 Python2 > Python3 MySQLdb --> PyMySQL 一，安裝PyMySQL Python是編程語言，MySQL是資料庫，它們是兩種不同的技 ...
Struts2.5 偽靜態的配置

偽靜態偽靜態是相對真實靜態來講的，通常我們為了增強搜索引擎的友好面，都將文章內容生成靜態頁面，但是有的朋友為了實時的顯示一些信息。或者還想運用動態腳本解決一些問題。不能用靜態的方式來展示網站內容。但是這就損失了對搜索引擎的友好面。怎麼樣在兩者之間找個中間方法呢，這就產生了偽靜態技術。就是展示出來的 ...
python專題-異常處理（基礎）

之前在學習python的時候有整理過python異常處理的文章，不夠簡單也不夠完整，所以決定再整理一篇，算做補充。 http://www.cnblogs.com/cmt110/p/7464748.html python shell 打開一個不存在的文件abc.txt 文件，當系統找不到abc.txt ...
Java8 增強工具類 Arrays 筆記

2.copyOf：複製出新的數組，複製長度由 newLength 決定,長度可大於被覆制數組的長度 copyOfRange：複製指定下標範圍內的值 3.sort：預設進行升序排序，可自定義排序 4.toString：數組toString deepToString：二維數組toString 5.equ ...
python基礎-list

list是一種有序的集合，可以隨時添加和刪除其中的元素。知識點： . 創：增： list是一個可變的有序表，所以，可以往list中追加元素到末尾：也可以把元素插入到指定的位置，比如索引號為1的位置：刪：要刪除list末尾的元素，用pop()方法：要刪除指定位置的元素，用pop(i)方法， ...