使用正則表達式的幾個步驟: 1、用import re 導入正則表達式模塊; 2、用re.compile()函數創建一個Regex對象; 3、用Regex對象的search()或findall()方法,傳入想要查找的字元串,返回一個Match對象; 4、調用Match對象的group()方法,返回匹配 ...
使用正則表達式的幾個步驟:
1、用import re 導入正則表達式模塊;
2、用re.compile()函數創建一個Regex對象;
3、用Regex對象的search()或findall()方法,傳入想要查找的字元串,返回一個Match對象;
4、調用Match對象的group()方法,返回匹配到的字元串。
在互動式環境中簡單嘗試一下,查詢字元串中的固話:
1 import re 2 text = '小明家的固話是0755-123456,而小麗家的固話時0789-654321,小王家的電話是123456789'#用於檢測的字元串 3 4 ph_re = re.compile(r'\d{4}?-\d+') #創建Regex對象,匹配幾種電話的方式,\d表示0-9的數字,{4}表示前面的匹配4次,?表示可選,+表示出現1次或多次。 5 matchs1 = ph_re.findall(text) #findall()表示查找所有匹配項,返回一個字元串 6 matchs2 = ph_re.search(text)#search(),查找第一次匹配的文本,返回一個對象。 7 print(matchs1) 8 print(matchs2) 9 matchs2.group()
返回的結果,是這樣的:
findall()方法返回的是一個字元串,可以直接列印出來。而search()方法返回的是一個對象,所以列印出來的是是如圖的第二行。
調用group(),對象返回匹配的結果。
最後,小王的電話之所以沒有匹配到,是因為'-'沒有進行可選即在其後加上‘?’。
下麵進行一個小的實驗,獲取某個網頁中所有的http/https網址,並計算有多少個。
首先是獲取HTML文件。這裡要用到requests模塊。
1 # -*- coding: utf-8 -*- 2 import requests 3 import re 4 5 6 def get_html(url): 7 res = requests.get(url) 8 res.encoding = 'utf-8' 9 html = res.text 10 return html
這裡get_html函數返回的,其實就類似上面例子中的text,用來匹配的文本。
然後,創建正則表達式:
1 def get_addr(response): 2 addr_regex = re.compile(r'''( 3 (http://|https://)? #http/https 4 (www)? 5 (\.[a-z1-9A-Z]+) 6 (\.com|\.cn) 7 )''',re.VERBOSE)#匹配網址, 8 matchs = [] 9 for groups in addr_regex.findall(response): 10 matchs.append(groups[0]) 11 if len(matchs) == 0: 12 print('沒有網址') 13 return matchs
這裡向re.compile(),傳入變數re.VERBOSE,作為第二個參數,可以將正則表達式放在多行,併進行註釋,如上。
返回一個matchs列表對象。
再來個啟動函數。
1 def start(): 2 url = 'http://news.163.com/18/0127/18/D966K4CO0001899N.html' 3 a = get_html(url) 4 b = get_addr(a) 5 print('\n'.join(b)) 6 print(str(len(b))) 7 print('ok') 8 if __name__ == '__main__': 9 start()
這裡傳入的url是我隨意找的一個新聞鏈接。
然後調用get_html()和get_addr(),就得到了想要的東西。str(len(b)),為統計的數量。
測試的結果是類似這樣的:
這裡似乎獲取一些URL,沒什麼卵用。。。但是,如果結合前面的查詢新聞列表的方式,獲取批量url,
而創建的正則是xxx.jpg,然後調用os模塊,os.mkdir(folder)、os.chdir(folder),將獲取到的匹配結果寫入文件,放入某個文件夾。
那麼就可以實現,從某些網站上批量獲取jpg圖片,然後存入某個文件夾的爬蟲功能。實測,可行!