Python學習筆記（八）—使用正則獲取網頁中所需要的信息。

-Advertisement-

使用正則表達式的幾個步驟： 1、用import re 導入正則表達式模塊； 2、用re.compile()函數創建一個Regex對象； 3、用Regex對象的search()或findall()方法，傳入想要查找的字元串，返回一個Match對象； 4、調用Match對象的group()方法，返回匹配 ...

使用正則表達式的幾個步驟：

1、用import re 導入正則表達式模塊；

2、用re.compile()函數創建一個Regex對象；

3、用Regex對象的search()或findall()方法，傳入想要查找的字元串，返回一個Match對象；

4、調用Match對象的group()方法，返回匹配到的字元串。

在互動式環境中簡單嘗試一下，查詢字元串中的固話：

1 import re
2 text = '小明家的固話是0755-123456，而小麗家的固話時0789-654321，小王家的電話是123456789'#用於檢測的字元串
3 
4 ph_re = re.compile(r'\d{4}?-\d+') #創建Regex對象，匹配幾種電話的方式，\d表示0-9的數字，{4}表示前面的匹配4次，？表示可選，+表示出現1次或多次。
5 matchs1 = ph_re.findall(text) #findall()表示查找所有匹配項，返回一個字元串
6 matchs2 = ph_re.search(text)#search(),查找第一次匹配的文本，返回一個對象。
7 print(matchs1)
8 print(matchs2)
9 matchs2.group()

返回的結果，是這樣的：

findall()方法返回的是一個字元串，可以直接列印出來。而search()方法返回的是一個對象，所以列印出來的是是如圖的第二行。

調用group()，對象返回匹配的結果。

最後，小王的電話之所以沒有匹配到，是因為'-'沒有進行可選即在其後加上‘？’。

下麵進行一個小的實驗，獲取某個網頁中所有的http/https網址，並計算有多少個。

首先是獲取HTML文件。這裡要用到requests模塊。

 1 # -*- coding: utf-8 -*-
 2 import requests
 3 import re
 4 
 5 
 6 def get_html(url):
 7     res = requests.get(url)
 8     res.encoding = 'utf-8'
 9     html = res.text
10     return html

這裡get_html函數返回的，其實就類似上面例子中的text，用來匹配的文本。

然後，創建正則表達式：

 1 def get_addr(response):
 2     addr_regex = re.compile(r'''(
 3         (http://|https://)?　　#http/https
 4         (www)?
 5         (\.[a-z1-9A-Z]+)
 6         (\.com|\.cn)
 7         )''',re.VERBOSE)#匹配網址，
 8     matchs = []
 9     for groups in addr_regex.findall(response):
10         matchs.append(groups[0])
11     if len(matchs) == 0:
12         print('沒有網址')     
13     return matchs

這裡向re.compile(),傳入變數re.VERBOSE，作為第二個參數，可以將正則表達式放在多行，併進行註釋，如上。

返回一個matchs列表對象。

再來個啟動函數。

1 def start():
2     url = 'http://news.163.com/18/0127/18/D966K4CO0001899N.html'
3     a = get_html(url)
4     b = get_addr(a)
5     print('\n'.join(b))
6     print(str(len(b)))
7     print('ok')
8 if __name__ == '__main__':
9     start()

這裡傳入的url是我隨意找的一個新聞鏈接。

然後調用get_html()和get_addr()，就得到了想要的東西。str(len(b))，為統計的數量。

測試的結果是類似這樣的：

　　這裡似乎獲取一些URL，沒什麼卵用。。。但是，如果結合前面的查詢新聞列表的方式，獲取批量url，

而創建的正則是xxx.jpg，然後調用os模塊，os.mkdir(folder)、os.chdir(folder)，將獲取到的匹配結果寫入文件，放入某個文件夾。

那麼就可以實現，從某些網站上批量獲取jpg圖片，然後存入某個文件夾的爬蟲功能。實測，可行！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

java SSM框架代碼生成器快速開發平臺 websocket即時通訊 shiro redis

A代碼編輯器，線上模版編輯，仿開發工具編輯器，pdf線上預覽，文件轉換編碼 B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表，快速開發利器)+快速表單構建器 freemaker模版技術，0個代碼不用寫，生成完整的一個模塊，帶頁面、建表sql腳本，處理類，service等完整模塊 C 集 ...
P2P結構與Quorum機制------《Designing Data-Intensive Applications》讀書筆記8

前文涉及到了很多與Leader相關的演算法，大家有木有想過，王侯將相，寧有種乎，既然Leader這麼麻煩，乾脆還是採用P2P模型吧，來個大家平等的架構。本篇需要和大家探討的就是多副本下實現民主政治的 Quorum機制。至於它是怎麼樣解決我們在前文提及的各種問題的，接著這篇文章我們繼續聊聊～～ 1. ...
中小型研發團隊架構實踐五：Redis快速入門及應用

Redis的使用難嗎？不難，Redis用好容易嗎？不容易。Redis的使用雖然不難，但與業務結合的應用場景特別多、特別緊，用好並不容易。我們希望通過一篇文章及Demo，即可輕鬆、快速入門並學會應用。一、Redis 簡介 Redis是一個開源的Key-Value存儲，但又不僅僅是Key-Value存 ...
032網路通信

server下的方法：bind() , listen(), accept(), recv(), send(bytes(String)), sendall(), client的方法：connect(), recv(), send(), sendall()### 建立通信的過程：創建socket，綁定i ...
[轉] 對WM_NCHITTEST消息的瞭解+代碼實例進行演示

這個消息比較實用也很關鍵，它代表非顯示區域命中測試。這個消息優先於所有其他的顯示區域和非顯示區域滑鼠消息。其中lParam參數含有滑鼠位置的x和y屏幕坐標，wParam 這裡沒有用。 Windows應用程式通常把這個消息傳送給DefWindowProc，然後Windows用WM_NCHITTEST消 ...
30個php操作redis常用方法代碼例子(轉載)

1、connect描述：實例連接到一個Redis.參數：host: string，port: int返回值：BOOL 成功返回：TRUE;失敗返回：FALSE示例：$redis = new redis(); $result = $redis->connect('127.0.0.1', 6379); ...
聽說，你也一直鐘愛著equals。。。

因為每個枚舉常量只有一個實例，所以如果在比較兩個參考值，至少有一個涉及到枚舉常量時，允許使用“==”代替equals() ...
02 整合IDEA+Maven+SSM框架的高併發的商品秒殺項目之Service層

作者： "nnngu" 項目源代碼：https://github.com/nnngu/nguSeckill 首先在編寫層代碼前，我們應該首先要知道這一層到底是乾什麼的。層主要負責業務模塊的邏輯應用設計。同樣是首先設計介面，再設計其實現的類，接著在的配置文件中配置其實現的關聯。這樣我們就可以在應 ...