爬蟲之正則表達式_ZenDei技術網路在線

爬蟲之正則表達式

-Advertisement-

1.學習爬蟲，為什麼必須會正則表達式？我們爬取一些網頁具體內容時，只需要這個網頁某個標簽的一部分內容就足夠，或者是這個標簽的某個屬性的值時，用普通的 xpath 或者css.selector是不能完成的，此時我們就需用到正則表達式去匹配獲取。2.正則表達式官方簡介？正則表達式，又稱規則表達式。（ ...

1.學習爬蟲，為什麼必須會正則表達式？
我們爬取一些網頁具體內容時，只需要這個網頁某個標簽的一部分內容就足夠，或者是這個標簽的某個屬性的值時，用普通的 xpath 或者css.selector是不能完成的，此時我們就需用到正則表達式去匹配獲取。
2.正則表達式官方簡介？
正則表達式，又稱規則表達式。（在代碼中常簡寫為regex、regexp或RE），電腦科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。

 1  '''
 2  正則表達式
 3  '''
 4  
 5  import re
 6  
 7  line = 'jijianXksA123'
 8 
 9 # ^a 表示匹配以a開頭的字元串（只匹配一次）
10 # . 表示該字元可為任意字元（只匹配一次）
11 # * 表示前面的字元可以出現任意次（0次或多次）（多次匹配）
12 reg_str01 = '^j.*'    # 表示以j開頭的字元串
13 # re.match 函數
14 # 第一個參數是匹配的格式
15 # 第二參數是要匹配的字元串
16 # 返回值為：匹配成功，返回match對象，否則返回：None
17 
18 if re.match(reg_str01,line) :
19     print("匹配成功！")  # reg_str = '^j.*'     匹配成功
20 else:
21     print("匹配失敗！")  # reg_str = '^i.*'     匹配失敗
22 
23 
24 # 23$ 表示匹配以23結尾的字元串（只匹配一次）
25 reg_str02 = '^j.*23$'
26 if re.match(reg_str02,line) :
27     print("匹配成功！")  # reg_str = '^j.*23$'     匹配成功
28 else:
29     print("匹配失敗！")  # reg_str = '^j.*13$'     匹配失敗
30 
31 
32 line01 = 'boooboaobxby'
33 # （） 內的為 匹配模式，通過 group函數 可以取出匹配結果
34 # 正則表達式貪婪匹配模式：從後面（右邊）開始匹配
35 reg_str03 = '.*(b.*b).*'
36 test01 = re.match(reg_str03,line01)
37 if  test01:
38     print(test01.group(1))      # result : bxb
39 else:
40     print("匹配失敗！")
41 
42 # 正則表達式非貪婪匹配模式：從前面（左邊）開始匹配
43 # ? : 表示從左邊開始匹配，匹配到第一個符合模式的內容，即進入模式
44 #
45 reg_str03 = '.*?(b.*b).*'   # 半貪婪匹配
46 reg_str04 = '.*?(b.*?b).*'  # 非貪婪匹配
47 test01 = re.match(reg_str03,line01)
48 test02 = re.match(reg_str04,line01)
49 if  test01 and test02:
50     print(test01.group(1))      # result : boooboaobxb
51     print(test02.group(1))  # result : booob
52 else:
53     print("匹配失敗！")

 1  import re
 2  line01 = 'boooboaobcxby'
 3  
 4  def regtest(reg_str,line = line01):
 5     test = re.match(reg_str, line)
 6     if test:
 7         print(test.group(1))
 8     else:
 9         print("匹配失敗！")
10 
11 # + ：表示前面的字元，至少出現一次
12 reg_str04 = '.*(b.+b).*'  # (b.+b)表示b與b之間至少有一個字元
13 regtest(reg_str04)      # result : bcxb
14 
15 # {n} : 控制前面字元出現次數
16 # a{2} : 表示a出現兩次
17 # b{3,4} : 表示b至少出現3次，最多出4次
18 # c{4,} : 表示c至少出現4次
19 reg_str05 = '.*(b.{2}b).*'  # (b.{2}b)表示匹配到的b與b之間，只有兩字元
20 reg_str06 = '.*(b.{3,4}b).*'  # (b.{3,6}b)表示匹配到的b與b之間,至少有3個字元，至多有4個字元
21 reg_str07 = '.*(b.{4,}b).*'  # (b.{8,}b)表示匹配到的b與b之間，至少有4個字元
22 regtest(reg_str05)   # result : bcxb
23 regtest(reg_str06)   # result : boaob
24 regtest(reg_str07)   # result : boaobcxb
25 
26 # | :表示 或
27 # (abc|123) : 表示匹配到 abc 或者 123,都算匹配成功
28 reg_str08 = '.*(boo|abc)'
29 reg_str09 = '.*(abc|boo)'
30 regtest(reg_str08)   # result : boo
31 regtest(reg_str09)   # result : boo
32 
33 # [] : 表示 裡面包含的內容都可以進行匹配,包含內容只有錶面字元含義
34 # [abcd] : 表示 只要這個字元為 a/b/c/d中的一個都可以匹配成功
35 # [0-9] : 表示 只要這個字元在 0-9 這個區間內，都可以匹配成功
36 # [^x] : 表示匹配 字元不為 x
37 line02 = '電話號：15573563467'
38 reg_str10 = '.*(1[3458][0-9]{9}).*'
39 reg_str11 = '.*(1[3458][^1]{9}).*'
40 regtest(reg_str10,line02)   # result : 15573563467
41 regtest(reg_str11,line02)   # result : 15573563467
42 
43 # \s 表示匹配空格，匹配一次
44 # \S 表示匹配不是空格的字元，匹配一次
45 # \w 表示匹配 A-Z、0-9、_ 中的容易字元，匹配一次
46 # \W 與 \w 相反
47 # \d 表示數字
48 # [\u4E00-\u9FA5] : 表示所有漢字，unicode 編碼
49 
50 def regtest_test(reg_str,line = line01):
51     test = re.match(reg_str, line)
52     if test:
53         print(test.group(1)+':'+test.group(2)+'-'+test.group(3)+'-'+test.group(4))
54     else:
55         print("匹配失敗！")
56 
57 # 簡單實例
58 str01 = '張三出生於1997年12月20日'
59 str02 = '李四齣生於1989-01-20'
60 str03 = '王五齣生於1997/2/5'
61 str04 = '趙六齣生於1997.12.20'
62 str = [str01,str02,str03,str04]
63 # 提取出姓名+出生日期
64 # 匹配模式
65 reg_str12 = '(.*)出生於(\d{4})[.年/-](\d{1,2})[.月/-](\d{1,2}).*?'
66 for i in range(4):
67     regtest_test(reg_str12,str[i])
68 # result :
69 #       張三:1997-12-20
70 #       李四:1989-01-20
71 #       王五:1997-2-5
72 #       趙六:1997-12-20

註：此文來自網路，回歸網路

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

阿裡啟動新項目：Nacos，比 Eureka 更強！

什麼是 Nacos？ Nacos 是阿裡巴巴推出來的一個新開源項目，這是一個更易於構建雲原生應用的動態服務發現、配置管理和服務管理平臺。 Nacos 致力於幫助您發現、配置和管理微服務。Nacos 提供了一組簡單易用的特性集，幫助您快速實現動態服務發現、服務配置、服務元數據及流量管理。 Nacos ...
Java面向介面編程，低耦合高內聚的設計哲學

介面體現的是一種規範和實現分離的設計哲學，充分利用介面可以極大的降低程式中各個模塊之間的耦合，提高系統的可維護性以及可擴展性。 ...
詳解Java中對象的軟、弱和虛引用的區別

對於大部分的對象而言，程式里會有一個引用變數來引用該對象，這是最常見的引用方法。除此之外，java.lang.ref包下還提供了3個類：SoftReference、WeakReference和PhantomReference。它們分別代表了系統對對象的另外3中引用方式：軟引用、弱引用和虛引用。 ...
Java集合類的那點通俗的認知

文/沉默王二開門見山地說吧，Java提供了一套完整的集合類（也可以叫做容器類）來管理一組長度可變的對象（也就是集合的元素），其中常見的類型包括List、Set、Queue和Map。從我個人的編程經驗來看，List的實現類ArrayList和Map的實現類HashMap使用頻率最高，其它實現類只能望 ...
單利模式

/*懶漢模式 *優點:延遲載入 * 缺點:不加同步的懶漢模式是線程不安全的，加了synchronzide之後就變成線程安全的了 */public class Singleton { private static Singleton singleton=null; private Singleton( ...
Django 系列博客（二）

Django 系列博客（二）前言今天博客的內容為使用 Django 完成第一個 Django 頁面，併進行一些簡單頁面的搭建和轉跳。命令行搭建 Django 項目創建純凈虛擬環境在上一篇博客中已經安裝好了虛擬環境，所以用虛擬環境來安裝指定版本的 Django。為了可以從頭到尾的走一遍流程， ...
python模塊之collections模塊

計數器 Counter 計數元素迭代器 elements() 計數對象拷貝 copy() 計數對象清空 clear（）有序字典 OrderedDict (對字典的補充，可以記住字典元素添加的順序) 預設字典 defaultdict，（指定字典值的類型）可命名元組 namedtuple (給元組對 ...
網路編程協議(TCP和UDP協議,粘包問題)

網路編程協議 1.osi七層模型應用層表示層會話層傳輸層網路層數據鏈路層物理層 2.套接字 socket 有兩類,一種基於文件類型,一種基於網路類型 3.Tcp和udp協議 Tcp協議:面向連接,數據可靠,傳輸效率低,面向位元組流建立連接與斷開連接的過程(三次握手,四次揮手) 建立連接 ...