re_ZenDei技術網路在線

-Advertisement-

一、re模塊 re模塊是python提供的一套關於處理正則表達式的模塊。二、核心功能 1. search 作用：搜索搜索到結果就返回。如果有多個結果，只返回第一個結果，且多次調用，返回的都是第一個結果如果匹配不上就報錯 ...

一、re模塊

re模塊是python提供的一套關於處理正則表達式的模塊。

二、核心功能

1. search

作用：搜索

搜索到結果就返回。
如果有多個結果，只返回第一個結果，且多次調用，返回的都是第一個結果
如果匹配不上就報錯

import re

res = re.search(r"o", "hello world")
print(res.group())   # o

s = re.search(r"c", "hello world")
print(s.group())  # AttributeError: 'NoneType' object has no attribute 'group'

2. match

作用：從開頭匹配

如果匹配到了，就返回
如果匹配不到，就報錯

import re

res = re.match(r"h", "hello world")
print(res.group())   # h

s = re.match(r"c", "hello world")
print(s.group())  # AttributeError: 'NoneType' object has no attribute 'group'

3. findall

作用：查找所有，返回list

import re

lst = re.findall(r"\d+", "name Tom age 18 phone 2354786")
print(lst)  # ['18', '2354786']

對於正則表達中的組"()"，findall會優先把匹配結果組裡的內容返回

import re

lst = re.findall(r"www\.(baidu|qq)\.com", "www.baidu.com")
print(lst)  # ['baidu']

如果想要返回匹配結果，添加"？："取消許可權即可

import re

lst = re.findall(r"www\.(?:baidu|qq)\.com", "www.baidu.com")
print(lst)  # ['www.baidu.com']

4. finditer

作用：查找所有，返回迭代器

import re

lst = re.finditer(r"\d+", "name Tom age 18 phone 2354786")
for el in lst:
    print(el.group())

結果：
18
2354786

三、其他操作

1. split

作用：分割，返回list

import re

ret = re.split(r"[abc]", "qwerafjbfcd")  # 先按a分割，再按b分割，然後按c分割 
print(ret)  # ['qwer', 'fj', 'f', 'd']

在匹配部分加上"()"與不加所得出的結果不同。這個在某些需要保留匹配部分的使用過程是非常重要的

import re

ret = re.split("\d+", "eva3egon4yuan")
print(ret)  # ['eva', 'egon', 'yuan']

import re

ret = re.split("(\d+)", "eva3egon4yuan")
print(ret)  # ['eva', '3', 'egon', '4', 'yuan']

2. sub

作用：替換

import re

ret = re.sub(r"\s", "__", "hello world")
print(ret)  # hello__world

3. subn

作用：替換，返回元組（替換的結果，替換次數）

import re

ret = re.subn(r"\s", "__", "name age gender phone")
print(ret)  # ('name__age__gender__phone', 3)

4. compile

作用：將正則表達式編譯成一個正則表達式對象，進行預載入

import re

obj = re.compile(r"\d{3}")

ret = obj.search("abc333eee")
print(ret.group())  # 333

四、re.S

正則表達式中，"."表示匹配除"\n"以外的所有字元。對於字元串中有換行，此時正則匹配到的則是多個字元串，而利用re.S，"."可以匹配"\n"，即得到的就是一個整體字元串。

五、對單一頁面內容的抓取

from urllib.request import urlopen
import re

# url
url = "url"

# 獲取全部內容
content = urlopen(url).read().decode()

# 預載入正則表達
obj = re.compile(r"正則表達")

# 獲取特定內容
res = obj.search(content).group("組名")

六、對同一結構，多頁面內容的抓取

from urllib.request import urlopen
import re

# 預載入正則表達式
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?導演: (?P<director>.*?)&nbsp;&nbsp;&nbsp;.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span>(?P<people>.*?)人評價</span>', re.S)


def get_content(url):
    """
    獲取內容
    :param url: 網址
    :return: 網頁全部內容
    """
    content = urlopen(url).read().decode("utf-8")
    return content


def parse_content(content):
    """
    解析內容
    :param content: 網頁全部內容
    :return: 字典形式的所需內容
    """
    pc = obj.finditer(content)
    for el in pc:
        yield {
            "name": el.group("name"),
            "director": el.group("director"),
            "score": el.group("score"),
            "people": el.group("people")
        }


def main():
    """
    獲取並解析內容，將所需內容寫入文件中
    :return: None
    """
    for i in range(10):
        url = "https://movie.douban.com/top250?start=%s&filter=" % (i*25)
        p = parse_content(get_content(url))
        with open("movie.txt", mode="a", encoding="utf-8") as f:
            for el in p:
                f.write(str(el) + "\n")


if __name__ == "__main__":
    main()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

return break continue

Java中return用於方法，兩個作用：（1）返回方法指定類型的值（這個值總是確定的），也可以是對象（2）方法的結束兩種形式：（1）有返回類型例如：return i; （2）無返回類型 return; 一般方法前有void代表無返回值，沒有void有返回值。 “break”語句用來結束循 ...
Springboot中Jackson的操作

有一段時間沒寫博客了，雖然是菜鳥一枚但畢竟總要有東西記錄學習的，我相信有志者事竟成。今天在工作中使用Jackson轉換了一個javabean，傳到測試服上之後發現日期少了一天，使用的是@JsonFormat註解。這裡寫了一個簡單的小demo記錄一下：表數據：實體類屬性： controller層就 ...
String求求你別秀了

小魯班今年電腦專業大四了，在學校可學了不少軟體開發的東西，也自學了一些JAVA的後臺框架，躊躇滿志，一心想著找個好單位實習。當投遞了無數份簡歷後，終於收到了一個公司發來的面試通知，小魯班欣喜若狂。到了人家單位後，前臺小姐姐給了小魯班一份筆試題目，要求在一個小時內完成，小魯班雙手接過題目後，粗略的 ...
第二十三天- 模塊 re

1 # r"(?P<name>正則)" 2 3 import re 4 res = re.search('e','leiyunse') # 搜索搜到一個結果就返回 5 print(res.group()) # e 6 7 res = re.match('\w+','wuwu is not go ...
python學習之旅（六）

Python基礎知識（5）：基本數據類型之字元串（Ⅱ）字元串方法 17.join：對字元串進行拼接結果： 'clialin' 18.ljust、rjust使字元串左（右對齊），並用某個字元對右（左端）進行填充結果： God##############God 19.zfill：在字元串左端填充“ ...
爬蟲：爬取男人團女優們的封面

將同一個女優的放到一個文件夾，用防止新建文件夾錯誤，但註釋掉後還能正常運行，有待觀察 ...
python技巧 namedtuple

python的namedtuple可以創建一個帶欄位名的元祖和一個帶名字的類 namedtuple的幾個屬性 _fields 類屬性 _make(iterable) 類方法 _asdict() 實例方法 In [7]: nginx._fieldsOut[7]: ('active', 'accepts ...
Json轉Scala對象一個問題

今天與第三方對接一個介面，由於我們是用Scala語言，對方的返回體Json需要轉換為一個對象，對象裡面包含一個數組也可以說是集合，於是乎就用List接收，看似沒問題，編譯也沒報錯，自測調用的時候就報了上面這個錯；源代碼為：原因就出在這裡，這個地方需要用到 Java.Util.List[] 才可以 ...