Python爬蟲連載12-爬蟲正則表示式、BeautifulSoup初步

-Advertisement-

一、正則常用的方法 1.match：從開始位置開始查找，一次匹配 2.search：從任何位置查找，一次匹配 3.findall：全部匹配，返回列表 4.finditer：全部匹配，返回迭代器 5.split：分割字元串，返回列表 6.sub：替換 7.匹配中文中文unicode編碼[u ...

一、正則常用的方法

1.match：從開始位置開始查找，一次匹配

2.search：從任何位置查找，一次匹配

3.findall：全部匹配，返回列表

4.finditer：全部匹配，返回迭代器

5.split：分割字元串，返回列表

6.sub：替換

7.匹配中文

中文unicode編碼[u4e00-u9fa5]

8.貪婪演算法和非貪婪演算法

貪婪模式：在整個表達式匹配成功的前提下，儘可能的多的匹配

非貪婪模式：在整個表達式匹配成功的前提下，儘可能的少的匹配

python中預設時貪婪模式

import re



s = r"([a-z]+)( [a-z]+)"

pattern = re.compile(s,re.I)



m = pattern.match("Hello world wide web")

#group(0)表示返回匹配成功的整個字串

s = m.group(0)

print(s)

#返回匹配成功的整個子串的跨度

a = m.span(0)

print(a)

#group(1)表示返回的第一個分組匹配成功的字串

s = m.group(1)

print(s)

#span(1)返回匹配成功的第一個子串的跨度

a = m.span(1)

print(a)

#groups()返回的是匹配的所有分組子串都輸出出來，不包含整個匹配的子串

b = m.groups()

print(b)

print("===============")

string = r"\d+"

pattern = re.compile(string)

m = pattern.search("one12two34three56")#返回第一個查找到的結果

print(m.group(0))#這裡的0不寫也沒有關係，不寫就是預設為0

m = pattern.search("one12two34three56",10,40)#從字元串的第十個位置進行查找，第四十結束，這裡不夠四十，那就直接到字元串結束位置即可

print(m)



m = pattern.findall("one12two34three56")#以列表的形式返回所有的結果

print(m)



m = pattern.finditer("one12two34three56")

print(m)

for i in m:

    print(i)

    print(i.group())



print("=======")

string2 = u"你好，世界"

pattern = re.compile(r"[\u4e00-\u9fa5]+")

print(pattern.search("你好，世界盃").group())

二、BeatuifulSoup4 --CSS選擇器

1.現在使用BeautifulSoup4

2.參考鏈接：https://beautifulsoup.readthedocs.io/zh_CN/latest/

3.幾個常用的提取工具的比較：

（1）正則：很快，不好用，不允許安裝

（2）beautifulsoup:慢，但是使用簡單，安裝簡單

（3）lxml：比較快，使用簡單，但是安裝一般

from urllib import request

from bs4 import BeautifulSoup

url = "http://www.baidu.com"

rsp = request.urlopen(url)

content = rsp.read()

soup = BeautifulSoup(content,"html")

#bs自動轉碼

content = soup.prettify()

print(content)

三、源碼

Reptitle12_1_TRegularExpression.py

Reptile12_2_BeautifulSoup.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle12_1_TRegularExpression.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile12_2_BeautifulSoup.py

2.CSDN：https://blog.csdn.net/weixin_44630050

3.博客園：https://www.cnblogs.com/ruigege0000/

4.歡迎關註微信公眾號：傅里葉變換，個人公眾號，僅用於學習交流，後臺回覆”禮包“，獲取大數據學習資料

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JavaScript push() 方法使用【轉】

實例數組中添加新元素： fruits 結果輸出：定義和用法 push() 方法可向數組的末尾添加一個或多個元素，並返回新的長度。註意：新元素將添加在數組的末尾。註意：此方法改變數組的長度。提示：在數組起始位置添加元素請使用 "unshift()" 方法。瀏覽器支持所有主要瀏覽器都 ...
JavaScript pop() 方法使用【轉】

定義和用法 pop() 方法用於刪除並返回數組的最後一個元素。語法 ~~~ arrayObject.pop() ~~~ 返回值 arrayObject 的最後一個元素。說明 pop() 方法將刪除 arrayObject 的最後一個元素，把數組長度減 1，並且返回它刪除的元素的值。如果數組已經為 ...
JavaScript join() 方法使用【轉】

定義和用法 join() 方法用於把數組中的所有元素放入一個字元串。元素是通過指定的分隔符進行分隔的。語法 ~~~ arrayObject.join(separator) ~~~ | 參數 | 描述 | | | | | separator | 可選。指定要使用的分隔符。如果省略該參數，則使用逗號 ...
JavaScript hasOwnProperty() 函數詳解【轉】

`hasOwnProperty() true false`。該方法屬於對象，由於所有的對象都"繼承"了Object的對象實例，因此幾乎所有的實例對象都可以使用該方法。 IE 5.5+、FireFox、Chrome、Safari、Opera等主流瀏覽器均支持該函數。語法 JavaScript: ...
CSS設置DIV背景色漸變顯示【轉】

google模式下： ie模式下：火狐模式下： FILTER（ie模式）；background: moz linear gradient（火狐模式）；background: webkit gradient（谷歌模式）。以上是為了區別不同瀏覽器的不同效果，我把色碼區別開了。為了相容所有瀏覽器的相同 ...
[討論] 平臺建設，我們從架構中去掉kafka？

目錄 1. 概述... 2 2. 原有結構（帶kafka）... 2 3. 改造後的結構（去掉kafka）... 3 4. 對比... 4 1. 概述我們主要面向鋼鐵行業工業互聯網公有雲和私有去建設，偏向PAAS層和SAAS層應用，框架是支撐這個體系建設。現在我們的公有雲的IAAS資源層使用的是 ...
python筆記24（回顧、複習）

一、內容回顧面向對象單例模塊單例模塊：設計模式單例的應用場景 logging模塊記錄日誌的記錄錯誤、操作日誌給程式員看的：①統計使用；②用來做故障排除的（debug）；③記錄錯誤，完成優化代碼的。 logging.basicconig:①使用方便，②不能實現，編碼問題；不能同時向文件和 ...
python筆記25（正則表達式課程一）

今日內容 1、mro演算法和super super()表示執行父類的方法。 2、正則表達式和re模塊 1. re模塊本身只是用來操作正則表達式。（1）正則表達式匹配字元串表單驗證爬蟲（4）正則表達式規則（元字元，量詞） 3、量詞 ...