Python爬蟲連載13-BeatuifulSoup四大對象、遍歷文檔對象、CSS選擇器

-Advertisement-

一、BeautifulSoup四大對象 1.Tag （1）對應的就是Html中的標簽；（2）可以通過soup,tag_name （3）tag裡面有兩種重要的屬性 name：用於列印標簽的名字 attrs：用於列印屬性（返回一個字典） contents：列印內容（返回一個列表) from bs4 i ...

一、BeautifulSoup四大對象

1.Tag

（1）對應的就是Html中的標簽；

（2）可以通過soup,tag_name

（3）tag裡面有兩種重要的屬性

name：用於列印標簽的名字

attrs：用於列印屬性（返回一個字典）

contents：列印內容（返回一個列表)

 

from bs4 import BeautifulSoup

from urllib import request



url = "http://www.baidu.com"

rsp = request.urlopen(url)

content = rsp.read()



soup = BeautifulSoup(content)

#bs自動轉碼

content = soup.prettify()

print(content)

print("==" *12)

print(soup.head)

print("=="*12)

print(soup.link.name)

print("=="*12)

print(soup.link.attrs)

print(soup.link.attrs["type"])

print("=="*12)

print(soup.title)

print(soup.title.name)#列印標簽

print(soup.title.attrs)

print(soup.title.contents)#列印內容，返回一個列表

2.NavigableString

對應內容值

3.BeautileSoup

（1）表示的是一個文檔的內容，大部分可以把它當作是tag對象

（2）一般可以使用soup來表示

4.Comment

（1）特殊類型的NavagableString對象

（2）對其輸出，則內容不包括註釋符號

二、遍歷文檔對象

1.contents:tag的子節點以列表的方式給出

2.children：子節點以迭代器的方式返回

3.decendants：所有的孫子節點

4.string

三、搜索文檔對象

find_all(name,attrs,recursive,text,**kwargs)

name：按照哪個字元串搜索，可以傳入的內容：

（1）字元串；（2）正則表達式；（3）列表

kewwortd參數，可以用來表示屬性

text:對應tag的文本值

from bs4 import BeautifulSoup

from urllib import request

import re



url = "http://www.baidu.com"

rsp = request.urlopen(url)

content = rsp.read()



soup = BeautifulSoup(content)

#bs自動轉碼

content = soup.prettify()

for node in soup.head.contents:

    if node.name == "meta":

        print(node)

print("=="*12)



tags = soup.find_all(name=re.compile("meta"))#可以使用正則，返回了一個列表，找的是含有meta屬性的所有標簽

print(tags)

print("=="*12)

四、CSS選擇器

1.使用soup.select，返回一個列表

2.通過標簽名稱：soup.select("title")

3.通過類名：soup.select(".content")

4.通過id名：soup.select("#name_id")

5.組合查找：soup.select("div #input_content")

6.屬性查找：soup.select("img[class="photo"])

7.獲取tag內容：tag.get_text

 

from bs4 import BeautifulSoup

from urllib import request

import re



url = "http://www.baidu.com"

rsp = request.urlopen(url)

content = rsp.read()



soup = BeautifulSoup(content)



print(soup.prettify())

print("=="*12)

titles = soup.select("title")

print(titles[0])

print("=="*12)

metas = soup.select("meta[content='always']")

print(metas)

五、源碼

Reptile13_1_BeautifulSoupFourComponent.py

Reptile13_2_TraverseFileObject.py

Reptile13_3_CSSSelector.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile13_1_BeautifulSoupFourComponent.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile13_2_TraverseFileObject.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile13_3_CSSSelector.py

2.CSDN：https://blog.csdn.net/weixin_44630050

3.博客園：https://www.cnblogs.com/ruigege0000/

4.歡迎關註微信公眾號：傅里葉變換，個人公眾號，僅用於學習交流，後臺回覆”禮包“，獲取大數據學習資料

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

VUE實現Studio管理後臺（十三）：按鈕點選輸入控制項，input輸入框系列

按鈕點選輸入，是一個非常簡單的控制項，20分鐘就能完成的一個控制項。先看效果：根據以前的設定，通過json數據動態生成這兩個按鈕，示例中這兩個按鈕對應的json代碼： { label:'標題', value:'h2', defaultValue:'h2', inputName:'RxButtonSel ...
大話設計-單一職責

記錄大話設計學習過程。鏈接：https://pan.baidu.com/s/1JNaagbvOkwAHMBe6vdH8lg 提取碼：ko5t 如果能想到多一個動機去改變一個類，那麼這個類負責的職責就多於一個。單一職責在企業里就能明顯的體現出來，HR一個類、開發人員一個類、項目經理一個類、測試人員 ...
乾貨！騰訊資深架構解密從分散式到微服務

本人免費整理了Java高級資料，涵蓋了Java、Redis、MongoDB、MySQL、Zookeeper、Spring Cloud、Dubbo高併發分散式等教程，一共30G，需要自己領取。傳送門：https://mp.weixin.qq.com/s/osB-BOl6W-ZLTSttTkqMPQ 前 ...
圖解Java設計模式之建造者模式

圖解Java設計模式之建造者模式蓋房項目需求傳統方式解決蓋房需求傳統方式的問題分析建造者模式基本介紹建造者模式的四個角色建造者模式原理類圖建造者模式在JDK的應用和源碼分析建造者模式的註意事項和細節蓋房項目需求 1）需要建房子：這一過程為打樁、砌牆、封頂2）房子有各種各樣的，比如 ...
微服務優化之使用gRPC做微服務的內部通信

使用gRPC做微服務的內部通信 gRPC是一個由Google開源的遠程服務調用框架，具有多路復用和雙向流式通信的特性。大家好，在本文中將為大家介紹為什麼我們應該使用gRPC代替RESTful或JSON，來開發微服務內部的通信介面。什麼是gRPC? gRPC是一個高性能的、開源的、普遍通用的RPC ...
UML用例模型和類圖練習

1.一個小型網路水果超市，負責給用戶網上訂購蘋果、芒果、桃子、荔枝。用戶可以註冊成為會員，預約、訂購、查詢、取消等常規動作。請設計用例模型.1）參與者2）用例圖3）一個重要的用例進行描述 2. 畫出類圖一家公司有許多部門，通過部門名唯一的確定一個部門，每個部門有一名經理主管，也有的經理不管理任何 ...
洛谷P1034 矩形覆蓋

P1034 矩形覆蓋題目描述在平面上有n個點（n include include include include using namespace std; int read(){ int x=0,f=1;char ch=getchar(); while(ch'9'){if(ch==' ')f= ...
python筆記27（網路編程--網路基礎介紹）

一、內容回顧 1、re模塊 2、正則分組元字元、量詞、惰性符號 3、補充 [],[^]:帶有特殊意義的元字元到字元組內大部分取消其特殊含義。如果擔心出現特殊含義：加\ 會取消的：[()+ . ] [( )] 的位置決定了它的意義，寫在字元組的第一個位置就表示一個普通的橫杠。寫在字元組的其他任何 ...