python3 爬蟲筆記（一）beautiful_soup

-Advertisement-

很多人學習python，爬蟲入門，在python爬蟲中，有很多庫供開發使用。用於請求的urllib(python3)和request基本庫，xpath,beautiful soup,pyquery這樣的解析庫。其中xpath中用到大量的正則表示式，對於新手來說，寫正則很容易出錯，在這裡，從beau ...

很多人學習python，爬蟲入門，在python爬蟲中，有很多庫供開發使用。

用於請求的urllib(python3)和request基本庫，xpath,beautiful soup,pyquery這樣的解析庫。其中xpath中用到大量的正則表示式，對於新手來說，寫正則很容易出錯，在這裡，從beautiful soup開始說。

from beautiful_soup.constant import HTML_TEXT

from bs4 import BeautifulSoup
soup = BeautifulSoup(HTML_TEXT, 'lxml')
# 將html文件以標準的格式輸出, 會自動補全缺失的HTML結構
print(soup.prettify())
# 獲取title標簽的內容
print(soup.div.string)
# 獲取名稱
print(soup.div.name)
# 獲取屬性 屬性值多個，所以返回值為list列表
print(soup.div.attrs)
# 元素選擇可以嵌套 ,這樣的方式在多個的情況下，只取第一個，
# 比如body中有多個div,這裡取了第一個
print(soup.body.div.a.attrs)

# contents 屬性獲取直接的子節點 children屬性也是如此

用屬性選擇較快，但是遇到複雜的情況，就很不靈活，這時候我們需要調用beautiful_soup中的一些方法# find_all 查詢所有符合條件的元素

# find_all(name, attrs, recursive, text, **kwargs)
# name是屬性名  attrs是屬性
print(soup.find_all(name="ul"))

for ul in soup.find_all(name="ul"):
    print(ul.find_all(name="li"))
# 屬性傳入夫人參數為字典格式
print(soup.find_all(attrs={"class": "js-geo-city"}))

# text
print(soup.find_all(text=re.compile("熱")))

# find() 用法和find_all()一致，只不過返回的是單個元素，匹配到的第一個

# 其他方法
 find_parents() # 返回所有的祖先節點
 find_parent() # 直接返回父節點

find_next_siblings() # 返回後面所有的兄弟節點
find_next_sibling()  # 返回後面第一個兄弟節點

find_previous_siblings() # 返回前面所有的兄弟節點
find_pervious_sibling() # 返回前面第一個兄弟節點

# css選擇器 select()
print(soup.select("ul li"))

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

猴子課堂：ISAP學習筆記

學完了ISAP，感覺心情舒暢，畢竟ISAP比Dinic好一點。說到底ISAP其實是Dinic（不熟悉Dinic的人去我的博客找猴子課堂最大流與最小割（看看思想）,已經置頂）優化版，熟悉的人知道Dinic是通過不斷分層來做的，但是，我們如果用打標記（貂蟬的標記）的方法就會快一些！會快的原因就是因 ...
猴子課堂：插頭DP(基於連通性狀態壓縮的動態規劃問題）（讓你從入門到絕望）

今天，我，Monkey ~~king~~ 又為大家帶來大（ju）佬（ruo）的演算法啦！——插頭DP 例題(菜OJ上的網址：http://caioj.cn/problem.php?id=1489)：那麼，這道題怎麼做呢？~~（雖然菜OJ上有視頻）~~ 插頭DP能完美解決！註：我採用的是括弧表示法~ ...
猴子課堂-----------掃描線+離散化+線段樹

給出題目！ "題目界面" 那麼，大家一看一般是一臉矇蔽因為這確實聽刁鑽，許多人不會打二維線段樹，卻一直在想線段樹怎麼打，可悲~~（大佬：花了5分鐘打出二維線段樹，好難！）~~，那摸，大家，這道題怎麼做？接下來會涉及到離散化與線段樹，請自學，抱歉⊙﹏⊙ 那麼，這道題呢，重要的是掃描線（如圖）：那 ...
java中為什麼介面中的屬性和方法都預設為public？

4）為什麼介面中的屬性和方法都預設為public？Sun公司當初為什麼要把java的介面設計發明成這樣？【新手可忽略不影響繼續學習】（視頻下載）（全部書籍）答：如上所述，馬克-to-win：既然介面強於抽象類能勝任作為和外部系統打交道的合同。換句話說，一般來講和外部系統打交道，自然考慮用“介面” ...
String,static,final

1. String 下麵代碼創建了幾個對象？ String s1 = new String("Hello"); String s2 = new String("Hello"); 要想答對這道題，需要考慮String的一個常量池的概念。在執行代碼的時候，首先會判斷字元串常量池中是否存在"Hello"， ...
Django的認證系統

Django自帶的用戶認證我們在開發一個網站的時候，無可避免的需要設計實現網站的用戶系統。此時我們需要實現包括用戶註冊、用戶登錄、用戶認證、註銷、修改密碼等功能，這還真是個麻煩的事情呢。 Django作為一個完美主義者的終極框架，當然也會想到用戶的這些痛點。它內置了強大的用戶認證系統--auth， ...
Python入門經典案例一

# 有1、2、3、4個數字，能組成多少個互不相同且無重覆數字的三位數？都是多少？ 1 sum = 0 2 values = range(1, 5) 3 for i in values: 4 for j in values: 5 for k in values: 6 if i != j and j ! ...
二叉樹的最大深度

給定一個二叉樹，找出其最大深度。二叉樹的深度為根節點到最遠葉子節點的最長路徑上的節點數。說明: 葉子節點是指沒有子節點的節點。示例：給定二叉樹 [3,9,20,null,null,15,7]，返回它的最大深度 3 。通過此題掌握樹的運用題目分析：求二叉樹的深度；大家可以瀏覽二叉樹的基本 ...