Python爬蟲常用模塊，BeautifulSoup筆記

-Advertisement-

這是我以前的BS4筆記，交流請聯繫 QQ 328123440 ...

import urllib  
import urllib.request as request
import re
from bs4 import *

#url = 'http://zh.house.qq.com/'
url = 'http://www.0756fang.com/'
html = request.urlopen(url).read().decode('utf-8')

soup = BeautifulSoup(html,"html.parser")
print(soup.head.meta['content'])#輸出所得標簽的‘’屬性值
print(soup.span.string);print(soup.span.text)#兩個效果一樣，返回標簽的text

#name屬性是‘’的標簽的<ResultSet>類，是一個由<Tag>組成的list
print(soup.find_all(attrs={'name':'keywords'}))
print(soup.find_all(class_='site_name'))#class屬性是‘’的<Tag>的list,即<ResultSet>
print(soup.find_all(class_='site_name')[0])#這是一個<Tag>

print(soup.find(attrs={'name':'keywords'}))#name屬性是‘’的標簽的<Tag>類
print(soup.find('meta',attrs={'name':'keywords'}))#name屬性是‘’的meta標簽的<Tag>類
print(soup.find('meta',attrs={'name':'keywords'})['content'])#<Tag類>可直接查屬性值
#配合re模塊使用，可以忽略大小寫
#如下麵例子，可以找到name屬性為keywords，KEYWORDS,KeyWORds等的meta標簽
print(soup.find('meta',attrs={'name':re.compile('keywords',re.IGNORECASE)}))

'''-------------------------------------------------------------------------'''
'''----------------------------修改BeautifulSoup—----------------------------'''
'''-------------------------------------------------------------------------'''
soup.find(attrs={'name':'keywords'}).extract#調用這個方法，可以刪除這一個標簽
soup.title.name='ppp'#可以把Tag的名字<title>改成<ppp>

#可以使用append(),insert(),insert_after()或者insert_before()等方法來對新標簽進行插入。
Tag1 = a.new_tag('li',class_='123')'''創造一個Tag'''
a.title.append（Tag1）#把Tag1添加為name是title的Tag的最後一個【子節點】，沒有換行
      #.insert(0,Tag1)----這裡用insert的話，第一個參數可以控制所添加【子節點】的先後位置
      #.insert_after(Tag1)---和insert_before一樣，添加為Title的【兄弟節點】

soup.head.meta['content']='隨便輸入，可以添加（或更改）這個Tag的content屬性（值）'
del soup.head.meta['content']#這個語法可以直接刪除這個Tag的content屬性


soup.li.clear#調用方法會清除所有li標簽的text
soup.title.string='用這個方法可以修改title標簽的內容'#慎用，只用於最子孫最小的節點，用於父節點會清空子節點
soup.div.append('放在div子節點位置的 最後append最後，是標簽內容')
soup.div.insert(0,'放在div子節點位置的 最前insert【0】最前，是標簽內容'')

　　這是我以前的BS4筆記，交流請聯繫 QQ 328123440

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

data.table包---轉載（修改）

 $(document).ready(function () { window.buildTabsets("TOC"); });  dataTable wangchao 2016年7月18日 1.生成一個data.table對 ...
TreeSet集合深入瞭解--------攻擊原理

Set介面Set不允許包含相同的元素，如果試圖把兩個相同元素加入同一個集合中，add方法返回false。(無序，不可重覆 )Set判斷兩個對象相同不是使用==運算符，而是根據equals方法。也就是說，只要兩個對象用equals方法比較返回true，Set就不會接受這兩個對象。 HashSetHa ...
Python post、get百度

...
curl數據採集系列之單頁面採集函數get_html

在做數據採集時經常要使用到curl+正則的方式採集需要的數據根據自己的工作經驗把自己寫的一些常用自定義函數拿到博客園來分享如果有寫得不恰當的地方請多多指教這是一個系列沒辦法在一兩天寫完所以一篇一篇的發佈大致大綱： 1.curl數據採集系列之單頁面採集函數get_html 2.cur ...
C++運算符重載的規則

運算符重載的規則如下： 1、C++中的運算符除了少數幾個之外，全部可以重載，而且只能重載C++中已經有的運算符。 2、重載之後運算符的優先順序和結合性都不會改變 3、運算符重載是針對新類型數據的實際需要，對原有運算符進行適當的改造，一般來講，重載的功能應當與原有功能相類似，不能改變原運算符的操作對象個 ...
【基礎】運算符，堆棧，數組

一.運算符：優先順序，結合性一句話總結：點號自反非，算關邏賦移。二.java關鍵字 instanceof 實例 volatile 易失 super 父類,超類 transient 短暫 synchronized 線程,同步 strictfp 嚴格,精準 package 包 throws 聲明一個異 ...
Spring MVC 學習總結（四）——視圖與綜合示例

一、表單標簽庫 1.1、簡介從Spring2.0起就提供了一組全面的自動數據綁定標簽來處理表單元素。生成的標簽相容HTML 4.01與XHTML 1.0。表單標簽庫中包含了可以用在JSP頁面中渲染HTML元素的標簽。表單標記庫包含在spring-webmvc.jar中，庫的描述符稱為spring- ...
Python之線程、進程和協程

python之線程、進程和協程目錄：引言一、線程 1.1 普通的多線程 1.2 自定義線程類 1.3 線程鎖 1.3.1 未使用鎖 1.3.2 普通鎖Lock和RLock 1.3.3 信號量(Semaphore) 1.3.4 事件(Event) 1.3.5 條件(condition) 1.3 ...