一,安裝編程工具併進入編程界面 首先去https://www.continuum.io/downloads/網站下載Anaconda工具並安裝;打開cmd,輸入jupyter notebook並回車(win7),他會自動幫你打開編輯界面(基於瀏覽器的);點擊new按鈕新建一個Python3的編輯框, ...
一,安裝編程工具併進入編程界面
首先去https://www.continuum.io/downloads/網站下載Anaconda工具並安裝;打開cmd,輸入jupyter notebook並回車(win7),他會自動幫你打開編輯界面(基於瀏覽器的);點擊new按鈕新建一個Python3的編輯框,他會彈出一個新視窗,好了現在可以敲代碼了。
二,爬取整個頁面
- import requests #導入requests模塊
- res = requests.get('http://study.163.com/') #調用模塊中的get方法,以網易雲課堂為例
- print(res.text); #列印整個頁面內容
三,爬取指定標簽的文本from bs4 import BeautifulSoup #導入BeautifulSoup模塊
- html_sample = '<!DOCTYPE html><html><head><meta charset="utf-8">\
- <title>文檔標題</title></head><body><a id="a1" class="c" href="#">測試數據1</a>\
- <a id="a2" class="c" href="##">測試數據2</a>\
- </body></html>' #html_sample變數模擬你讀取的整個頁面內容,“\”符號在編輯框換行時鏈接字元串
- soup = BeautifulSoup(html_sample,'html.parser') #爬取頁面的所有文本
- a=soup.select('a') #篩選出所有的a標簽和對應內容,返回的是個數組
- b=soup.select('#a1') #篩選id為a1的標簽和對應內容
- c=soup.select('.c') #篩選class為c的標簽和對應內容,返回的是個數組
- print(a) #列印a標簽文本,帶標簽
- print(a[0]) #列印第一條a標簽文本,帶標簽
- print(a[0].text) #列印第一條a標簽文本,不帶標簽
- for aa in a:
- print(aa.text) #逐條列印a中的文本,不帶標簽
- print(aa['href']) #逐條列印a中的鏈接
持續更新中……