Python爬蟲初學者學習筆記（帶註釋）

-Advertisement-

一，安裝編程工具併進入編程界面首先去https://www.continuum.io/downloads/網站下載Anaconda工具並安裝;打開cmd，輸入jupyter notebook並回車（win7）,他會自動幫你打開編輯界面（基於瀏覽器的）；點擊new按鈕新建一個Python3的編輯框， ...

一，安裝編程工具併進入編程界面

首先去https://www.continuum.io/downloads/網站下載Anaconda工具並安裝;打開cmd，輸入jupyter notebook並回車（win7）,他會自動幫你打開編輯界面（基於瀏覽器的）；點擊new按鈕新建一個Python3的編輯框，他會彈出一個新視窗，好了現在可以敲代碼了。

二，爬取整個頁面

import requests #導入requests模塊
res = requests.get('http://study.163.com/') #調用模塊中的get方法，以網易雲課堂為例
print(res.text); #列印整個頁面內容

三，爬取指定標簽的文本from bs4 import BeautifulSoup #導入BeautifulSoup模塊

html_sample = '<!DOCTYPE html><html><head><meta charset="utf-8">\
<title>文檔標題</title></head><body><a id="a1" class="c" href="#">測試數據1</a>\
<a id="a2" class="c" href="##">測試數據2</a>\
</body></html>' #html_sample變數模擬你讀取的整個頁面內容，“\”符號在編輯框換行時鏈接字元串
soup = BeautifulSoup(html_sample,'html.parser') #爬取頁面的所有文本
a=soup.select('a') #篩選出所有的a標簽和對應內容，返回的是個數組
b=soup.select('#a1') #篩選id為a1的標簽和對應內容
c=soup.select('.c') #篩選class為c的標簽和對應內容，返回的是個數組
print(a) #列印a標簽文本，帶標簽
print(a[0]) #列印第一條a標簽文本，帶標簽
print(a[0].text) #列印第一條a標簽文本，不帶標簽
for aa in a:
print(aa.text) #逐條列印a中的文本，不帶標簽
print(aa['href']) #逐條列印a中的鏈接

持續更新中……

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux vi命令快操作彙總

第一部份：一般指令模式可用的按鈕說明，游標移動、複製粘貼、搜尋取代等一、移動游標的方法h 或向左方向鍵(←) 游標向左移動一個位元組j 或向下方向鍵(↓) 游標向下移動一個位元組k 或向上方向鍵(↑) 游標向上移動一個位元組l 或向右方向鍵(→) 游標向右移動一個位元組 [Ctrl] + [f] ...
51單片機實現數位管動態顯示

———————————————————————————————————————————— 設計要求：在8位8端的數位管上動態顯示76543210，快速顯示時人眼看到的效果為同時亮起 ———————————————————————————————————————————— 實現目標： ——————— ...
【JAVAWEB學習筆記】26_Linux基礎：簡介安裝、常用命令和JDK、Mysql、Tomcat的安裝

Linux基礎學習目標 1、瞭解Linux的簡介與安裝 2、掌握Linux常用的命令 3、掌握Linux系統上JDK、Mysql、Tomcat的安裝學習目標 1、瞭解Linux的簡介與安裝 2、掌握Linux常用的命令 3、掌握Linux系統上JDK、Mysql、Tomcat的安裝一、Linu ...
R語言—連接Oracle資料庫

本教程會講解兩種方法，第一種方法較為簡單，且中文不容易出現亂碼。第二種方法，較為複雜，和java的jdbc連接資料庫操作類似。操作環境: 系統：windows10 64位資料庫：Oracle11g 用戶名：testuser 案例用表：emp R語言版本：3.4.0 64位 RStudio版本：1 ...
每天一道Java題[9]

題目 native關鍵字的作用是什麼？解答首先，需瞭解JNI（Java Native Interface），它是連接Java平臺與本地C代碼的一個API。其次，用native關鍵字聲明的方法，是告訴JVM調用的方法是一個外部定義的方法，也就是本地C代碼定義的一個方法。總結來說，native關 ...
linux啟動流程簡介

我們都知道，由於linux的穩定性，通常被作為伺服器系統，要想稱為一個PHP的高手，linux是必修之課。那麼linux系統從開機到啟動，中間到底都發生了什麼？本文來簡單探討一下中間的神秘過程。 1、 BIOS加電自檢 BIOS是英文"Basic Input Output System"的縮略詞其 ...
如何不利用一個額外的變數來達到交換兩個變數值的目的-------位上的異或運算

問題：一般我們要交換兩個變數的值，多會採取一個額外變數來實現，比如temp=a,a=b,b=temp，現在我們能不利用temp來實現交換a,b兩個變數值的目的嗎？解決方案：^異或運算符，而且我們會發現a^a=0,還有0^a=a,依據這兩條理論，我們可以實現之前提出的問題。代碼如下： #inclu ...
JavaSE學習筆記——01

基礎知識：一、人機交互方式：圖形化界面（GUI）命令行方式（CLI）二、常用的DOS命令： dir：列出當前目錄下的所有文件以及文件夾； md：創建目錄； rd：刪除目錄； cd：進入指定的目錄； cd..：返回到上一級目錄； cd/：退回到根目錄； del：刪除文件； exit：退出dos ...