1 URL含義 URL的格式由三部分組成: ①第一部分是協議(或稱為服務方式)。 ②第二部分是存有該資源的主機IP地址(有時也包括埠號)。 ③第三部分是主機資源的具體地址,如目錄和文件名等。 2 分析扒網頁的方法 首先調用的是urllib2庫裡面的urlopen方法,傳入一個URL,這個網址是百度 ...
- 1 URL含義
URL的格式由三部分組成:
①第一部分是協議(或稱為服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括埠號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。 2 分析扒網頁的方法
response = urllib2.urlopen("http://www.baidu.com")
首先調用的是urllib2庫裡面的urlopen方法,傳入一個URL,這個網址是百度首頁,協議是HTTP協議,當然你也可以把HTTP換做FTP,FILE,HTTPS 等等,只是代表了一種訪問控制協議,urlopen一般接受三個參數,它的參數如下:
urlopen(url, data, timeout)
第一個參數url即為URL,第二個參數data是訪問URL時要傳送的數據,第三個timeout是設置超時時間。
第二三個參數是可以不傳送的,data預設為空None,timeout預設為 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必須要傳送的,在這個例子裡面我們傳送了百度的URL,執行urlopen方法之後,返回一個response對象,返回信息便保存在這裡面。print response.read()
response對象有一個read方法,可以返回獲取到的網頁內容。記得一定要加read方法,否則它不出來內容咯!
3 構造Requset
import urllib2 request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(request) print response.read()
4 POST和GET數據傳送
Urllib庫的高級用法
- 1 設置Headers
- 2 Proxy(代理)的設置
- 3 Timeout 設置
- 4 使用 HTTP 的 PUT 和 DELETE 方法
http協議有六種請求方法,get,head,put,delete,post,options 5 使用DebugLog
來自