爬蟲基礎入門（一）_ZenDei技術網路在線

爬蟲基礎入門（一）

-Advertisement-

1 URL含義 URL的格式由三部分組成： ①第一部分是協議(或稱為服務方式)。 ②第二部分是存有該資源的主機IP地址(有時也包括埠號)。 ③第三部分是主機資源的具體地址，如目錄和文件名等。 2 分析扒網頁的方法首先調用的是urllib2庫裡面的urlopen方法，傳入一個URL，這個網址是百度 ...

1 URL含義
URL的格式由三部分組成：
①第一部分是協議(或稱為服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括埠號)。
③第三部分是主機資源的具體地址，如目錄和文件名等。
2 分析扒網頁的方法
```
  response = urllib2.urlopen("http://www.baidu.com")
```
首先調用的是urllib2庫裡面的urlopen方法，傳入一個URL，這個網址是百度首頁，協議是HTTP協議，當然你也可以把HTTP換做FTP,FILE,HTTPS 等等，只是代表了一種訪問控制協議，urlopen一般接受三個參數，它的參數如下：
```
 urlopen(url, data, timeout)
```
第一個參數url即為URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。
第二三個參數是可以不傳送的，data預設為空None，timeout預設為 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必須要傳送的，在這個例子裡面我們傳送了百度的URL，執行urlopen方法之後，返回一個response對象，返回信息便保存在這裡面。
```
print response.read()
```
response對象有一個read方法，可以返回獲取到的網頁內容。記得一定要加read方法，否則它不出來內容咯！

3 構造Requset

import urllib2
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

4 POST和GET數據傳送

Urllib庫的高級用法

1 設置Headers
2 Proxy（代理）的設置
3 Timeout 設置
4 使用 HTTP 的 PUT 和 DELETE 方法
http協議有六種請求方法，get,head,put,delete,post,options
5 使用DebugLog

來自

Python爬蟲入門四之Urllib庫的高級用法

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

zookeeper配置管理+集群管理實戰

引言之前就瞭解過kafka，看的似懂非懂，最近項目組中引入了 "kafka" ，剛好接著這個機會再次學習下。 Kafka在很多公司被用作分散式高性能消息隊列，kafka之前我只用過redis的list來做簡單的隊列處理，也還算好用，可能數據量比較小，也是單機運行，未出現過問題，用作輕量級消息隊列還 ...
Java開源生鮮電商平臺-通知模塊設計與架構(源碼可下載）

Java開源生鮮電商平臺-通知模塊設計與架構(源碼可下載）說明：對於一個生鮮的B2B平臺而言，通知對於我們實際的運營而言來講分為三種方式： 1. 消息推送：（採用極光推送） 2. 主頁彈窗通知。（比如：現在有什麼新的活動，有什麼新的優惠等等） 3. 簡訊通知.(對於簡訊通知，這個大家很熟悉，我們就 ...
Java原子類中CAS的底層實現

Java原子類中CAS的底層實現從Java到c++到彙編, 深入講解cas的底層原理. 介紹原理前, 先來一個Demo 以AtomicBoolean類為例.先來一個調用cas的demo. 主線程在for語句里cas忙迴圈, 直到cas操作成功返回true為止. 而新開的一個縣城new Thread ...
python爬蟲_入門_翻頁

寫出來的爬蟲，肯定不能只在一個頁面爬，只要要爬幾個頁面，甚至一個網站，這時候就需要用到翻頁了其實翻頁很簡單，還是這個頁面http://bbs.fengniao.com/forum/10384633.html，話說我得給這個人增加了多大的訪問量啊...... 10384633重點關註下這個數字，這個 ...
解析Java中final關鍵字的各種用法

首先，我們可以從字面上理解一下final這個英文單詞的中文含義：“最後的，最終的; 決定性的; 不可更改的；”。顯然，final關鍵詞如果用中文來解釋，“不可更改的”更為合適。當你在編寫程式，可能會遇到這樣的情況：我想定義一個變數，它可以被初始化，但是它不能被更改。例如我現在想要定義一個變數保存圓 ...
人生苦短_我用Python_def(函數)_004

# coding=utf-8 # function函數:內置函數 # 例如: len int extent list range str # print insert append pop reverse sort # upper strip split lower # 特點、作用: # 1、可以直... ...
零基礎學習01（數據類型）

一.上篇遺留及習題 1.下麵請看我們來輸入一下結果為什麼會是這樣呢？b不是等於a嗎，為什麼不是5而是3. 2.習題解答（1.）區分下麵哪些是變數 name,name1,1name,na me,print,name_1 變數：name,name1,name_1 不是變數：1name,na me, ...
Spring的jdbcTemplate 與原始jdbc 整合c3p0的DBUtils 及Hibernate 對比

以User為操作對象原始JDBC 這個註意ResultSet 是一個帶指針的結果集,指針開始指向第一個元素的前一個(首元素),不同於iterator 有hasNext() 和next() ,他只有next() 整合c3p0的DBUtils c3p0整合了連接資料庫的Connection ,提供更快 ...

爬蟲基礎入門（一）

來自