Python模擬HttpRequest的方法總結

-Advertisement-

Python可以說是爬網的利器，本文主要介紹了一些python來模擬http請求的一些方法和技巧。 Python處理請求的類庫有兩個,urllib,urllib2。這兩個類庫並不是一個類庫的兩個不同版本，urllib主要用來處理一些url相關的內容，發送請求的時候，請求對象只能是一個url。url

Python可以說是爬網的利器，本文主要介紹了一些python來模擬http請求的一些方法和技巧。

Python處理請求的類庫有兩個,urllib,urllib2。這兩個類庫並不是一個類庫的兩個不同版本，urllib主要用來處理一些url相關的內容，發送請求的時候，請求對象只能是一個url。urllib2可以用request對象來實現請求，這樣就可以實現如偽造頭部，設置代理，http get，http post等方法。

閱讀本文需要瞭解http請求的一些基本知識，如：

什麼是httpwebrequest，httpwebresponse
什麼是get，post
什麼是cookie

本文主要介紹模擬請求用到的這些方式：

設置代理
偽造頭部或者Header信息
啟用cookie
url參數的處理

使用urllib2.urlopen直接發送

import urllib2

url = 'http://www.baidu.com/'
response = urllib2.urlopen(url) ##urlopen接受傳入參數是string或者是request
response_text = response.read()

使用urllib.build_opener

直接發送請求

import urllib2

url = 'http://www.baidu.com/'

opener = urllib2.build_opener()
response = opener.open(url)
response_text = response.read()

通過代理訪問站點

proxy_handler = urllib2.ProxyHandler({"http" : 'http://localhost:8888'})
opener = urllib2.build_opener(proxy_handler)
response = opener.open(url)
response_text = response.read()

請求中附帶request body(http post)

opener = urllib2.build_opener()
response = opener.open(url,'request body')
response_text = response.read()

body中如果是key-value形式的，可以參照下麵的url處理部分來處理

啟用Cookie

cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(url)
response_text = response.read()

使用urllib2.Request

請求中添加自定義的Header信息

request = urllib2.Request(url)
request.add_data('1234567')
request.add_header('User-Agent', 'fake-client')
response = urllib2.urlopen(request)

處理url中的參數信息

無論是使用get方式還是post方式，經常會遇到需要使用參數的形式，處理參數可以使用下麵的類庫

參數集合轉string

para = {'111':'222','aaa':'bbb'}
encodeurl = urllib.urlencode(para)

輸出aaa=bbb&111=222

url參數轉dictionary

url = 'https://www.baidu.com/s?wd=python%20url%20querystring&pn=10&oq=python%20url%20querystring&tn=baiduhome_pg&ie=utf-8&usm=1&rsv_idx=2&rsv_pq=d09af93600035cb8&rsv_t=d151qRmNNdybGINHcKbyO360E2%2Fg%2FUs2t0MiKqRQXwhHZuNF3IlKyyStzYuofVZczQA3'

splitresult_instance = urlparse.urlsplit(url)

輸出對象：

SplitResult(scheme='https', netloc='www.baidu.com', path='/s', query='wd=python%20url%20querystring&pn=10&oq=python%20url%20querystring&tn=baiduhome_pg&ie=utf-8&usm=1&rsv_idx=2&rsv_pq=d09af93600035cb8&rsv_t=d151qRmNNdybGINHcKbyO360E2%2Fg%2FUs2t0MiKqRQXwhHZuNF3IlKyyStzYuofVZczQA3', fragment='')

想轉成集合只要

result_dic=urlparse.parse_qs(splitresult.query)

通過這種處理方式，把data信息放在url上來實現http get，放在body中實現http post。

此文同時托管在了 http://simmon.club/blog/Python-HttpRequest/ 上

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java的方法參數-想想挺有趣的問題

由快速排序引發對Java方法參數的思考
python成長之路第一篇（5）文件的基本操作

一、三元運算我們在上章學習的if，，else，，有一種簡便的方法他的表達式是這樣的：變數 = 值1 if 條件 else 值2 解釋過來就是如果aaa等於sss則輸出值1否則輸出值2 二、類的概念類是面向對象編程的核心，它扮演相關數據及邏輯的容器角色。它們提供了創建“真實” 對象(也就是實例
集合練習——Map部分

練習：輸入詩的名稱查詢出詩的內容，當輸入exit時，退出程式，“春曉”，“靜夜思”，“鵝”。 package CollectionPart; public class Poetry { private String title; private String poet; private Strin
第五章 JVM垃圾收集器（1）

說明：垃圾回收演算法是理論，垃圾收集器是回收演算法的實現，關於回收演算法，見《第四章 JVM垃圾回收演算法》 1、七種垃圾收集器 Serial（串列GC） ParNew（並行GC） Parallel Scavenge（並行回收GC） Serial Old（MSC）（串列GC） CMS（併發GC） Paral
C 封裝一個通用鏈表和一個簡單字元串開發庫

今天分享一個企業級的通用鏈表庫設計和一個簡單字元串設計. 封裝一個簡單的開發框架還是比較麻煩的, 或者說說封裝一個簡單的基庫都挺麻煩的. 全當分享吧. 簡單扯一點,封裝庫其實難點在前期是設計,中期是演算法,瓶頸在結構和語法解析上.
Java Magic. Part 1: java.net.URL

Java Magic. Part 1: java.net.URL @(Base)[JDK, url, magic, 黑魔法] " 英文原文 " 廢話不多說，首先我們看如下代碼：代碼的第3行和第5行分別會輸出什麼呢？當然不會是true, 如果是true的話，這篇文章也就不會有java黑魔法的尾碼了
JAVA泛型之<? extends T>:(通配符上限)和<? super T>(通配符下限)

一.通配符上限和通配符下限接受的類型通配符上限：<? extends T> 通配符下限：<? super T> 以下代碼是測試結果，註釋為解釋說明 1 package xayd.hjj; 2 3 import java.util.ArrayList; 4 import java.util.List
集合練習——Set部分

我們知道list存儲的是有序不唯一的元素。 set存儲的是無序唯一的元素。那麼下麵看一個例子吧： package CollectionPart; import java.util.HashSet; import java.util.Set; public class HashSet1 { publ