Requests 是一個 Python 的一個第三方庫,通過發送 HTTP 請求獲取響應數據,一般應用於編寫網路爬蟲和介面測試等。 相比 urllib 庫,它語法簡單,更容易上手。 官方中文文檔地址:Requests: 讓 HTTP 服務人類 離線文檔下載地址:Requests document d ...
目錄
Requests 是一個 Python 的一個第三方庫,通過發送 HTTP 請求獲取響應數據,一般應用於編寫網路爬蟲和介面測試等。
相比 urllib 庫,它語法簡單,更容易上手。
官方中文文檔地址:Requests: 讓 HTTP 服務人類
離線文檔下載地址:Requests document download
安裝 Reuqests
pip install requests
HTTP 簡介
在使用 requests 模擬發送網路請求之前,先來簡單學習一下HTTP和常見的請求方式。
什麼是 HTTP
HTTP(HyperText Transfer Protocol ,超文本傳輸協議)是一個簡單的請求/響應協議。即一個客戶端與伺服器建立連接後,向伺服器發送一個請求;伺服器接到請求後,給予相應的響應信息。
HTTP工作原理
1.客戶端與伺服器端建立連接
2.客戶端向伺服器端發起請求
3.伺服器接受請求,並根據請求返回相應的內容
4.客服端與伺服器端連接關閉
客戶端和伺服器端之間的HTTP連接是一種一次性連接,它限制每次連接只處理一個請求,當伺服器返回本次請求的應答後便立即關閉,下次請求再重新建立連接。這樣做的好處就是讓伺服器不會處於一個一直等待的狀態,及時釋放連接可極大提高伺服器的執行效率。
HTTP是一種無狀態協議,意思就是伺服器不保留與客戶端連接時的任何狀態。這減輕了伺服器的記憶負擔,從而保持較快的響應速度。
HTTP的9種請求方法
每種請求方式規定了客戶端和伺服器端之間不同的信息交換方式。
請求方法 | 描述 |
---|---|
GET | 請求指定的頁面信息,並返回實體主體。 |
POST | 向指定資源提交數據進行處理請求(例如提交表單或者上傳文件)。數據被包含在請求體中。POST請求可能會導致新的資源的建立或已有資源的修改。 |
HEAD | 類似於 GET 請求,只不過返回的響應中沒有具體的內容,用於獲取報頭 |
PUT | 從客戶端向伺服器傳送數據取代指定的文檔的內容。 |
PATCH | 是對 PUT 方法的補充,用來對已知資源進行局部更新 |
DELETE | 請求伺服器刪除指定的頁面 |
OPTIONS | 允許客戶端查看伺服器的性能 |
TRACE | 回顯伺服器收到的請求,主要用於測試或診斷 |
CONNECT | HTTP/1.1 協議中預留給能夠將連接改為管道方式的代理伺服器 |
請求方法GET和POST的區別:
- GET提交的數據會放在URL之後,以?分割URL和傳輸數據,參數之間以&相連,如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的數據放在HTTP包的Body中
- GET提交的數據大小有限制(因為瀏覽器對URL的長度有限制),而POST方法提交的數據沒有限制
- GET方式需要使用Request.QueryString來取得變數的值,而POST方式通過Request.Form來獲取變數的值。
- GET方式提交數據,會帶來安全問題,比如一個登錄頁面,通過GET方式提交數據時,用戶名和密碼將出現在URL上,如果頁面可以被緩存或者其他人可以訪問這台機器,就可以從歷史記錄獲得該用戶的賬號和密碼
HTTP狀態碼
狀態代碼有三位數字組成,第一個數字定義了響應的類別,共分五種類別:
分類 | 分類描述 |
---|---|
1** | 指示信息--伺服器收到請求,需要請求者繼續執行操作 |
2** | 成功--操作被成功接收並處理 |
3** | 重定向--需要進一步的操作以完成請求 |
4** | 客戶端錯誤--請求包含語法錯誤或無法完成請求 |
5** | 伺服器錯誤--伺服器在處理請求的過程中發生了錯誤 |
常見的狀態碼:
狀態碼 | 含義 |
---|---|
200 OK | 客戶端請求成功 |
400 Bad Request | 客戶端請求有語法錯誤,不能被伺服器理解 |
401 Unauthorized | 請求未經授權,這個狀態碼必須和 WWW-Authenticate 報頭域一起使用 |
403 Forbidden | 伺服器收到請求,但是拒絕服務 |
404 Not Found | 請求資源不存在,eg:輸入了錯誤的URL |
500 Internal Server Error | 伺服器發生不可預期的錯誤 |
503 Server Unavailable | 伺服器當掐你不能處理客戶端的請求,一段時間後可能恢復 |
本節參考鏈接:
https://www.cnblogs.com/qdhxhz/p/8468913.html
https://blog.csdn.net/qq_40100414/article/details/120122782
如果你想學習關於 HTTP 的更多知識,可以關註公眾號[願澤君],輸入"python requests"獲取高清電子書和本文 markdown 筆記。
requests 快速上手
requests 發起請求的步驟
使用 requests 的流程大致可以分為以下三步:
graph LR id1(填寫method url params等參數)-->id2(發起請求)-->id3(查看響應結果)requests 發起請求的兩種方式
使用 requests 發起請求有兩種方式,以發起post請求為例:
import requests
# 方式一:
r = requests.request("post","https://www.baidu.com")
print(r.text)
# 方式二:
r = requests.post("https://www.baidu.com")
print(r.text)
requests.request(method, url, ...)
的 request 是 requests 封裝好根據 method 傳參的不同而調用對應的請求方法。method 參數的值可以是 get/post/put/delete/head/patch/options 等,對應我們上一節的 HTTP 請求方法。上面的示例代碼中方式一和方式二達到的效果都是一樣的,但是推薦使用方式一,因為在後面的介面自動化測試中便於參數化,如下:
import requests
method = "get"
url = "https://www.baidu.com"
r = requests.request(method=method, url=url)
print(r.text)
請求參數
requests 發起請求時,支持傳遞的參數列表:
- method:請求的類型,格式為字元串。值可以是 get\post\put\delete\files\head\patch\options
- url:請求的介面地址,格式為字元串。此參數必傳
- params: get類型的介面請求的數據,格式為字典
- data:form-data 一般用於 post 類型的介面請求的數據,格式為字典/json/字元串
- json: json格式的參數,格式為字典
- headers:請求頭,格式為字典
- cookies:格式為字典
- files:上傳文件,格式為字典
- timeout:請求超時時間,float
- allow_redirects:是否支持重定向,格式為boolean
- verify:是否忽略http協議的證書錯誤,boolean:True 不忽略
在接下來的案例我們會逐一對上面的參數進行詳細講些。
發起 GET 請求
使用 Requests 模擬發送 GET 請求,以請求百度首頁為例:
# 導入requests庫
import requests
# 要請求的地址
url = "http://www.baidu.com"
# 發起 GET 請求,並將響應結果存儲在 res 中,res是一個 responses 對象
res = requests.get(url)
print(res.request.headers) # 查看請求頭信息
print(res.request.body) # 查看請求正文
print(res.request.url) # 查看請求url
print(res.request.method) # 查看請求方法
print(res.content) # 響應結果的位元組碼格式,一般用於圖片,視頻數據等
print(res.encoding) # 查看響應正文的編碼格式
print(res.text) # 響應結果的字元串格式,非位元組碼
print(res.status_code) # 響應結果狀態碼,200 表示成功
print(r.reason) # 響應狀態碼的描述信息,如 OK,NotFound 等
print(res.cookies) # 獲取 cookies
print(res.headers) # 查看響應的響應頭
print(res.url) # 查看響應的url
如果響應內容中文顯示是亂碼,在此提供2種解決方案:
import requests
url = "http://www.baidu.com"
res = requests.get(url)
# 方案1:
res.encoding="utf-8" # 如果 res.text 中有中文亂碼,修改編碼格式為 "utf-8"
print(res.text)
# 方案2:
res.content.decode("utf-8") # 將響應結果的位元組碼格式轉換為 "utf-8" 格式
print(res.text)
1)發起攜帶參數的 GET 請求
來看一下 Request 中 get 方法的定義:
def get(url, params=None, **kwargs):
return request("get", url, params=params, **kwargs)
這意味著發起 GET 請求時,允許我們使用 params 關鍵字參數,參數的類型為字典(dict)。接下來看一個案例:
慕課網(https://www.imooc.com/)首頁搜索 "python",按 F12 --> 點擊 NetWork 抓包獲取其介面。
我們得到的介面部分信息如下:
請求方式:get
請求url:https://www.imooc.com/search/coursesearchconditions?words=python
?words=python
問號後面的 word=python
就是我們在發起 get 請求時的要提供的參數,接下來使用 requests 來發起請求:
import requests
# 慕課網首頁課程查詢介面
url = "https://www.imooc.com/search/coursesearchconditions"
# 查詢時攜帶的參數
payload = {
'words': 'python'
}
res = requests.get(url, params=payload) # 發起攜帶參數的 get 請求
print(res.json()) # 響應內容是 json 格式的字元串,我們使用 res.json() 方法進行解碼
2)定製請求頭
如果你想為請求添加 HTTP 頭部,只需要傳遞一個字典(dict)給 headers 參數即可。例如,我們發起請求時要傳遞一個 UA(User-Agent)。User-Agent 中文名為用戶代理,是Http協議中的一部分。它可以向訪問網站提供你所使用的瀏覽器類型及版本、操作系統及版本、瀏覽器內核、等信息的標識。通過這個標 識,用戶所訪問的網站可以顯示不同的排版從而為用戶提供更好的體驗或者進行信息統計。
為什麼要添加 UA?
在使用 Python 的 Requests 模擬瀏覽器向伺服器發送 Http 請求時,於某些網站會設置對 User-Agent 反爬蟲機制,因此我們發送 Http 請求時有必要的加上 User-Agent
來將爬蟲程式的UA偽裝成某一款瀏覽器的身份標識。
import requests
url = "https://www.imooc.com/search/coursesearchconditions"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
# 查詢時攜帶的參數
payload = {
'words': 'python'
}
res = requests.get(url, params=payload, headers=headers)
print(res.json()) # 響應內容是 json 格式的字元串,我們使用 res.json() 方法進行解碼
print(res.request.headers) # 查看請求頭
關於 Header 偽裝策略的更多知識請參考以下博文:
- https://blog.csdn.net/weixin_38950569/article/details/105231122
- https://blog.csdn.net/ShyLoneGirl/article/details/117297325
發起 POST 請求
1)傳遞 data 參數
當我們要向網頁上的一些表單(form)傳遞數據時,經常需要發起 post 請求。使用 requests 發起 post 請求的方法也非常簡單,只需要傳遞一個字典給 data 參數。
import requests
url = 'http://httpbin.org/post'
payload = {'name': 'joy', 'phone': '400-7865-6666'}
r = requests.post(url=url, data=payload)
print(r.text)
運行結果:
{
...
"form": {
"key2": "value2",
"key1": "value1"
},
...
}
還可以為 data 參數傳入一個元組列表。例如表單中多個元素使用同一個 key 時,可以像下麵這樣做:
import requests
url = 'http://httpbin.org/post'
payload = (('course', 'Python'), ('course', 'Java'))
r = requests.post(url=url, data=payload)
print(r.text)
響應結果:
{
...
"form": {
"course": [
"Python",
"Java"
]
},
...
}
當你想用 data 參數去接收 json 格式的數據,那麼需要把請求的數據轉換成 json 格式,並且要將請求頭設置為 application/json
。
import requests, json
url = 'https://api.github.com/some/endpoint'
data = json.dumps({
"some": "data"
})
headers = {"Content-Type":"application/json"}
r = requests.post(url, data=data, headers=headers)
print(r.text)
2) 傳遞json參數
可以使用 json
參數直接傳遞,然後它就會被自動編碼
import requests, json
url = "http://119.45.233.102:6677/testgoup/test/json"
data = {
'name': 'jay',
'age': 23
}
r = requests.post(url,json=data)
print(r.text)
這裡科普一下 json 和 dict(字典)的區別:
(1)字典是一種數據結構,是python中的一種數據類型;它是一種可變類型,可以存儲任意類型的數值,以 key:value 的形式存儲數據,但是 key 可以是任意可hash的對象 ,在一個字典中不允許出現兩個相同的key值,如果出現,後面一個key值會覆蓋前面的key值。
(2)Json是一種打包的數據格式,本質上是字元串,也是按照 key:value 來存儲數據,key 只能時字元串,且可以有序、重覆;必須使用雙引號作為key或者值的邊界符,不能使用單引號,使用單引號或者不使用引號會使解析錯誤。可以被解析為字典或者其他形式。
(3)json.loads函數的使用,將字元串轉化為字典
import json a = {'a': '1', 'b': '2', 'c': '3' } print(type(a)) # 輸出 <class 'dict'> b = json.loads('{"age": "12"}') # 參數是str行,loads之後,變成dict字典了 print(b) # 輸出 {'age': '12'} print(type(b)) # 輸出 <class 'dict'>
(4)json.dumps()函數的使用,將字典轉化為字元串
import json # json.dumps()函數的使用,將字典轉化為字元串 dict1 = {"age": "12"} json_info = json.dumps(dict1) print("dict1的類型:"+str(type(dict1))) print("通過json.dumps()函數處理:") print("json_info的類型:"+str(type(json_info)))
本部分參考來源:字典和Json的區別
3)傳遞 from-data 參數:
註意,requests預設是不支持from-data的請求數據的格式的。所以我們要傳from-data格式,我們需要安裝一個requests的插件:
pip install requests_toolbelt -i https://pypi.douban.com/simple
import requests
from requests_toolbelt.multipart.encoder import MultipartEncoder
method = "post"
url = "http://119.45.233.102:6677/testgoup/test/data"
data = MultipartEncoder({
"name":"張三",
"age":"23"
})
headers = {"Content-Type":data.content_type}
r = requests.request(method,url,data=data,headers=headers)
print(r.text)
4)傳遞 auth 參數
auth是一種對介面進行鑒權的方式,和cookies和token的作用差不多的。格式:元組,比如:(“賬號”,“密碼”)
import requests
url = "http://119.45.233.102:6677/testgoup/test/auth"
method = "post"
auth = ("admin","123456")
r = requests.request(method,url,auth=auth)
print(r.text)
5)傳遞 timeout 參數
timeout用於控制響應的時間,如果超過了timeout規定的時間,那麼會直接拋出連接失敗的錯誤信息。timeout格式是整數,單位是秒。
import requests
method = "post"
url = "http://119.45.233.102:6677/testgoup/test/json"
data = {
"name":"張三",
"age":23
}
r = requests.request(method,url,json=data,timeout=10)
print(r.text)
6)傳遞 allow_redirects 參數
是否允許介面重定向。格式:布爾值
7)傳遞 proxies 參數
在編寫爬蟲程式時,同一個IP頻繁對網站進行訪問,可能會被封IP,為了避免這種情況我們就需要用到 proxies 參數來設置代理。proxies 參數可以將代理地址替換為你的IP地址,隱藏自身IP。
proxies 參數類型
proxies = { '協議':'協議://IP:埠號' }
proxies = {
'http':'http://IP:埠號',
'https':'https://IP:埠號',
}
可以去網上搜索免費的代理IP網站中查找免費代理IP(註意:如果獲取到的免費IP地址無效就會報錯):
# 使用免費普通代理IP訪問測試網站: http://httpbin.org/get
import requests
url = 'http://httpbin.org/get'
headers = {'User-Agent':'Mozilla/5.0'}
# 定義代理,在代理IP網站中查找免費代理IP
proxies = {
'http':'http://182.116.239.37:9999',
'https':'https://182.116.239.37:9999'
}
html = requests.get(url,proxies=proxies,headers=headers,timeout=5).text
print(html)
這裡推薦幾個免費代理網站,可自行嘗試:
本部分參考來源:關於代理參數-proxies那些事
8)傳遞 verify 參數
當我們請求https協議的介面的時候,如果它的證書過期了,我們就可以使用這個參數verify,設置為Fasle不檢查證書,忽略證書的問題,繼續請求。
本部分參考來源:requests從入門到精通
requests 實戰
登錄介面的測試
TGU登錄介面測試,登錄介面信息如下:
地址:http://119.45.233.102:2244/testgoup/login
類型:post
請求頭:application/json
請求參數:{
"phone": "133********",
"password": "e10adc3949ba59abbe56e057f20f883e",
"type": 1
}
返回值:{
"code": 1,
"data": {
"nickName": "liuyanzu666",
"token": "eyJ..."
},
"message": "登錄成功!"
}
使用requests測試登錄介面:
import requests
loginUrl = 'http://119.45.233.102:2244/testgoup/login'
method='post'
data = {
"phone": "133********",
"password": "e10adc3949ba59abbe56e057f20f883e",
"type": 1
}
r = requests.request(method=method, url=loginUrl, json=data)
print(r.text)
獲取用戶信息介面的測試
由於需要登錄後才能獲取到用戶信息,在獲取用戶信息時需要傳入登錄後返回的token。完整代碼如下:
import requests
loginUrl = 'http://119.45.233.102:2244/testgoup/login'
method='post'
data = {
"phone": "133********",
"password": "e10adc3949ba59abbe56e057f20f883e",
"type": 1
}
#登錄介面
r = requests.request(method=method, url=loginUrl, json=data)
# print(r.text)
token = r.json()['data']['token']
# 獲取用戶信息介面
userinfoUrl = 'http://119.45.233.102:2244/testgoup/user/getUserInfo'
headers = {'token': token}
r = requests.request(method='get', url=userinfoUrl, headers=headers)
print(r.text)
上述實戰代碼均在 TestGoUp 網站開展測試,並對賬號進行了加密,可自行註冊獲取自己的賬號進行測試。
對響應結果的處理(序列化和反序列化)
上面代碼中的 token = r.json()['data']['token']
里有一個細節這裡要展開敘述一下。來看一下登錄介面返回的響應結果,也就是 print(r.text)
的值:
{
"code": 1,
"data": {
"nickName": "liuyanzu666",
"token": "eyJhbGci..." # token太長了,這裡刪掉部分數據
},
"message": "登錄成功!"
}
咋一看這是一個python字典類型的數據,有的同學可能說這是 json 類型的數據。到底是字典還是json類型的數據,我們使用 type()
方法對 r.text
進行判斷即可。
print(type(r.text)) # 返回結果是 <class 'str'>
返回結果居然是 str 類型的數據。現在我們要從 r.text
中獲取 token
值,如果我們將它從 str 類型轉換成字典類型,那麼就可以通過 token
鍵獲取對應的 toekn
值了。這裡就引出了我們要講的知識點:
Python序列化和反序列化
序列化:將Python中字典類型的數據轉換成json格式的字元串,以便進行存儲和傳輸。
反序列化:將json格式的字元串轉換成Python的字典類型數據,便於對其分析和處理。
我們可以使用 json 模塊來實現序列化和反序列化:
import json
# 字典類型的數據
data = {
"name": "張三",
"age": 18
}
# 使用 json.dumps() 進行序列化:字典-->字元串
res = json.dumps(data)
print(res) # 輸出結果:{"name": "\u5f20\u4e09", "age": 18}
print(type(res)) # 輸出結果:<class 'str'>
# 使用 json.loads() 進行反序列化:字元串-->字典
res2 = json.loads(res)
print(res2) # 輸出結果:{'name': '張三', 'age': 18}
print(type(res2)) # 輸出結果:<class 'dict'>
上面闡述了使用 python 進行序列化和反序列化的方法,但是在登錄介面中獲取token值的時候 ,我們並沒有使用 json.loads()
進行反序列化,而是使用 ``token = r.json()['data']['token'],也就是
r.json()` 方法。
也就是說在上面的代碼中,獲取token我們可以使用兩種方法:
...
r = requests.request(method=method, url=loginUrl, json=data)
方法一:
token = json.loads(r.text)['data']['token']
方法二:
token = r.json()['data']['token']
...
至此,關於 Python Requests 的介紹就告一段落了,感謝您的閱讀。如果本文對您有幫助,請幫我點個贊吧~如果想獲取本文的 markdown 筆記、電子書和相關源代碼,請關註我的WX公眾號[願澤君],發送 "python requests" 即可。