Python爬蟲9-request包介紹及應用

来源:https://www.cnblogs.com/sl0309/archive/2019/03/18/10550059.html
-Advertisement-
Play Games

GitHub代碼練習地址:1.兩種簡單get請求方法:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac13_requests1.py 2.帶請求頭與參數的get請求:https://github.com/Neo-ML/Py ...


GitHub代碼練習地址:1.兩種簡單get請求方法:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac13_requests1.py
           2.帶請求頭與參數的get請求:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac14_requests2.py


Requests-獻給人類

  
  是urllib模塊的完美替換,二者功能基本相同
  HTTP for Humans,更簡潔更友好

  繼承了urllib的所有特征
  底層使用的是urllib3
  開源地址: https://github.com/requests/requests
  中文文檔: http://docs.python-requests.org/zh_CN/latest/index.html
  安裝: conda install requests
 
一、兩種get請求方法:

  requests.get(url)
  requests.request("get", url)
  可以帶有headers和parmas參數來請求

二、requests下使用proxy代理
       proxies = {
"http":"address of proxy",
"https": "address of proxy"
}

rsp = requests.request("get", "http:xxxxxx", proxies=proxies)
代理有可能報錯,如果使用人數多,考慮安全問題,可能會被強行關閉

用戶驗證
代理驗證
可能需要使用HTTP basic Auth, 可以這樣
格式為 用戶名:密碼@代理地址:埠地址
proxy = { "http": "china:[email protected]:4444"}
rsp = requests.get("http://baidu.com", proxies=proxy)
web客戶端驗證
如果遇到web客戶端驗證,需要添加auth=(用戶名,密碼)
autu=("test1", "123456")#授權信息
rsp = requests.get("http://www.baidu.com", auth=auth)

三、requests下的cookie與session以及ssl證書相關問題
cookie
requests可以自動處理cookie信息
rsp = requests.get("http://xxxxxxxxxxx")
如果對方伺服器給傳送過來cookie信息,則可以通過反饋的cookie屬性得到
返回一個cookiejar實例
cookiejar = rsp.cookies

可以講cookiejar轉換成字典
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

session
跟伺服器端session不是一個東東
模擬一次會話,從客戶端瀏覽器鏈接伺服器開始,到客戶端瀏覽器斷開
能讓我們跨請求時保持某些參數,比如在同一個session實例發出的 所有請求之間保持cookie

創建session對象,可以保持cookie值
ss = requests.session()

headers = {"User-Agetn":"xxxxxxxxxxxxxxxxxx"}

data = {"name":"xxxxxxxxxxx"}

此時,由創建的session管理請求,負責發出請求,
ss.post("http://www.baidu.com", data=data, headers=headers)

rsp = ss.get("xxxxxxxxxxxx")

https請求驗證ssl證書
參數verify負責表示是否需要驗證ssL證書,預設是True
如果不需要驗證ssl證書,則設置成False表示關閉

rsp = requests.get("https://www.baidu.com", verify=False)
如果用verify=True訪問某些證書有問題的網站會報錯。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、Angular2框架的開發語言 Angular2是谷歌開發的一套前端框架,Angular2就是用Typescript語言的寫的。因此,Typescript語言幫你更好的學習angular2框架。 二、支持ES6 Typescript支持ES6規範的語言,ES6規範指出未來客戶端腳本語言的發展方向 ...
  • 這兩天剛把適配器模式與外觀模式學習了一遍,記錄一下自己在學習中的思考。 適配器設計模式與外觀設計模式所涉及到的一個設計原則: 最少知識原則:不要讓太多的類耦合在一起,以免當修改了某一部分後,會影響到其他部分。 對於任何對象而言,在該對象的方法內,其中最少所指的範圍: 1. 該對象本身; 2.被當作方 ...
  • 題意 "題目鏈接" Sol yy出了一個暴躁線段樹的做法。 因為題目保證了 $a_i + k_i define Pair pair define MP(x, y) make_pair(x, y) define fi first define se second define int long lon ...
  • 先給出十轉二的除法 2 60 30 0 15 0 7 1 3 1 1 1 0 1 60轉二 111100 再介紹位運算符 a=60 b=13 A = 0011 1100 B = 0000 1101 A&b = 0000 1100A | B = 0011 1101A ^ B = 0011 0001~A ...
  • 前言 開心一刻 周末,帶著老婆兒子一起逛公園。兒子一個人跑在前面,吧唧一下不小心摔了一跤,腦袋瓜子摔了個包,稀里嘩啦的哭道:“爸爸,我會不會摔成傻子!” 我指了指我頭上的傷痕安慰道:“不會的,你看,這是爸爸小時候摔的。” 話還沒有說話,小家伙哭的更厲害了:“那就是說我長大後就會和你一樣傻了,我不要, ...
  • Java併發包提供了很多線程安全的集合,有了他們的存在,使得我們在多線程開發下,可以和單線程一樣去編寫代碼,大大簡化了多線程開發的難度,但是如果不知道其中的原理,可能會引發意想不到的問題,所以知道其中的原理還是很有必要的。 今天我們來看下Java併發包中提供的線程安全的List,即CopyOnWri ...
  • 概述 毫無疑問,Spring Cloud是目前微服務架構領域的翹楚,無數的書籍博客都在講解這個技術。不過大多數講解還停留在對Spring Cloud功能使用的層面,其底層的很多原理,很多人可能並不知曉。因此本文將通過大量的手繪圖,給大家談談Spring Cloud微服務架構的底層原理。實際上,Spr ...
  • datetime64 類型,你會用嗎?又如何在 numpy 中定義一個結構化數據類型呢? ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...