Python爬蟲連載4-Error模塊、Useragent詳解

来源:https://www.cnblogs.com/ruigege0000/archive/2020/01/21/12219911.html
-Advertisement-
Play Games

一、error 1.URLError產生的原因:(1)沒有網路;(2)伺服器連接失敗;(3)不知道指定伺服器;(4)是OSError的子類 from urllib import request,error ​ if __name__ == "__main__": url = "http://www. ...


一、error

1.URLError產生的原因:(1)沒有網路;(2)伺服器連接失敗;(3)不知道指定伺服器;(4)是OSError的子類

 

from urllib import request,error

​

if __name__ == "__main__":

    url = "http://www.baidu.comfdsfdfsf"

    try:

        req = request.Request(url)

        rsp = request.urlopen(req)

        html = rsp.read().decode()

        print(html)

    except error.URLError as e:

        print("URLError:{0}".format(e.reason))

        print("URLError:{0}".format(e))

    except Exception as e:

        print(e)

 

2.HTTPError是URLError的一個子類

3.兩者區別:HTTPError是對應的HTTP請求的返回碼錯誤,如果返回錯誤碼碼是400以上的,則引發HTTPError;URLError對應的一般時網路出現問題,包括url問題;關係區別:OSError-URLError-HTTPError

二、useragent

1.UserAgent:用戶代理,簡稱UA,屬於heads的一部分,伺服器通過UA來判斷訪問者身份;常見的UA值,使用的時候可以直接複製粘貼,也可以用瀏覽器訪問的時候抓包。如下麵的鏈接:

https://blog.csdn.net/wangqing84411433/article/details/89600335

2.設置UA可以通過兩種方式:heads\

 

    url2 = "http://www.baiu.com"

    try:

        #使用head方法偽裝UA

        headers = {}

        headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"

        req2 = request.Request(url2,headers=headers)

        rsp2 =  request.urlopen(req2)

        html2 = rsp2.read().decode()

        print(html2)

    except error.HTTPError as e:

        print("URLError:{0}".format(e.reason))

        print("URLError:{0}".format(e))

    except error.URLError as e:

        print("URLError:{0}".format(e.reason))

        print("URLError:{0}".format(e))

    except Exception as e:

        print(e)

 

也可以把

req2 = request.Request(url2,headers=headers)

 

改成如下形式也可以

 

        req2 = request.Request(url2)

        req2.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko")

 

 

三、源碼

Reptile4_ErrrorAndUserAgent.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile4_ErrrorAndUserAgent.py​

2.CSDN:https://blog.csdn.net/weixin_44630050

3.博客園:https://www.cnblogs.com/ruigege0000/

4.歡迎關註微信公眾號:傅里葉變換,個人公眾號,僅用於學習交流,後臺回覆”禮包“,獲取大數據學習資料

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Title: Why you should use Object.is() in equality comparison Author: TarekAlQaddy Website: https://www.jstips.co/en/javascript/why-you-should-use-Obje ...
  • 一曲肝腸斷 ,天涯何處覓知音。 借用星爺電影的一句臺詞作為開篇,形容下自己的心境,年終將至,迴首2019,也不算太虧欠自己,明年繼續努力生長。 這是自己第一次在博客介紹自己,目前坐標長沙,三流大專,市場營銷專業,是的,毫不相干的專業,也讓我在轉行前端途中吃了比一般人多一點的苦頭,為什麼轉行呢,自然是 ...
  • 基於個人的經驗,談談設計模式在網關中的應用。因為是經驗之談,沒有絕對的對與錯。 下麵整理的是我最常使用的設計模式,我用設計模式的前提是 讓代碼的可讀性變強 能支持日後功能擴展 單例 目的 保證全局只有一個實例,防止因為頻繁的創建、銷毀對象而造成不必要的性能開銷。 在網關項目中,單例模式是出現頻率最高 ...
  • 無論哪種類型的Web API, 都可能需要給其他開發者使用. 所以API的開發者體驗是很重要的. API的開發者體驗, 簡寫為 API DX (Developer Experience). 它包含很多東西, 例如如何使用API, 文檔, 技術支持等等, 但是最重要的還是API的設計. 如果 API ...
  • [TOC] 前言 開發環境 部署環境:阿裡雲ECS伺服器 操作系統:CentOS 7.7 64位 IDEA 版本:2019.3.1 docker 版本:1.13.1 docker compose版本:1.25.0 spring cloud 版本:Hoxton.SR1 spring boot 版本:2 ...
  • Y 維度就是從業務 HTTP 請求的橫向處理流程來看,HTTP 請求會穿越網路、電腦、應用容器(Tomcat)、Spring、ORM(Hibernate)、資料庫等節點,在這個流程中每個節點都有許多可以可優化的地方,今天老兵哥將介紹通過優化開發框架 Spring 來優化系統性能的方法。 ...
  • GoF: 必背 24種設計模式 : 設計原則: 設計模式(總綱) 創建型(6): 單例模式 簡單工廠模式 工廠方法模式 抽象工廠模式 建造者模式 原型模式 結構型(7 ,2個器,5個兩字的): 代理模式 適配器模式 裝飾器模式 橋接模式 組合模式 享元模式 外觀模式 行為型(11): 觀察者模式 模 ...
  • 恢復內容開始 RabbitMQ基本概念: Producer:生產者(消息的提供者) Consumer:消費者(消息的使用者) Message:消息(程式之間消息的通信) Queue:隊列(消息存放的容器,消息先進先出) Vhost:虛擬主機(相當於MQ的資料庫,用於存儲隊列) 創建虛擬主機: 生產者 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...