Python爬蟲(2):urllib庫

来源:https://www.cnblogs.com/finsomway/archive/2019/04/04/10657208.html
-Advertisement-
Play Games

爬蟲常用庫urllib 註:運行環境為PyCharm urllib是Python3內置的HTTP請求庫 urllib.request:請求模塊 urllib.error:異常處理模塊 urllib.parse:url解析模塊 urllib.robotparse:robot.txt解析模塊 1、url ...


爬蟲常用庫urllib

註:運行環境為PyCharm

urllib是Python3內置的HTTP請求庫

urllib.request:請求模塊

urllib.error:異常處理模塊

urllib.parse:url解析模塊

urllib.robotparse:robot.txt解析模塊

1、urllib.request.urlopen(url, data=None, [timeout]*, cafile=None, cadefault=False,content=None)

url:請求網址

data:請求時需要發送的數據

timeout:超時設置

from urllib import request

# 請求獲取網頁返回內容
response = request.urlopen('https://www.toutiao.com/')
# 獲取網頁返回內容
print(response.read().decode('utf-8'))
# 獲取狀態碼
print(response.status)
# 獲取請求頭
print(response.getheaders())
# 對請求頭進行遍歷
for k, v in response.getheaders():
    print(k, '=', v)

當爬去一些反爬網站時,需要適當地增加請求頭進行請求要用到Request對象。

2、error.URLError:url的一些問題,這個異常只有一個reason屬性

     error.HTTPError:error.URLError的子類,在與上面的混合使用時需要將這個異常放到前面,這個異常是一些請求錯誤,有三個方法,.reason(), .code(), .headers(),在捕捉異常時通常先使用這個

3、urllib.parse.urlparse(url,scheme=‘’,allow_fragments=True)

     解析url

from urllib import request, parse
# 解析url
print(parse.urlparse('https://movie.douban.com/'))
print(parse.urlparse('https://movie.douban.com/', scheme='http'))
print(parse.urlparse('movie.douban.com/', scheme='http'))

結果:
ParseResult(scheme='https', netloc='movie.douban.com', path='/', params='', query='', fragment='')
ParseResult(scheme='https', netloc='movie.douban.com', path='/', params='', query='', fragment='')
ParseResult(scheme='http', netloc='', path='movie.douban.com/', params='', query='', fragment='')

反解析url

from urllib import parse
# 將列表元素拼接成url
url = ['http', 'www', 'baidu', 'com', '1554384640', 'f2b8183cd1e469a'] # 這裡至少需要6個元素
print(parse.urlunparse(url))

結果:
http://www/baidu;com?1554384640#f2b8183cd1e469a

 

 

參考資料:

1、Python爬蟲常用庫之urllib詳解|日常學python:https://mp.weixin.qq.com/s?src=11&timestamp=1554382467&ver=1526&signature=fJepqC9Qswpe2fWjtxmNrUth3gX5vZ0jPBQyzBeqQMhhfbj462b*Jk0WPXYUjXP6dUP63tU8G0HqPV9sDWllrGVr0frRAERQE4fY-6oqE5ZZxUXRnIW508nhNQdnQ*be&new=1

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 死磕 java集合之TreeMap源碼分析(三) 紅黑樹刪除元素的時間複雜度如何? 為什麼刪除元素之後要做平衡? 以什麼樣的形式平衡最省時間? ...
  • 鎖的種類 獨享鎖 VS 共用鎖 獨享鎖:鎖只能被一個線程持有(synchronized) 共用鎖:鎖可以被多個程式所持有(讀寫鎖) 樂觀鎖 VS 悲觀鎖 樂觀鎖:每次去拿數據的時候都樂觀地認為別人不會修改,所以不進行加鎖操作。樂觀鎖適用於多讀的應用類型。(CAS,Atomic) CAS(Compar ...
  • 介紹 本文介紹如何在 CentOS 7(6/6.5)、 Fedora、RHEL 上安裝 Java。Java是一個流行的軟體平臺,允許您運行Java應用程式。 本文涵蓋了以下Java版本的安裝: OpenJDK 8 Oracle Java 8 先決條件 在開始之前,您應該有一個能夠執行 root 許可權 ...
  • [Question]問題描述: 單獨的ListView列表能自動垂直滾動,但當將ListView嵌套在ScrollView後,會和ScrollView的滾動滑塊衝突,造成ListView滑塊顯示不完整。 ...
  • 恢復內容開始 運用jieba庫分詞 一、jieba庫基本介紹 1、jieba庫概述 jieba是優秀的中文分詞第三方庫 - 中文文本需要通過分詞獲得單個的詞語 - jieba是優秀的中文分詞第三方庫,需要額外安裝 - jieba庫提供三種分詞模式,最簡單隻需掌握一個函數 2、jieba分詞的原理 J ...
  • 1.概念 值傳遞:方法調用時,實際傳入的是它的副本,在方法中對值的修改,不影響調用者的值。 引用傳遞:方法調用時,實際傳入的是參數的實際記憶體地址,調用者和調用方法所操作的參數都指向同一記憶體地址,所以方法中操作會影響調用者。 2.問題 ① 值傳遞傳入的值,是它的副本是什麼意思? 列印結果: 0 此處調 ...
  • 死磕 java集合之TreeMap源碼分析(二) 紅黑樹插入元素的時間複雜度如何? 為什麼插入元素之後要做平衡? 以什麼樣的形式平衡最省時間? 如果插入元素的順序不一樣,會得到同樣的樹嗎? ...
  • 第三天學習內容 今日內容 1、整型(int) 2、布爾類型(bool) 3、字元串(str) 內容詳細 1、整型 Python中的整型用int表示。 1.python2中: 在32位機器上,整數的位數為32位,取值範圍為 2 31~2 31 1,即 2147483648~2147483647 在64 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...