Python爬蟲（2）：urllib庫

-Advertisement-

爬蟲常用庫urllib 註：運行環境為PyCharm urllib是Python3內置的HTTP請求庫 urllib.request：請求模塊 urllib.error：異常處理模塊 urllib.parse：url解析模塊 urllib.robotparse：robot.txt解析模塊 1、url ...

爬蟲常用庫urllib

註：運行環境為PyCharm

urllib是Python3內置的HTTP請求庫

urllib.request：請求模塊

urllib.error：異常處理模塊

urllib.parse：url解析模塊

urllib.robotparse：robot.txt解析模塊

1、urllib.request.urlopen(url, data=None, [timeout]*, cafile=None, cadefault=False,content=None)

url：請求網址

data：請求時需要發送的數據

timeout：超時設置

from urllib import request

# 請求獲取網頁返回內容
response = request.urlopen('https://www.toutiao.com/')
# 獲取網頁返回內容
print(response.read().decode('utf-8'))
# 獲取狀態碼
print(response.status)
# 獲取請求頭
print(response.getheaders())
# 對請求頭進行遍歷
for k, v in response.getheaders():
    print(k, '=', v)

當爬去一些反爬網站時，需要適當地增加請求頭進行請求要用到Request對象。

2、error.URLError：url的一些問題，這個異常只有一個reason屬性

error.HTTPError：error.URLError的子類，在與上面的混合使用時需要將這個異常放到前面，這個異常是一些請求錯誤，有三個方法，.reason(), .code(), .headers(),在捕捉異常時通常先使用這個

3、urllib.parse.urlparse(url,scheme=‘’，allow_fragments=True)

解析url

from urllib import request, parse
# 解析url
print(parse.urlparse('https://movie.douban.com/'))
print(parse.urlparse('https://movie.douban.com/', scheme='http'))
print(parse.urlparse('movie.douban.com/', scheme='http'))

結果：
ParseResult(scheme='https', netloc='movie.douban.com', path='/', params='', query='', fragment='')
ParseResult(scheme='https', netloc='movie.douban.com', path='/', params='', query='', fragment='')
ParseResult(scheme='http', netloc='', path='movie.douban.com/', params='', query='', fragment='')

反解析url

from urllib import parse
# 將列表元素拼接成url
url = ['http', 'www', 'baidu', 'com', '1554384640', 'f2b8183cd1e469a'] # 這裡至少需要6個元素
print(parse.urlunparse(url))

結果：
http://www/baidu;com?1554384640#f2b8183cd1e469a

參考資料：

1、Python爬蟲常用庫之urllib詳解|日常學python:https://mp.weixin.qq.com/s?src=11&timestamp=1554382467&ver=1526&signature=fJepqC9Qswpe2fWjtxmNrUth3gX5vZ0jPBQyzBeqQMhhfbj462b*Jk0WPXYUjXP6dUP63tU8G0HqPV9sDWllrGVr0frRAERQE4fY-6oqE5ZZxUXRnIW508nhNQdnQ*be&new=1

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

死磕 java集合之TreeMap源碼分析（三）- 內含紅黑樹分析全過程

死磕 java集合之TreeMap源碼分析（三）紅黑樹刪除元素的時間複雜度如何？為什麼刪除元素之後要做平衡？以什麼樣的形式平衡最省時間？ ...
Java 鎖機制總結

鎖的種類獨享鎖 VS 共用鎖獨享鎖：鎖只能被一個線程持有（synchronized）共用鎖：鎖可以被多個程式所持有（讀寫鎖）樂觀鎖 VS 悲觀鎖樂觀鎖：每次去拿數據的時候都樂觀地認為別人不會修改，所以不進行加鎖操作。樂觀鎖適用於多讀的應用類型。（CAS，Atomic） CAS（Compar ...
在 CentOS/Fedora 下安裝 JAVA 環境

介紹本文介紹如何在 CentOS 7（6/6.5）、 Fedora、RHEL 上安裝 Java。Java是一個流行的軟體平臺，允許您運行Java應用程式。本文涵蓋了以下Java版本的安裝： OpenJDK 8 Oracle Java 8 先決條件在開始之前，您應該有一個能夠執行 root 許可權 ...
[Android] Android最簡單ScrollView和ListView滾動衝突解決方案

[Question]問題描述：單獨的ListView列表能自動垂直滾動，但當將ListView嵌套在ScrollView後，會和ScrollView的滾動滑塊衝突，造成ListView滑塊顯示不完整。 ...
運用jieba庫分詞

恢復內容開始運用jieba庫分詞一、jieba庫基本介紹 1、jieba庫概述 jieba是優秀的中文分詞第三方庫 - 中文文本需要通過分詞獲得單個的詞語 - jieba是優秀的中文分詞第三方庫，需要額外安裝 - jieba庫提供三種分詞模式，最簡單隻需掌握一個函數 2、jieba分詞的原理 J ...
關於JAVA是值傳遞還是引用傳遞的問題

1.概念值傳遞：方法調用時，實際傳入的是它的副本，在方法中對值的修改，不影響調用者的值。引用傳遞：方法調用時，實際傳入的是參數的實際記憶體地址，調用者和調用方法所操作的參數都指向同一記憶體地址，所以方法中操作會影響調用者。 2.問題 ① 值傳遞傳入的值，是它的副本是什麼意思？列印結果： 0 此處調 ...
死磕 java集合之TreeMap源碼分析（二）- 內含紅黑樹分析全過程

死磕 java集合之TreeMap源碼分析（二）紅黑樹插入元素的時間複雜度如何？為什麼插入元素之後要做平衡？以什麼樣的形式平衡最省時間？如果插入元素的順序不一樣，會得到同樣的樹嗎？ ...
分分鐘鐘學會Python - 數據類型（int、bool、str）

第三天學習內容今日內容 1、整型（int） 2、布爾類型(bool) 3、字元串(str) 內容詳細 1、整型 Python中的整型用int表示。 1.python2中：在32位機器上，整數的位數為32位，取值範圍為 2 31～2 31 1，即 2147483648～2147483647 在64 ...