Python3學習筆記(urllib模塊的使用)

来源:http://www.cnblogs.com/Lands-ljk/archive/2016/04/29/5447127.html
-Advertisement-
Play Games

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打開的網址 - data:Post提交的數據 - ...


1.基本方法

urllib.request.urlopen(urldata=None[timeout]*cafile=Nonecapath=Nonecadefault=Falsecontext=None)

-         url:  需要打開的網址

-         data:Post提交的數據

-         timeout:設置網站的訪問超時時間

直接用urllib.request模塊的urlopen()獲取頁面,page的數據格式為bytes類型,需要decode()解碼,轉換成str類型。

1 from urllib import request
2 response = request.urlopen(r'http://python.org/') # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse類型
3 page = response.read()
4 page = page.decode('utf-8')

urlopen返回對象提供方法:

-         read() , readline() ,readlines() , fileno() , close() :對HTTPResponse類型數據進行操作

-         info():返回HTTPMessage對象,表示遠程伺服器返回的頭信息

-         getcode():返回Http狀態碼。如果是http請求,200請求成功完成;404網址未找到

-         geturl():返回請求的url

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

使用request()來包裝請求,再通過urlopen()獲取頁面。

 1 url = r'http://www.lagou.com/zhaopin/Python/?labelWords=label'
 2 headers = {
 3     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
 4                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
 5     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
 6     'Connection': 'keep-alive'
 7 }
 8 req = request.Request(url, headers=headers)
 9 page = request.urlopen(req).read()
10 page = page.decode('utf-8')

用來包裝頭部的數據:

-         User-Agent :這個頭部可以攜帶如下幾條信息:瀏覽器名和版本號、操作系統名和版本號、預設語言

-         Referer:可以用來防止盜鏈,有一些網站圖片顯示來源http://***.com,就是檢查Referer來鑒定的

-         Connection:表示連接狀態,記錄Session的狀態。

3.Post數據

urllib.request.urlopen(urldata=None[timeout]*cafile=Nonecapath=Nonecadefault=Falsecontext=None)

urlopen()的data參數預設為None,當data參數不為空的時候,urlopen()提交方式為Post。

 1 from urllib import request, parse
 2 url = r'http://www.lagou.com/jobs/positionAjax.json?'
 3 headers = {
 4     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
 5                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
 6     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
 7     'Connection': 'keep-alive'
 8 }
 9 data = {
10     'first': 'true',
11     'pn': 1,
12     'kd': 'Python'
13 }
14 data = parse.urlencode(data).encode('utf-8')
15 req = request.Request(url, headers=headers, data=data)
16 page = request.urlopen(req).read()
17 page = page.decode('utf-8')

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

urlencode()主要作用就是將url附上要提交的數據。 

1 data = {
2     'first': 'true',
3     'pn': 1,
4     'kd': 'Python'
5 }
6 data = parse.urlencode(data).encode('utf-8')

經過urlencode()轉換後的data數據為?first=true?pn=1?kd=Python,最後提交的url為

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的數據必須是bytes或者iterable of bytes,不能是str,因此需要進行encode()編碼

1 page = request.urlopen(req, data=data).read()

當然,也可以把data的數據封裝在urlopen()參數中

4.異常處理

 1 def get_page(url):
 2     headers = {
 3         'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
 4                     r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
 5         'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
 6         'Connection': 'keep-alive'
 7     }
 8     data = {
 9         'first': 'true',
10         'pn': 1,
11         'kd': 'Python'
12     }
13     data = parse.urlencode(data).encode('utf-8')
14     req = request.Request(url, headers=headers)
15     try:
16         page = request.urlopen(req, data=data).read()
17         page = page.decode('utf-8')
18     except error.HTTPError as e:
19         print(e.code())
20         print(e.read().decode('utf-8'))
21     return page

5、使用代理 

urllib.request.ProxyHandler(proxies=None)

當需要抓取的網站設置了訪問限制,這時就需要用到代理來抓取數據。

 1 data = {
 2         'first': 'true',
 3         'pn': 1,
 4         'kd': 'Python'
 5     }
 6 proxy = request.ProxyHandler({'http': '5.22.195.215:80'})  # 設置proxy
 7 opener = request.build_opener(proxy)  # 掛載opener
 8 request.install_opener(opener)  # 安裝opener
 9 data = parse.urlencode(data).encode('utf-8')
10 page = opener.open(url, data).read()
11 page = page.decode('utf-8')
12 return page

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.在C++ 程式中調用被C 編譯器編譯後的函數,為什麼要加extern “C”?答:首先,extern是C/C++語言中表明函數和全局變數作用範圍的關鍵字,該關鍵字告訴編譯器,其聲明的函數和變數可以在本模塊或其它模塊中使用。通常,在模塊的頭文件中對本模塊提供給其它模塊引用的函數和全局變數以關鍵字e ...
  • 你應該知道介面是一種契約,它與實現方式無關 但是類,即使是抽象類,你都能自定義成員變數,而成員變數往往就與實現方式有關。 這一點的實際意義不大。 但是有一點,類會暴露太多不必要,甚至不能暴露的東西,你看一下java.util中,大部分的數據結構,都被設計成了介面-抽象類-最後實際類 例如Collec ...
  • 目錄 1 描述性統計是什麼?2 使用NumPy和SciPy進行數值分析 2.1 基本概念 2.2 中心位置(均值、中位數、眾數) 2.3 發散程度(極差,方差、標準差、變異繫數) 2.4 偏差程度(z-分數) 2.5 相關程度(協方差,相關係數) 2.6 回顧3 使用Matplotlib進行圖分析 ...
  • 程式模擬的系統結構如下 軟體界面如下 第一張圖為執行機構的輸出u的變化曲線(第一個水箱的進水量) 第二張圖為第一個水箱(上水箱)的水位變化曲線 第三張圖為第二個水箱(下水箱)的水位變化曲線 控制面板如下 設定值預設為10 預設為自動控制,點擊手動控制按鈕後,控制對象的輸入u不會自動變化。 手動控制切 ...
  • 最近在做一個項目使用到 http_build_query 這個魔術方法很好用,它可以將一個數組轉換成這樣的格式: 比如 $_arr = array('action'=>'show','page'=>'2'); 使用 http_build_query($_arr); echo $_arr; 結果如下: ...
  • 有個坑是: Problem E: 點在圓內嗎? Problem E: 點在圓內嗎? Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 553 Solved: 277[Submit][Status][Web Board] Description 定義一個Poi ...
  • Problem A: 求圖形的面積和體積 Problem A: 求圖形的面積和體積 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 2189 Solved: 1307[Submit][Status][Web Board] Description 根據不同的 ...
  • $_SERVER[PHP_SELF], $_SERVER[SCRIPT_NAME], $_SERVER['REQUEST_URI'] 在用法上是非常相似的,他們返回的都是與當前正在使用的頁面地址有關的信息,這裡列出一些相關的例子,幫助確定哪些是在你的腳本最適合的。 $_SERVER[’PHP_SEL ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...