爬蟲——GET請求和POST請求

来源:http://www.cnblogs.com/mayi0312/archive/2017/07/18/7196579.html
-Advertisement-
Play Games

urllib.parse.urlencode()和urllib.parse.unquote() 編碼工作使用urllib.parse的urlencode()函數,幫我們將key:value這樣的鍵值對轉換成"key=value"這樣的字元串,解碼工作可以使用urllib的unquote()函數。 一 ...


urllib.parse.urlencode()和urllib.parse.unquote()

  • 編碼工作使用urllib.parse的urlencode()函數,幫我們將key:value這樣的鍵值對轉換成"key=value"這樣的字元串,解碼工作可以使用urllib的unquote()函數。
# python3.5控制臺中測試結果
>>> import urllib
>>> word = {"wd":"爬蟲"}
# 通過urllib.parse.urlencode()方法,將字典鍵值對按URL編碼轉換,從而能被wed伺服器接受。
>>> urllib.parse.urlencode(word)
'wd=%E7%88%AC%E8%99%AB'
# 通過urllib.parse.unquote()方法,把URL編碼字元串,轉換回原先的字元串。
>>> urllib.parse.unquote(word)
'wd=爬蟲'

一般HTTP請求提交數據,需要編碼成URL編碼格式,然後做為URL的一部分,或者作為參數傳到Request對象中。

GET方式

GET請求一般用於我們向伺服器獲取數據,比如說,我們用百度搜索 爬蟲:https://www.baidu.com/s?wd=爬蟲(https://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB)

我們可以看到在請求部分里,http://www.baidu.com/s? 之後出現一個長長的字元串,其中就包含我們要查詢的關鍵詞“爬蟲”,於是我們可以嘗試用預設的GET方式來發送請求。

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

# 導入庫
import urllib.request
import urllib

url = "http://www.baidu.com/s?"
word = {"wd":"爬蟲"}
# 轉換成url編碼格式
word = urllib.parse.urlencode(word)
# 拼接成完整的url
full_url = url + word
# chrome 的 User-Agent,包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
# url 連同 headers,一起構造Request請求,這個請求將附帶 chrome 瀏覽器的User-Agent
request = urllib.request.Request(full_url, headers = header)
# 向伺服器發送這個請求
response = urllib.request.urlopen(request)

html = response.read()
fo = open("baidu.html", "wb")
fo.write(html)
fo.close()

批量爬取貼吧頁面數據

 首先我們創建一個python文件:tiebaSpider.py,我們要完成的功能是,輸入一個百度貼吧的地址,比如:百度貼吧LOL吧

第一頁:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二頁:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三頁:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

……

爬取以上頁面的內容

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

"""
功能:批量爬取貼吧頁面數據
目標地址:百度貼吧LOL吧
分析:
    第一頁:https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0
    第二頁:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50
    第三頁:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100
    ……
規律:
    貼吧中每個頁面URL不同之處,就是最後的pn值,其餘的都是一樣的。其pn = (page - 1) * 50
    url = "https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn="
    pn = (page - 1) * 50
    full_url = url + str(pn)
"""

# 導入庫
import urllib
import urllib.request

# 根據url地址,獲取伺服器響應文件
def loadPage(url):
    """
    功能:根據url地址,獲取伺服器響應文件
    :param url: url地址
    :return: 獲取的伺服器響應文件信息
    """
    # chrome 的User-Agent 頭
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
    # url 連同 headers,一起構造Request請求,這個請求將附帶 chrome 瀏覽器的User-Agent
    request = urllib.request.Request(url, headers = header)
    # 向伺服器發送這個請求
    reponse = urllib.request.urlopen(request)
    # 獲取響應文件中的全部內容
    html = reponse.read()

    return html

# 存儲文件
def writeFile(html, file_name):
    """
    功能:存伺服器響應文件到本地磁碟文件里
    :param html: 伺服器響應文件內容
    :param file_name: 本地磁碟文件名
    :return: None
    """
    with open(file_name, "wb") as f:
        f.write(html)


# 貼吧爬蟲函數
def tiebaSpider(url, begin_page, end_page):
    """
    功能:處理從begin_page到end_page的url頁面
    :param url: url地址
    :param begin_page: 需爬取的起始頁
    :param end_page: 需爬取的終止頁
    :return:
    """
    for page in range(begin_page, end_page + 1):
        pn = (page - 1) * 50
        full_url = url + str(pn)
        file_name = "第" + str(page) + "頁.html"
        print("正在爬取" + file_name)
        # 獲取full_url對應的html文件信息
        html = loadPage(full_url)
        print("正在存儲" + file_name)
        # 存儲full_url對應的html文件信息
        writeFile(html, file_name)

# 主函數
if __name__ == '__main__':
    url = "https://tieba.baidu.com/f?"
    # 輸入需爬取的貼吧
    kw = input("請輸入需要爬取的貼吧:")
    # 輸入需爬取的起始頁和終止頁
    begin_page = int(input("請輸入起始頁:"))
    end_page = int(input("請輸入終止頁:"))
    key = urllib.parse.urlencode({"kw":kw})
    # 組合的的url示例:https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=
    url = url + key + "&ie=utf-8&pn="
    # 調用貼吧爬蟲函數,爬取數據
    tiebaSpider(url, begin_page, end_page)

POST方式

Request請求對象里有data參數,這就是用在POST里的,我們要傳送的數據就是這個參數data,data是一個字典,裡面要有匹配鍵值對。

以下以有道詞典翻譯網站為例為模擬POST請求。

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'
 
"""
POST方式:以有道詞典翻譯網站為例
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"
"""

# 導入庫
import urllib.request
import urllib
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"
# chrome 的 User-Agent,包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

word = input("請輸入需要翻譯的詞條:")

from_data = {
    "i":word,
    "from":"AUTO",
    "to":"AUTO",
    "smartresult":"dict",
    "doctype":"json",
    "version":"2.1",
    "keyfrom":"fanyi.wed"
}
data = urllib.parse.urlencode(from_data)
data = data.encode(encoding="utf-8")  # str轉bytes

request = urllib.request.Request(url, data = data, headers = header)

response = urllib.request.urlopen(request)

html = response.read().decode(encoding = "utf-8").strip()

print(html)

獲取AJAX載入的內容

有些網頁內容是使用AJAX載入的,AJAX一般返回的是JSON,直接對AJAX地址進行POST或GET,就能返回JSON數據

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'
 
"""
獲取AJAX載入的數據
有些網頁內容使用AJAX載入,只要記得,AJAX一般返回的是JSON,直接對AJAX地址進行post或get,就返回JSON數據了。
以豆瓣為例:
url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100:90&action&start=0&limit=100"
"""

# 導入庫
import urllib
import urllib.request

url = "https://movie.douban.com/j/chart/top_list?"
# chrome 的 User-Agent,包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}
from_data = {
    'type':'11',
    'interval_id':'100:90',
    'action':'',
    'start':'0',
    'limit':'100'
}
data = urllib.parse.urlencode(from_data)
data = data.encode(encoding="utf-8")  # str轉bytes

request = urllib.request.Request(url, data = data, headers = header)

response = urllib.request.urlopen(request)

html = response.read().decode(encoding = "utf-8")

print(html)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • { CentOS ping命令 分散式部署伺服器時用到ping命令 #ping -c 4 192.168.16.1 //ping4次後結束。 } 使用telnet 查看memcached 運行狀態 查看系統是否已安裝telnetrpm -qa | grep telnettelnet-0.17-48. ...
  • python 第二例,爬取百度貼吧的帖子,獲取帖子的標題,內容,所在樓層,發佈時間 其中存在一個問題,當該帖子是手機端發佈的帖子,此時在頁面中會有標識,因此多一個span標簽,與樓層和發佈時間的標簽一樣 解決方法: 目潛想到的解決方法是通過判斷爬到的值來進行選擇,但解決方案效率肯定低,因此未使用,等 ...
  • 1.__doc__ 表示類的描述信息 2.__module__ 和 __class__ __module__ 表示當前操作對象在哪個模塊 __class__ 表示當前操作對象的類是什麼 3. __init__ 構造方法 通過類創建對象時,自動觸發執行 4. __del__ 析構方法 當對象在記憶體中被 ...
  • 題目描述 Each of Farmer John's N (4 <= N <= 16) cows has a unique serial number S_i (1 <= S_i <= 25,000). The cows are so proud of it that each one now we ...
  • 這是第一次開始寫博客,也不知道怎麼寫,就是自己的學習的一些東西。 今天碰到的問題是怎麼用IDEA軟體把Java文件導出為一個可以運行的jar文件,然後轉成可運行的exe文件。 以一個小游戲的文件為例: Artifacts Config File -> Project Structure -> Art ...
  • 1,try…except (1) 關註是否會引起異常的語句放在try段; (2) 根據異常的不同,except可以有多個分支; (3) 可以有一個else分支,表示沒有異常發生。 例如: 2,raise (1) 假如在try部分有條件分支,而分支里可能出現異常,可以用raise來提取異常; (2) ... ...
  • 描述:新bean和舊bean擁有相同的欄位屬性。將舊bean的屬性值,賦給新bean。 Java代碼如下: 該方法會拋異常,要註意檢查get方法的寫法,和新舊bean欄位是否一致。 ...
  • 演算法:當數據量很大適宜採用該方法。採用二分法查找時,數據需是有序不重覆的。 基本思想:假設數據是按升序排序的,對於給定值 x,從序列的中間位置開始比較,如果當前位置值等於 x,則查找成功;若 x 小於當前位置值,則在數列的前半段中查找;若 x 大於當前位置值則在數列的後半段中繼續查找,直到找到為止。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...