Python爬蟲系列 - 初探:爬取旅游評論

来源:https://www.cnblogs.com/kaimobile/archive/2018/10/29/9874088.html
-Advertisement-
Play Games

Python爬蟲目前是基於requests包,下麵是該包的文檔,查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅游網站的產品評論,通過分析,獲取json文件需要POST指令。簡單來說: GET是將需要發送的信息直接添加在網址後面 ...


Python爬蟲目前是基於requests包,下麵是該包的文檔,查一些資料還是比較方便。

http://docs.python-requests.org/en/master/

爬取某旅游網站的產品評論,通過分析,獲取json文件需要POST指令。簡單來說:

  • GET是將需要發送的信息直接添加在網址後面發送
  • POST方式是發送一個另外的內容到伺服器

那麼通過POST發送的內容可以大概有三種,即form、json和multipart,目前先介紹前兩種

1.content in form

Content-Type: application/x-www-form-urlencoded

將內容放入dict,然後傳遞給參數data即可。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post(url, data=payload)

2. content in json

Content-Type: application/json

將dict轉換為json,傳遞給data參數。

payload = {'some': 'data'}
r = requests.post(url, data=json.dumps(payload))

或者將dict傳遞給json參數。

payload = {'some': 'data'}
r = requests.post(url, json=payload)

然後貼一下簡單的代碼供參考。

import requests
import json

def getCommentStr():
    url = r"https://package.com/user/comment/product/queryComments.json"

    header = {
        'User-Agent':           r'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0',
        'Accept':               r'application/json, text/javascript, */*; q=0.01',
        'Accept-Language':      r'en-US,en;q=0.5',
        'Accept-Encoding':      r'gzip, deflate, br',
        'Content-Type':         r'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With':     r'XMLHttpRequest',
        'Content-Length':       '65',
        'DNT':                  '1',
        'Connection':           r'keep-alive',
        'TE':                   r'Trailers'
    }

    params = {
        'pageNo':               '2',
        'pageSize':             '10',
        'productId':            '2590732030',
        'rateStatus':           'ALL',
        'type':                 'all'
    }
    
    
    r = requests.post(url, headers = header, data = params)
    print(r.text)

getCommentStr()

小技巧

  • 對於cookies,感覺可以用瀏覽器的編輯功能,逐步刪除每次發送的cookies信息,判斷哪些是沒有用的?
  • 對於測試代碼階段,我還是比較習慣於將爬取的數據存為str,也算是為了伺服器減負吧。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • RxJava2 Flowable以及背壓 前述 java maven rxjava 背壓 背壓是指在非同步場景中,被觀察者發送事件速度遠快於觀察者的處理速度的情況下,一種告訴上游的被觀察者降低發送速度的策略。 https://www.jianshu.com/p/0cd258eecf60 的官方介紹: ...
  • 題意 "題目鏈接" 給出$n$個數,問最少選幾個數,使他們的$gcd = 1$ Sol 好神仙啊qwq。 首先,如果答案存在,那麼最多為$7$(因為前$7$個質數乘起來$ = 3e5$) 考慮dp,設$f[i][j]$表示選了$i$個數,他們$gcd = j$的方案數! 沒錯是方案數! 那麼我們只要 ...
  • 題意 "題目鏈接" Sol 考場上做完前四題的時候大概還剩半個小時吧,那時候已經困的不行了。 看了看E發現好像很可做?? 又仔細看了幾眼發現這不是sb題麽。。。 先考慮兩個人,假設貢獻分別為$(x, y) (a, b)$ 有兩種組合方式,一種是$x + b$,另一種是$y + a$ 若$x + b ...
  • 1. 有如下變數(tu 是個元祖),請實現要求的功能 tu = {"alex",[11,22,{"k1":'v1',"k2":["age","name"],"k3":(11,22,33)},44]} 2. 字典 dic,dic={'k1':"v1",'k2':"v2",'k3':[11,22,33] ...
  • JDBC 筆記 作者:晨鐘暮鼓c個人微信公眾號:程式猿的月光寶盒 Day1 JDBC概述+JDBC完成CRUD+DAO設計 1.JDBC概述 1.1 什麼是持久化( persistence ): 持久化(persistence):把數據保存到可掉電式存儲設備中以供之後使用。 ​ 保存數據: ​ 記憶體 ...
  • PRC原理 RPC 遠程過程調用(Remote Procedure Call) 一般用來實現部署在不同機器上的系統之間的方法調用,使得程式能夠像訪問本地系統資源一樣,通過網路傳輸去訪問遠程系統資源,RPC框架實現的原理都是類似的,如下圖: Client Code:客戶端調用方代碼實現,負責發起RPC ...
  • 字元串的創建 字元串創建符號 ' ' " " ''' ''' """ """ 轉義符\ >>> string_long = """This is another long string ... value that will span multiple ... lines in the output ...
  • 一、對Redis持久化的探討與理解 目前Redis持久化的方式有兩種: RDB 和 AOF 首先,我們應該明確持久化的數據有什麼用,答案是用於重啟後的數據恢復。 Redis是一個記憶體資料庫,無論是RDB還是AOF,都只是其保證數據恢復的措施。 所以Redis在利用RDB和AOF進行恢復的時候,都會讀 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...