Python爬蟲系列 - 初探：爬取旅游評論

-Advertisement-

Python爬蟲目前是基於requests包，下麵是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅游網站的產品評論，通過分析，獲取json文件需要POST指令。簡單來說： GET是將需要發送的信息直接添加在網址後面 ...

Python爬蟲目前是基於requests包，下麵是該包的文檔，查一些資料還是比較方便。

http://docs.python-requests.org/en/master/

爬取某旅游網站的產品評論，通過分析，獲取json文件需要POST指令。簡單來說：

GET是將需要發送的信息直接添加在網址後面發送
POST方式是發送一個另外的內容到伺服器

那麼通過POST發送的內容可以大概有三種，即form、json和multipart，目前先介紹前兩種

1.content in form

Content-Type: application/x-www-form-urlencoded

將內容放入dict，然後傳遞給參數data即可。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post(url, data=payload)

2. content in json

Content-Type: application/json

將dict轉換為json，傳遞給data參數。

payload = {'some': 'data'}
r = requests.post(url, data=json.dumps(payload))

或者將dict傳遞給json參數。

payload = {'some': 'data'}
r = requests.post(url, json=payload)

然後貼一下簡單的代碼供參考。

import requests
import json

def getCommentStr():
    url = r"https://package.com/user/comment/product/queryComments.json"

    header = {
        'User-Agent':           r'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0',
        'Accept':               r'application/json, text/javascript, */*; q=0.01',
        'Accept-Language':      r'en-US,en;q=0.5',
        'Accept-Encoding':      r'gzip, deflate, br',
        'Content-Type':         r'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With':     r'XMLHttpRequest',
        'Content-Length':       '65',
        'DNT':                  '1',
        'Connection':           r'keep-alive',
        'TE':                   r'Trailers'
    }

    params = {
        'pageNo':               '2',
        'pageSize':             '10',
        'productId':            '2590732030',
        'rateStatus':           'ALL',
        'type':                 'all'
    }
    
    
    r = requests.post(url, headers = header, data = params)
    print(r.text)

getCommentStr()

小技巧

對於cookies，感覺可以用瀏覽器的編輯功能，逐步刪除每次發送的cookies信息，判斷哪些是沒有用的？
對於測試代碼階段，我還是比較習慣於將爬取的數據存為str，也算是為了伺服器減負吧。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

RxJava2｜Flowable以及背壓

RxJava2 Flowable以及背壓前述 java maven rxjava 背壓背壓是指在非同步場景中，被觀察者發送事件速度遠快於觀察者的處理速度的情況下，一種告訴上游的被觀察者降低發送速度的策略。 https://www.jianshu.com/p/0cd258eecf60 的官方介紹: ...
cf1043F. Make It One(dp 容斥原理)

題意 "題目鏈接" 給出$n$個數，問最少選幾個數，使他們的$gcd = 1$ Sol 好神仙啊qwq。首先，如果答案存在，那麼最多為$7$(因為前$7$個質數乘起來$ = 3e5$) 考慮dp，設$f[i][j]$表示選了$i$個數，他們$gcd = j$的方案數！沒錯是方案數！那麼我們只要 ...
cf1043D. Mysterious Crime(二分首碼和)

題意 "題目鏈接" Sol 考場上做完前四題的時候大概還剩半個小時吧，那時候已經困的不行了。看了看E發現好像很可做？？又仔細看了幾眼發現這不是sb題麽。。。先考慮兩個人，假設貢獻分別為$(x, y) (a, b)$ 有兩種組合方式，一種是$x + b$，另一種是$y + a$ 若$x + b ...
day 5 - 2 字典（dict）練習

1. 有如下變數（tu 是個元祖），請實現要求的功能 tu = {"alex",[11,22,{"k1":'v1',"k2":["age","name"],"k3":(11,22,33)},44]} 2. 字典 dic，dic={'k1':"v1",'k2':"v2",'k3':[11,22,33] ...
JDBC 筆記--Day01--JDBC概述+JDBC完成CRUD+DAO設計

JDBC 筆記作者:晨鐘暮鼓c個人微信公眾號:程式猿的月光寶盒 Day1 JDBC概述+JDBC完成CRUD+DAO設計 1.JDBC概述 1.1 什麼是持久化( persistence ): 持久化(persistence)：把數據保存到可掉電式存儲設備中以供之後使用。保存數據: 記憶體 ...
spring boot 集成 zookeeper 搭建微服務架構

PRC原理 RPC 遠程過程調用（Remote Procedure Call）一般用來實現部署在不同機器上的系統之間的方法調用，使得程式能夠像訪問本地系統資源一樣，通過網路傳輸去訪問遠程系統資源，RPC框架實現的原理都是類似的，如下圖： Client Code：客戶端調用方代碼實現，負責發起RPC ...
Python3字元串-最容易理解的方式

字元串的創建字元串創建符號 ' ' " " ''' ''' """ """ 轉義符\ >>> string_long = """This is another long string ... value that will span multiple ... lines in the output ...
Redis數據備份和重啟恢復

一、對Redis持久化的探討與理解目前Redis持久化的方式有兩種： RDB 和 AOF 首先，我們應該明確持久化的數據有什麼用，答案是用於重啟後的數據恢復。 Redis是一個記憶體資料庫，無論是RDB還是AOF，都只是其保證數據恢復的措施。所以Redis在利用RDB和AOF進行恢復的時候，都會讀 ...