Python實戰案例:購物平臺爬取商品評論

来源:https://www.cnblogs.com/zwhy8/archive/2020/07/11/13285269.html
-Advertisement-
Play Games

前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 由於某種需要,需要爬取天貓國際一些商品的評論信息,然後做一些數據分析和可視化展示,本篇文章,只講解如何從天貓上爬取評論信息,數據分析不作為本篇文章的重點。 第一步,整體說明一 ...


前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

由於某種需要,需要爬取天貓國際一些商品的評論信息,然後做一些數據分析和可視化展示,本篇文章,只講解如何從天貓上爬取評論信息,數據分析不作為本篇文章的重點。

Python實戰案例:購物平臺爬取商品評論

 

第一步,整體說明一下數據採集的流程:

  • 1. 對採集的商品進行URL分析,經過分析識別後,天貓國際URL返回的數據形式為JS格式;
  • 2. 撰寫數據採集程式,程式主要使用了requests、bs4、json、re等相關技術;
  • 3.通過請求天貓國際的URL,獲取到JS文件,然後對JS文件進行解析,生成列表,然後把通過迴圈所有頁的評論數據,最後通過IO函數把列表的數據,寫入txt文本。

第二步,找到自己想要爬取的商品:

Python實戰案例:購物平臺爬取商品評論

 

按F12,進行請求的分析:

Python實戰案例:購物平臺爬取商品評論

 

點擊"累計評價",在右側,就會刷很多請求的信息,如果初次接觸天貓國際爬取數據這塊的話,可以多花費一些時間,研究一下這些請求:

Python實戰案例:購物平臺爬取商品評論

 

找天貓評論鏈接的話,就是我上面截圖中,Name列藍色的內容,最重要的就是General裡面的Request URL,後面我們主要是用這個URL的。另外,還需要COOKIE的,這裡就不詳細講解cookies怎麼獲取了,大量自己玩的時候,直接用我代碼裡面的cookies就可以的,我是經過測試的,直接替換URL,然後進行爬就可以。

經過對URL分析之後:

Python實戰案例:購物平臺爬取商品評論

 

第三步,代碼說明:

部分關鍵代碼。

#生成鏈接列表
def Get_Url(num):
    urlFront = 'https://rate.tmall.com/list_detail_rate.htm?itemId=10905215461&spuId=273210686&sellerId=525910381&order=3¤tPage='
    urlRear = '&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvHQvRvpQvUpCkvvvvvjiPRLqp0jlbn2q96jD2PmPWsjn2RL5wQjnhn2cysjnhR86CvC8h98KKXvvveSQDj60x0foAKqytvpvhvvCvp86Cvvyv9PPQt9vvHI4rvpvEvUmkIb%2BvvvRCiQhvCvvvpZptvpvhvvCvpUyCvvOCvhE20WAivpvUvvCC8n5y6J0tvpvIvvCvpvvvvvvvvhZLvvvvtQvvBBWvvUhvvvCHhQvvv7QvvhZLvvvCfvyCvhAC03yXjNpfVE%2BffCuYiLUpVE6Fp%2B0xhCeOjLEc6aZtn1mAVAdZaXTAdXQaWg03%2B2e3rABCCahZ%2Bu0OJooy%2Bb8reEyaUExreEKKD5HavphvC9vhphvvvvGCvvpvvPMM3QhvCvmvphmCvpvZzPQvcrfNznswOiaftlSwvnQ%2B7e9%3D&needFold=0&_ksTS=1552466697082_2019&callback=jsonp2020'
    for i in range(0,num):
        COMMENT_PAGE_URL.append(urlFront+str(1+i)+urlRear)

 

這裡是為了實現,爬取多頁的評論的,最後把所有頁的URL放到一個列表裡面COMMENT_PAGE_URL。

#獲取評論數據
def GetInfo(num):
    #定義需要的欄位
    nickname = []
    auctionSku = []
    ratecontent = []
    ratedate = []
    #迴圈獲取每一頁評論
    for i in range(num):
        #頭文件,沒有頭文件會返回錯誤的js
        headers = {
            'cookie':'cna=qMU/EQh0JGoCAW5QEUJ1/zZm; enc=DUb9Egln3%2Fi4NrDfzfMsGHcMim6HWdN%2Bb4ljtnJs6MOO3H3xZsVcAs0nFao0I2uau%2FbmB031ZJRvrul7DmICSw%3D%3D; lid=%E5%90%91%E6%97%A5%E8%91%B5%E7%9B%9B%E5%BC%80%E7%9A%84%E5%A4%8F%E5%A4%A9941020; otherx=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0; hng=CN%7Czh-CN%7CCNY%7C156; x=__ll%3D-1%26_ato%3D0; t=2c579f9538646ca269e2128bced5672a; _m_h5_tk=86d64a702eea3035e5d5a6024012bd40_1551170172203; _m_h5_tk_enc=c10fd504aded0dc94f111b0e77781314; uc1=cookie16=V32FPkk%2FxXMk5UvIbNtImtMfJQ%3D%3D&cookie21=U%2BGCWk%2F7p4mBoUyS4E9C&cookie15=UtASsssmOIJ0bQ%3D%3D&existShop=false&pas=0&cookie14=UoTZ5bI3949Xhg%3D%3D&tag=8&lng=zh_CN; uc3=vt3=F8dByEzZ1MVSremcx%2BQ%3D&id2=UNcPuUTqrGd03w%3D%3D&nk2=F5RAQ19thpZO8A%3D%3D&lg2=U%2BGCWk%2F75gdr5Q%3D%3D; tracknick=tb51552614; _l_g_=Ug%3D%3D; ck1=""; unb=3778730506; lgc=tb51552614; cookie1=UUBZRT7oNe6%2BVDtyYKPVM4xfPcfYgF87KLfWMNP70Sc%3D; login=true; cookie17=UNcPuUTqrGd03w%3D%3D; cookie2=1843a4afaaa91d93ab0ab37c3b769be9; _nk_=tb51552614; uss=""; csg=b1ecc171; skt=503cb41f4134d19c; _tb_token_=e13935353f76e; x5sec=7b22726174656d616e616765723b32223a22393031623565643538663331616465613937336130636238633935313935363043493362302b4d46454e76646c7243692b34364c54426f4d4d7a63334f44637a4d4455774e6a7378227d; l=bBIHrB-nvFBuM0pFBOCNVQhjb_QOSIRYjuSJco3Wi_5Bp1T1Zv7OlzBs4e96Vj5R_xYB4KzBhYe9-etui; isg=BDY2WCV-dvURoAZdBw3uwj0Oh2yUQwE5YzQQ9qAfIpm149Z9COfKoZwV-_8q0HKp',
            'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
            'referer': 'https://detail.tmall.com/item.htm?spm=a1z10.5-b-s.w4011-17205939323.51.30156440Aer569&id=41212119204&rn=06f66c024f3726f8520bb678398053d8&abbucket=19&on_comment=1&sku_properties=134942334:3226348',
            'accept': '*/*',
            'accept-encoding':'gzip, deflate, br',
            'accept-language': 'zh-CN,zh;q=0.9'
        }
        #解析JS文件內容
        content = requests.get(COMMENT_PAGE_URL[i],headers=headers).text
        nk = re.findall('"displayUserNick":"(.*?)"', content)
        nickname.extend(nk)
        print(nk)
        auctionSku.extend(re.findall('"auctionSku":"(.*?)"', content))
        ratecontent.extend(re.findall('"rateContent":"(.*?)"', content))
        ratedate.extend(re.findall('"rateDate":"(.*?)"', content))
    #將數據寫入TEXT文件中
    for i in list(range(0, len(nickname))):
        text = ','.join((nickname[i], ratedate[i], auctionSku[i], ratecontent[i])) + '\n'
        with open(r"test.txt", 'a+',encoding='UTF-8') as file:
            file.write(text + ' ')
            print(i+1,":寫入成功")

 

這裡就不多說了,就是迴圈進行爬取,然後寫入到test.txt文本中,用於後續的數據分析。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • C語言,作為大多數人的第一門編程語言,重要性不言而喻,很多編程習慣,邏輯方式在此時就已經形成了。這個是我在大一學習 C語言 後寫的推箱子小游戲,自己的邏輯能力得到了提升,在這裡同大家分享這個推箱子小游戲項目。 GitHub 倉庫地址:github.com/weizhiwen/C… 先來看看最後的運行 ...
  • 前言:在我們的日常編程中難免會有些我們自定義的配置,雖然Java中提供了很多的讀取配置文件的方法,但是當我們需要修改配置文件的key的時候,就會發現太過散亂了,工作量也會很大,涉及的文件還很多,一不小心就要出問題。那這個時候如果我們能夠把所有的配置的key都放到一個文件中,其他文件需要獲取配置的時候 ...
  • 前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 一個簡單的Python資訊採集案例,列表頁到詳情頁,到數據保存,保存為txt文檔,網站網頁結構算是比較規整,簡單清晰明瞭,資訊新聞內容的採集和保存! 應用到的庫 reques ...
  • 項目已托管到GitHub,大家可以去GitHub查看下載!並搜索關註微信公眾號 碼出Offer 領取各種學習資料! MyBatis 一、ORM概述 對象關係映射(Object Relational Mapping,簡稱ORM)是通過使用描述對象和資料庫之間映射的元數據,將面向對象語言程式中的對象自動 ...
  • 報數 題目描述 有n個小朋友做游戲,他們的編號分別是1,2,3...n。他們按照編號從小到大依次圍成一個圓圈,從第一個小朋友開始從1報數,依次按照順時針方向報數(加一),報m的人會離開隊伍,然後下一個小朋友會繼續從1開始報數,直到只剩一個小朋友為止。 輸入格式 第一行輸入兩個整數,n,m。(1≤n, ...
  • 1014 Waiting in Line (30分) Suppose a bank has N windows open for service. There is a yellow line in front of the windows which devides the waiting are ...
  • 基本類型概述: 整型:byte,short,int,long 字元串:char 浮點型:float,double 布爾型:boolean 說明:Java中最小的計算單元是位元組,1位元組=8位(bit) 一、整型 說明:Java中整型數據屬於有符號數,即第一個bit位為0表示正整數,第一個bit位為1表 ...
  • 不知不覺,已經在深圳做後端開發已經4年了,仍然記得去深圳那年,是深圳最冷的冬天,在深圳待過的朋友,都知道深圳是很難結冰的,而那年,深圳很多地方卻下了雪。 在深圳的幾年,市民中心是最經常去的地方,泡個圖書館,廣場聽彈唱,還有春暖花開嬌羞欲滴的木棉花,在這裡,還有一段不可告人的秘密,都是很美好的記憶。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...