Python爬取某寶商品數據案例:100頁的價格、購買人數等數據

来源:https://www.cnblogs.com/hhh188764/archive/2020/06/22/13178656.html
-Advertisement-
Play Games

前言 隨著互聯網時代的到來,人們更加傾向於互聯網購物,某寶又是電商行業的巨頭,在某寶平臺中有很多商家數據,今天帶大家使用python+selenium工具獲取這些公開的。 本篇文章適合Python零基礎、對爬蟲數據採集感興趣的同學! 環境介紹: python 3.6pycharmseleniumti ...


前言

隨著互聯網時代的到來,人們更加傾向於互聯網購物,某寶又是電商行業的巨頭,在某寶平臺中有很多商家數據,今天帶大家使用python+selenium工具獲取這些公開的。
在這裡插入圖片描述

本篇文章適合Python零基礎、對爬蟲數據採集感興趣的同學!

環境介紹:

python 3.6
pycharm
selenium
time

selenium簡介

自動化測試工具,驅動瀏覽器幫助我們獲取到渲染之後的數據

模仿人的行為操作瀏覽器(用戶行為加上代碼邏輯的結合)

安裝模塊

pip install selenium

 

步驟

安裝Webdriver

打開Google瀏覽器,點擊進入設置界面
在這裡插入圖片描述
進入界面後點擊關於Chrome,然後找到你Google瀏覽器的版本,安裝Webdriver要對應瀏覽器的版本
在這裡插入圖片描述
在這裡插入圖片描述

導入模塊
import time
import re
import csv

from selenium import webdriver
from selenium.webdriver import ActionChains

from 淘寶爬蟲 import constans

 

入口測試代碼
def search_product(key):
    """模擬搜索商品,登陸賬戶,獲取最大頁數"""
    driver.get('http://www.taobao.com')
    driver.find_element_by_id('q').send_keys(key)  # 輸入框輸入商品關鍵字
    driver.find_element_by_class_name('btn-search').click()  # 點擊搜索按鈕
    driver.implicitly_wait(10)  # 隱式等待
    driver.maximize_window()  # 最大化瀏覽器

def main()
   search_product(keyword)
    
if __name__ == '__main__':
    keyword = input('請輸入你要查詢的商品數據:')
    driver = webdriver.Chrome()
    main()

 

在這裡插入圖片描述

解決登陸和解決滑塊驗證
    driver.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys(constans.USERNAME)  # 找到用戶名輸入賬號
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys(constans.PASSWORD)  # 找到密碼框輸入密碼
    time.sleep(2)
    
    login = driver.find_element_by_xpath("//span[contains(@class, 'btn_slide')]")  # 找到滑動驗證碼滑塊  手寫
    action = ActionChains(driver)  # 創建動作連對象
    action.click_and_hold(on_element=login)  # 點擊滑塊維持動作
    action.move_by_offset(xoffset=258, yoffset=0) # 設置動作鏈坐標長度
    action.pause(0.5).release().perform()  # 設置動作鏈執行時間  釋放滑鼠  執行動作鏈
    driver.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()  # 找到登陸按鈕點擊
    driver.implicitly_wait(10)  # 隱式等待

 

在這裡插入圖片描述

解析數據
def get_product(): 
  
    for div in divs:
        info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text  # 商品名稱
        price = div.find_element_by_xpath('.//strong').text + ''  # 商品價格
        deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text  # 付款人數
        name = div.find_element_by_xpath('.//div[@class="shop"]/a').text  # 店鋪名稱
        print(info, price, deal, name, sep='|')  # 分隔符
        with open('data2.csv', 'a', newline='') as csvfile:  # newline=''  指定一行一行寫入
            csvwriter = csv.writer(csvfile, delimiter=',')  # delimiter=','  csv數據的分隔符
            csvwriter.writerow([info, price, deal, name])

 

運行代碼,效果如下圖:
在這裡插入圖片描述
這樣就可以獲取第一頁的數據了

運行代碼,效果如下圖:
在這裡插入圖片描述

解析頁碼
 page = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]').text  # 找到頁碼標簽
    page = re.findall('(\d+)', page)[0]
    # print('商品頁數:', page)
    return int(page)

def main():
    """程式的入口"""
    print('正在爬取第1頁的數據')
    page = search_product(keyword)
    get_product()

    page_num = 1
    while page_num != page:
        print('*' * 100)
        print('正在爬取第{}頁的數據'.format(page_num + 1))
        print('*' * 100)
        driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword, 44 * page_num))  # 拼接產品url地址
        driver.implicitly_wait(10)  # 瀏覽器等待方法
        get_product()
        page_num += 1

    driver.quit()

 

最後運行代碼,就可以爬取100頁的數據了
在這裡插入圖片描述


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Java前景如何?我負責任地說,Java非常有前景,因為使用Java的開發場景就非常非常多,可以說是多不勝數。 我剛參加工作的時候,使用Java開髮網站應用,用JSP和Servlet,那時候J2EE已經被認為過重了,新的Java應用框架層出不窮,還用Java的Java Applet功能做過網頁,當時 ...
  • Visual VM 垃圾回收性能監控插件, 加入對最新版VisualVM 2.0的支持, 做了中英雙語支持.源碼地址: https://github.com/beansoftapp/gcperf原始項目: https://github.com/bitcharmer/gcperf原始介紹: https... ...
  • 介紹 先說一下什麼是迴圈依賴,Spring在初始化A的時候需要註入B,而初始化B的時候需要註入A,在Spring啟動後這2個Bean都要被初始化完成 Spring的迴圈依賴有兩種場景 構造器的迴圈依賴 屬性的迴圈依賴 構造器的迴圈依賴,可以在構造函數中使用@Lazy註解延遲載入。在註入依賴時,先註入 ...
  • 內部類分為:成員內部類(靜態和非靜態)、匿名內部類、局部內部類 1.成員內部類(可以使用private、default、protected、public任意修飾) 非靜態內部類 1.非靜態內部類必須寄存在一個外部類對象里。因此,如果有一個非靜態內部類對象那麼一定存在對應的外部類對象 2.非靜態內部類 ...
  • 老孟導讀:Flutter中有這麼一類組件,用於定位、裝飾、控制子組件,比如 Container (定位、裝飾)、Expanded (擴展)、SizedBox (固定尺寸)、AspectRatio (寬高比)、FractionallySizedBox (占父組件比例)。這些組件的使用頻率非常高,下麵一 ...
  • Stream替代for-編碼五分鐘-划水五小時 天空沒有痕跡,風雨已在心中。 背景:使用Stream 流式操作取代俄羅斯式套娃的for迴圈,解放底層勞動密集型碼畜的雙手,使編碼五分鐘划水五小時,不再是夢! 一、Stream替代for例子 給定一個字元串元素列表,裡面有數字型字元串、有字母型字元串,字 ...
  • Django rest framework(6) 分頁 第一種分頁 PageNumberPagination 基本使用 (1)urls.py urlpatterns = [ re_path('(?P<version>[v1|v2]+)/page1/', Pager1View.as_view(),) ...
  • 環境要求 環境: IDEA MySQL 5.7.19 Tomcat 9 Maven 3.6 要求: 需要熟練掌握MySQL資料庫,Spring,JavaWeb及MyBatis知識,簡單的前端知識; 項目結構圖 java目錄 pojo dao service controller resources目 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...