python 爬蟲某東網商品信息 | 沒想到銷量最高的是

-Advertisement-

哈嘍大家好，我是鹹魚好久沒更新 python 爬蟲相關的文章了，今天我們使用 selenium 模塊來簡單寫個爬蟲程式——爬取某東網商品信息網址鏈接：https://www.jd.com/ 完整源碼在文章最後 ## 元素定位我們需要找到網頁上元素的位置信息（xpth 路徑） ![image]( ...

哈嘍大家好，我是鹹魚

好久沒更新 python 爬蟲相關的文章了，今天我們使用 selenium 模塊來簡單寫個爬蟲程式——爬取某東網商品信息

網址鏈接：https://www.jd.com/

完整源碼在文章最後

元素定位

我們需要找到網頁上元素的位置信息（xpth 路徑）

我們首先需要知道搜索框和搜索按鈕的位置，然後才能把商品名字輸入到搜索框中並點擊收縮按鈕

打開 F12，通過開發者調試工具檢查相應的的位置，可得如下 Xpath 表達式：

# 輸入框位置：
//*[@id="key"]

# 搜索按鈕位置：
//*[@class='form']/button

以 python 書籍為例

我們需要獲取商品的名字、價格、評價數量以及店鋪名

然後通過發者調試工具檢查相應的的位置，可得如下 Xpath 表達式：

# 當前頁面商品列表
//*[@id="J_goodsList"]/ul/li

# 商品名字
.//div[@class="p-name"]/a/em | .//div[@class="p-name p-name-type-2"]/a/em

# 商品價格
.//div[@class="p-price"]/strong

# 商品評價數量
.//div[@class="p-commit"]/strong

#店鋪名字
.//div[@class="p-shopnum"] | .//div[@class="p-shop"]

請註意，我在定位商品名字 xpath 的時候用了或（|），這是因為我在爬取其他商品信息的時候發現商品名字的 xpath 路徑有多個

.//div[@class="p-name"]/a/em 或 .//div[@class="p-name p-name-type-2"]/a/em

商品店鋪名字同理

.//div[@class="p-shopnum"] 或 .//div[@class="p-shop"]

且多個 Xpath 路徑表達式可以同時使用，其語法如下：

xpath表達式1 | xpath表達式2 | xpath表達式3

實現了自動搜索後，接下來就是要抓取頁面中的商品信息

需要註意的是你會發現只有將滑動條滾動至底部，商品才會全部載入完畢

我們還需要做個判斷，當爬取到最後一頁時，下一頁這個按鈕是點擊不了的，這時候就退出爬蟲程式

代碼實現

首先我們定義一個類 JdSpider，然後給它初始化對象

class JdSpider(object):
    def __init__(self):
        self.url = 'http://www.jd.com/' 
        self.options = webdriver.ChromeOptions()
        self.options.add_argument('--headless')  # 設置不顯示視窗
        self.browser = webdriver.Chrome(options=self.options)  # 創建瀏覽器對象
        self.i = 0  # 計數，一共有多少件商品

然後是輸入商品名字點擊搜索按鈕的代碼實現

    def get_html(self):
        self.browser.get(self.url)
        self.browser.find_element(By.XPATH, '//*[@id="key"]').send_keys('python書籍')
        self.browser.find_element(By.XPATH, "//*[@class='form']/button").click()

獲取信息

    def get_data(self):
        # 執行js語句，拉動進度條
        self.browser.execute_script(
            'window.scrollTo(0,document.body.scrollHeight)'
        )
        # 給頁面元素載入時預留時間
        time.sleep(2)
        # 用xpath提取每頁中所有商品，最終形成一個大列表 \
        li_list = self.browser.find_elements(By.XPATH, '//*[@id="J_goodsList"]/ul/li')
        for li in li_list:
            # 構建空字典
            item = {}
            item['name']=li.find_element(By.XPATH, './/div[@class="p-name"]/a/em | .//div[@class="p-name p-name-type-2"]/a/em').text.strip()
            item['price']=li.find_element(By.XPATH, './/div[@class="p-price"]/strong').text.strip()
            item['count']=li.find_element(By.XPATH, './/div[@class="p-commit"]/strong').text.strip()
            item['shop']=li.find_element(By.XPATH, './/div[@class="p-shopnum"] | .//div[@class="p-shop"]').text.strip()
            print(item)
            self.i += 1

入口函數

    def run(self):
        # 搜索出想要抓取商品的頁面
        self.get_html()
        # 迴圈執行點擊“下一頁”操作
        while True:
            # 獲取每一頁要抓取的數據
            self.get_data()
            # 判斷是否是最一頁,-1說明沒找到,不是最後一頁,執行點擊 “下一頁” 操作
            print(self.browser.page_source.find('pn-next disabled'))
            if self.browser.page_source.find('pn-next disabled') == -1:
                self.browser.find_element(By.CLASS_NAME, 'pn-next').click()
                # 預留元素載入時間
                time.sleep(1)
            else:
                print('數量', self.i)
                break

跑一下看看

小伙伴們可以對爬取到的數據進行一下數據清洗處理等操作，就能夠進行數據分析了

源碼如下：

from selenium import webdriver
import time
from selenium.webdriver.common.by import By


class JdSpider(object):
    def __init__(self):
        self.url = 'http://www.jd.com/'
        self.options = webdriver.ChromeOptions()
        self.options.add_argument('--headless')  # 無頭模式
        self.browser = webdriver.Chrome(options=self.options)  # 創建無界面參數的瀏覽器對象
        self.i = 0  # 計數，一共有多少件商品
        # 輸入地址+輸入商品+點擊按鈕，切記這裡元素節點是京東首頁的輸入欄、搜索按鈕

    def get_html(self):
        self.browser.get(self.url)
        self.browser.find_element(By.XPATH, '//*[@id="key"]').send_keys('python書籍')
        self.browser.find_element(By.XPATH, "//*[@class='form']/button").click()
        # 把進度條件拉倒最底部+提取商品信息

    def get_data(self):
        # 執行js語句，拉動進度條件
        self.browser.execute_script(
            'window.scrollTo(0,document.body.scrollHeight)'
        )
        # 給頁面元素載入時預留時間
        time.sleep(2)
        # 用xpath提取每頁中所有商品，最終形成一個大列表 \
        li_list = self.browser.find_elements(By.XPATH, '//*[@id="J_goodsList"]/ul/li')
        for li in li_list:
            # 構建空字典
            item = {}
            item['name']=li.find_element(By.XPATH, './/div[@class="p-name"]/a/em | .//div[@class="p-name p-name-type-2"]/a/em').text.strip()
            item['price']=li.find_element(By.XPATH, './/div[@class="p-price"]/strong').text.strip()
            item['count']=li.find_element(By.XPATH, './/div[@class="p-commit"]/strong').text.strip()
            item['shop']=li.find_element(By.XPATH, './/div[@class="p-shopnum"] | .//div[@class="p-shop"]').text.strip()
            print(item)
            self.i += 1

    def run(self):
        # 搜索出想要抓取商品的頁面
        self.get_html()
        # 迴圈執行點擊“下一頁”操作
        while True:
            # 獲取每一頁要抓取的數據
            self.get_data()
            # 判斷是否是最一頁,-1說明沒找到,不是最後一頁,執行點擊 “下一頁” 操作
            print(self.browser.page_source.find('pn-next disabled'))
            if self.browser.page_source.find('pn-next disabled') == -1:
                self.browser.find_element(By.CLASS_NAME, 'pn-next').click()
                # 預留元素載入時間
                time.sleep(1)
            else:
                print('數量', self.i)
                break


if __name__ == '__main__':
    spider = JdSpider()
    spider.run()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

原生AJAX案例瀏覽器報錯：Cross origin requests are only supported for protocol

報錯信息如下：代碼如下： <!DOCTYPE html> <html> <body> <div id="demo"> <h1>XMLHttpRequest 對象</h1> <button type="button" onclick="loadDoc()">更改內容</button> </div> ...
文字效果用背景漸變實現波浪背景文字

一. 目標個人賬號的設置記憶功能-避免用戶每次登錄之後重新對錶單欄位做展示設置二、存儲方案輕量方案結合localstorage低容量存儲（5M），根據LRU只存最近訪問的20至30張表格列配置數據全量方案大記憶體G級別，使用indexedDb進行存儲，有多少表格操作列數據就存多少，結合第 ...
代碼的壞味道（二）——為什麼建議使用模型來替換枚舉？

###為什麼建議使用對象來替換枚舉？ ### 在設計模型時，我們經常會使用枚舉來定義類型，比如說，一個員工類 Employee，他有職級，比如P6/P7。順著這個思路，設計一個 Level 類型的枚舉： ``` class Employee { private String name; /** * ...
詳解驅動開發中內核PE結構VA與FOA轉換

摘要：本文將探索內核中解析PE文件的相關內容。本文分享自華為雲社區《驅動開發：內核PE結構VA與FOA轉換》，作者： LyShark 。本章將探索內核中解析PE文件的相關內容，PE文件中FOA與VA、RVA之間的轉換也是很重要的，所謂的FOA是文件中的地址，VA則是記憶體裝入後的虛擬地址，RVA是 ...
驅動開發：內核封裝WFP防火牆入門

WFP框架是微軟推出來替代TDIHOOK傳輸層驅動介面網路通信的方案，其預設被設計為分層結構，該框架分別提供了用戶態與內核態相同的AIP函數，在兩種模式下均可以開發防火牆產品，以下代碼我實現了一個簡單的驅動過濾防火牆。WFP 框架分為兩大層次模塊,用戶態基礎過濾引擎`BFE (BaseFilteri... ...
現代 C++ 性能飛躍之：移動語義

*以下內容為本人的學習筆記，如需要轉載，請聲明原文鏈接[ 微信公眾號「ENG八戒」](https://mp.weixin.qq.com/s/Xd_FwT8E8Yx9Vnb64h6C8w) > 帶給現代 C++ 性能飛躍的特性很多，今天一邊聊技術，一邊送福利！ ![](https://img2023. ...
CentOS7環境編譯python3.9版本pjsua

環境：CentOS 7.6_x64 Python版本：3.9.12 pjsip版本：2.13 一、背景描述 pjsip地址：https://www.pjsip.org/ GitHub地址：https://github.com/pjsip/pjproject pjsip文檔地址：https://do ...
C++面試八股文：C++中，設計一個類要註意哪些東西？

某日二師兄參加XXX科技公司的C++工程師開發崗位第9面： > 面試官：C++中，設計一個類要註意哪些東西？ > > 二師兄：設計一個類主要考慮以下幾個方面：1.面向對象的封裝、繼承及多態。2.`big three`或者`big five`。3.運算符和函數重載、靜態成員、友元、異常處理等相關問題。 ...