一個完整Python實戰項目:selenium識別驗證碼實現自動登錄,自動操作瀏覽器獲取某東數據

来源:https://www.cnblogs.com/hahaa/archive/2023/12/27/17930808.html
-Advertisement-
Play Games

最近都沒啥時間,很久沒更新了。 今天分享一下,如何用selenium識別驗證碼,實現自動登錄以及獲取數據。 目標:某東 話不多說直接開始 準備工作 環境 Python 3.10 Pycharm 模塊使用 import random import time from selenium import w ...


最近都沒啥時間,很久沒更新了。

今天分享一下,如何用selenium識別驗證碼,實現自動登錄以及獲取數據。

目標:某東

話不多說直接開始

準備工作

環境

  • Python 3.10
  • Pycharm

模塊使用

  • import random
  • import time
  • from selenium import webdriver
  • import pyautogui
  • import base64
  • import ddddocr
  • import csv

win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你覺得安裝速度比較慢, 你可以切換國內鏡像源)

selenium: 自動化測試模塊,模擬人的行為去操作瀏覽器 (獲取網頁相關數據內容)

正常瀏覽網站流程

  1. 打開瀏覽器 訪問網站
  2. 輸入商品名稱, 回車/點擊搜索
  3. 輸入賬號密碼
  4. 瀏覽器商品數據信息 (第一頁)
  5. 繼續瀏覽下一頁

瀏覽器

  • webdriver.Chrome() # 谷歌
  • webdriver.Edge() # Edge
  • webdriver.Firefox() # 火狐

建議大家用谷歌

打開瀏覽器可能會出現問題

  1. 報錯大概率原因是因為瀏覽器驅動問題
    - 驅動路徑
    I. 當你驅動文件和你代碼放在一起 / 你驅動文件在python目錄下麵 (可以不用寫路徑)
    II. 給驅動文件路徑
    - 驅動版本
    瀏覽器可能自動更新 --> 驅動文件版本也要更新
    大版本一樣, 小版本最相近的即可
  2. 打開瀏覽器之後閃退
    原因: 你的selenium版本是4.0的 需要加阻塞
    運行完成程式之後, 自動結束程式…

代碼展示

獲取數據部分

selenium自動操作瀏覽器

# 打開瀏覽器
driver = webdriver.Chrome() # 谷歌
# 最大化瀏覽器視窗
driver.maximize_window()
# 訪問網站
driver.get('https://www.jd.com/')

 

輸入商品名稱, 回車/點擊搜索按鈕

通過元素定位, 找到搜索框/輸入框, 然後輸入內容

driver.find_element_by_id() 按 ID 查找元素
driver.find_element_by_class_name() 按類名查找元素
driver.find_element_by_css_selector() 通過 CSS 選擇器查找元素
driver.find_element_by_xpath() 通過 XPath 查找元素
driver.find_element_by_id('key').send_keys('口紅') # 輸入關鍵字
driver.find_element_by_class_name('button').click() # 點擊搜索按鈕
# 設置等待元素載入
driver.implicitly_wait(10)

# 文章不理解的話,我還專門錄製了視頻講解
# 和源碼一起打包好了,都放在這個摳裙了:708525271

 

輸入賬號密碼, 登陸

driver.find_element_by_id('loginname').send_keys(account) # 輸入賬號
driver.find_element_by_id('nloginpwd').send_keys(password) # 輸入密碼
driver.find_element_by_id('loginsubmit').click() # 點擊登陸

 

獲取商品的數據信息

找到商品數據對應標簽位置

  1. find_element 定位獲取一個
  2. find_elements 定位獲取多個

執行頁面滾動的操作

def drop_down():
    """執行頁面滾動的操作"""  # javascript
    for x in range(1, 12, 2):# 1 3 5 7 9  在你不斷的下拉過程中, 頁面高度也會變的
        time.sleep(1)
        j = x / 9  # 1/9  3/9  5/9  9/9
        # document.documentElement.scrollTop  指定滾動條的位置
        # document.documentElement.scrollHeight 獲取瀏覽器頁面的最大高度
        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
        driver.execute_script(js)

#設置等待元素載入過程
driver.implicitly_wait(10)
#下滑網頁頁面操作 通過selenium執行JS代碼
drop_down()
# 返回列表
lis = driver.find_elements_by_class_name('gl-item')
# for迴圈遍歷, 提取列表裡面元素
for li in lis:
    title = li.find_element_by_css_selector('.p-name em').text
    price = li.find_element_by_css_selector('.p-price strong i').text
    commit = li.find_element_by_css_selector('.p-commit strong a').text
    shop = li.find_element_by_css_selector('.p-shop span a').text
    dit = {
        '標題': title,
        '價格': price,
        '評價': commit,
        '店鋪': shop,
    }
    print(dit)

 

驗證碼識別

模塊

from selenium import webdriver
import base64
import time
import ddddocr
import pyautogui
import random
from password import account, password

 

模擬登錄

driver = webdriver.Edge(r'D:\自游\京東商品\msedgedriver.exe')
driver.get('https://passport.jd.com/new/login.aspx')
driver.maximize_window()
driver.find_element_by_id('loginname').send_keys(account) # 輸入賬號
driver.find_element_by_id('nloginpwd').send_keys(password) # 輸入密碼
driver.find_element_by_id('loginsubmit').click() # 點擊登陸
time.sleep(1)

 

獲取驗證碼圖片

# 滑塊
img_base6_1 = driver.find_element_by_css_selector('.JDJRV-smallimg img').get_attribute('src').split(',')[-1]
# 缺口
img_base6_2 = driver.find_element_by_css_selector('.JDJRV-bigimg img').get_attribute('src').split(',')[-1]
img_content_1 = base64.b64decode(img_base6_1)
with open('yzm_1.png', mode='wb') as f:
    f.write(img_content_1)
img_content_2 = base64.b64decode(img_base6_2)
with open('yzm_2.png', mode='wb') as f:
    f.write(img_content_2)

 

識別驗證碼 滑塊到缺口距離

det = ddddocr.DdddOcr(det=False, ocr=False)
res = det.slide_match(img_content_1, img_content_2, simple_target=True)
target = res['target'][0] * 0.67

 

滑動滑塊識別驗證

pyautogui.click(x=1502, y=482, button='left') # 按住滑鼠
pyautogui.dragTo(x=1502+target, y=482, duration=1.5)
print(res)

# 代碼自取扣裙 708525271

 

文章不理解的話,我還專門錄製了視頻講解,和源碼一起打包好了,上方自取

 

今天的分享就到這裡,溜了溜了~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 流程式控制制對於任何一門編程語言來說都是至關重要的,它提供了控製程序步驟的基本手段。如果沒有流程式控制制語句,整個程式將按照線性的順序來執行,不能根據用戶的輸入決定執行的序列。 1.順序結構 Java程式是從上到下逐行執行語句,中間沒有任何判斷和跳轉。 2.分支結構(選擇語句) 根據條件,選擇性地執行某段代 ...
  • 目錄序:介面文檔1 Swagger1.1 基本信息1.2 接入步驟2 Knife4j2.1 基本信息2.2 接入步驟 序:介面文檔 ​ 在開發過程中,介面文檔是非常重要的一環,在 Spring Boot 中,我們可以通過集成第三方來實現介面文檔的自動生成。 ​ 通過註解來描述介面,然後根據這些註解自 ...
  • from https://openaigptguide.com/gptzero/ 在人工智慧技術飛速發展的今天,人們對於文字內容的準確性和可信度要求越來越高。例如在學術研究領域,防止抄襲和造假是非常重要的。而對於普通用戶而言,辨別哪些內容是由人工智慧生成的,哪些內容是由人類編寫的,也逐漸成為一個亟待 ...
  • C 語言中的 switch 語句 替代多重 if..else 語句,可以使用 switch 語句。switch 語句用於選擇多個代碼塊中的一個來執行 switch(表達式) { case x: // 代碼塊 break; case y: // 代碼塊 break; default: // 代碼塊 工 ...
  • MyBatis中獲取參數值的兩種方式:${} 和 #{},以及它們之間區別是什麼? ${}:的本質就是字元串拼接 #{}:的本質就是占位符賦值 ...
  • 簡單的用Python來獲取微博評論,製作詞雲圖。 首先準備環境模塊 環境使用 Python 3.8或以上版本即可 Pycharm 任意版本 模塊使用 import requests import wordcloud import jieba 以上三個模塊都需要安裝,直接pip install 加上模 ...
  • 有時候在調用需要用非同步調用API介面。在python中有很多框架,比如 asyncio, Celery,Quart 等。這裡我選擇了 asyncio。Python 3.5以上版本內置了asyncio庫,可以用來編寫單線程的併發代碼。可以使用此庫與aiohttp結合來發送非同步HTTP請求。 Pytho ...
  • 第十七章著重講解了異常處理的方法。傳統單體架構下,全局異常處理類通過實現HandlerExceptionResolver介面實現異常的統一處理,可以根據不同異常返回不同的錯誤頁面。但在前後端分離的開發中,使用@ControllerAdvice和@ExceptionHandler註解更為方便。@Con... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...