上千元的Python爬蟲外包案例,學會你就賺了

来源:https://www.cnblogs.com/python0921/archive/2020/05/06/12838314.html
-Advertisement-
Play Games

前言 隨著互聯網時代的到來,人們更加傾向於互聯網購物。某寶又是電商行業的巨頭,在某寶平臺中有很多商家數據。 今天帶大家使用python+selenium工具獲取這些公開的 適合人群: Python零基礎、對爬蟲數據採集感興趣的同學! 環境介紹: python 3.6pycharmseleniumti ...


 

 

前言

隨著互聯網時代的到來,人們更加傾向於互聯網購物。某寶又是電商行業的巨頭,在某寶平臺中有很多商家數據。

今天帶大家使用python+selenium工具獲取這些公開的

適合人群:

Python零基礎、對爬蟲數據採集感興趣的同學!

環境介紹:

python 3.6
pycharm
selenium
time

1、安裝selenium模塊

pip install selenium

 

2、請求網頁地址

if __name__ == '__main__':
    keyword = input('請輸入你要查詢的商品數據:')
    driver = webdriver.Chrome()
    driver.get('https://www.taobao.com')
    main()

 

 

 

3、登錄淘寶賬戶,並搜索商品

def search_product(key):
    """模擬搜索商品,獲取最大頁數"""
    driver.find_element_by_id('q').send_keys(key)  # 根據id值找到搜索框輸入關鍵字
    driver.find_element_by_class_name('btn-search').click()  # 點擊搜索案例
    driver.maximize_window()  # 最大化視窗
    time.sleep(15)

 page = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]')  # 獲取頁數的標簽
    page = page.text  # 提取標簽的文字
    page = re.findall('(\d+)', page)[0]  
    # print(page)
    return int(page)

 

 

 

 

4、獲取商品數據

def get_product():
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')
    for div in divs:
        info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text  # 商品名稱
        price = div.find_element_by_xpath('.//strong').text + ''  # 商品價格
        deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text  # 付款人數
        name = div.find_element_by_xpath('.//div[@class="shop"]/a').text  # 店鋪名稱
        print(info, price, deal, name, sep='|')
        with open('data.csv', 'a', newline='') as csvfile:  # newline=''  指定一行一行寫入
            csvwriter = csv.writer(csvfile, delimiter=',')  # delimiter=','  csv數據的分隔符
            csvwriter.writerow([info, price, deal, name])  # 序列化數據,寫入csv
            
def main():
    search_product(keyword)
    page = get_product()

 

 

 

 

如果你處於想學Python或者正在學習Python,Python的教程不少了吧,但是是最新的嗎?說不定你學了可能是兩年前人家就學過的內容,在這小編分享一波2020最新的Python教程。獲取方式,私信小編 “ 資料 ”,即可免費獲取哦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • EL表達式 1. 概念:Expression Language 表達式語言 2. 作用:替換和簡化jsp頁面中的java代碼的編寫 3. 語法${表達式} 4. 註意: jsp預設支持el表達式。如果要忽略el表達式 1. 設置jsp中page指令中:isELIgnored=“true”忽略當前js ...
  • 1.如何實現一個生產者和消費者模型?(鎖、信號量、線程通信、阻塞隊列等) "Java生產者和消費者模型的5種實現方式" 2.如何理解線程的同步和非同步、阻塞和非阻塞? 作者:Yi Lu 鏈接:https://www.zhihu.com/question/19732473/answer/20851256 ...
  • 藍圖 一 請求勾子 1 before_first_request 在處理第一個請求前執行 2 before_request 在每次請求前執行 如果在某裝飾的函數中返回了一個響應,視圖函數將不再被調用 3 after_request 如果沒有拋出錯誤,在每次請求後執行 接受一個參數:視圖函數做出的響應 ...
  • 關於工具,推薦兩種: jupyter notebook pycharm jupyter notebook:推薦下載anaconda,好用,有伺服器可以架在伺服器上,非常舒服 pycharm :不多說懂得都懂。 這裡特別說一下jupyter安裝插件Nbextensions(功能強大) pip inst ...
  • FWAE : Concrete syntax FWAE : Abstract syntax 其中的“function definition”和“function call”在language structure內以lambda函數形式包含在其中,所以不需要像F1WAE那樣的FunDef。 (fun ...
  • 1. 矩陣旋轉180度 查閱了許久,發現還沒有博主給出矩陣旋轉180度的方法,O(∩_∩)O哈哈~請讓我做個好人,願我的方法能幫助到路過的寶寶。 2. 例子 2.1 Code 我在這裡寫了一個方法,分別調用一次矩陣上下翻轉函數(np.flipud()),再調用一次矩陣左右翻轉函數(np.flipli ...
  • Deferred Substitution 在執行出現with時,利用“substitution”,每次with的出現,它都繞著整個body置換。這一方式是由F1WAE到env再到list of FunDef為止,然後再到substitution列表中,以env的形式進行。 In Case of W ...
  • 項目簡介 項目來源於: "https://github.com/wenlongup/LostAndFound" 因原github倉庫無資料庫文件,經過本人修改,現將該倉庫重新上傳至個人gitee倉庫。 "https://gitee.com/coderzcr/LostAndFound" 本系統基於 J ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...