python爬蟲-京東商品爬取_ZenDei技術網路在線

python爬蟲-京東商品爬取

-Advertisement-

京東商品爬取一.使用selenium 二.不使用selenium 三.個人感覺 `selenium真的慢 ` ...

京東商品爬取

僅供學習

一.使用selenium

from selenium import webdriver
from selenium.webdriver.common.keys import Keys #鍵盤按鍵操作from selenium.webdriver.support import expected_conditions as EC
import time



def get_goods(driver):
    try:
        goods=driver.find_elements_by_class_name('gl-item')


        for good in goods:
            detail_url=good.find_element_by_tag_name('a').get_attribute('href')

            p_name=good.find_element_by_css_selector('.p-name em').text.replace('\n','')
            price=good.find_element_by_css_selector('.p-price i').text
            p_commit=good.find_element_by_css_selector('.p-commit a').text

            msg = '''
            商品 : %s
            鏈接 : %s
            價錢 ：%s
            評論 ：%s
            ''' % (p_name,detail_url,price,p_commit)

            print(msg,end='\n\n')



        button=driver.find_element_by_partial_link_text('下一頁')
        button.click()
        time.sleep(1)
        get_goods(driver)
    except Exception:
        pass



def spider(url,keyword):
    driver = webdriver.Chrome()
    driver.get(url)
    driver.implicitly_wait(3)
    try:
        input_tag=driver.find_element_by_id('key')
        input_tag.send_keys(keyword)
        input_tag.send_keys(Keys.ENTER)
        get_goods(driver)
    finally:
        driver.close()

if __name__ == '__main__':
    spider('https://www.jd.com/',keyword='iPhone8手機')

二.不使用selenium

from requests_html import HTMLSession
session = HTMLSession()
page=1
while True:
    res =session.get(f'https://search.jd.com/Search?keyword=蘋果8&enc=utf-8&page={page*2-1}')  #keyword搜索內容 #enc編碼格式 #8page頁數*2-1
    res.html.encoding='utf8'
    info_list=res.html.xpath('//*[@class="gl-i-wrap"]')
    if not info_list:
        print(f'一共爬取{page}頁')
        break
    print(f'url={res.url}第{page}頁',[info.text for info  in info_list])
    page+=1

三.個人感覺

selenium真的慢- -

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java泛型之上、下界通配符的理解(適合初學)

泛型的由來為什麼需要泛型 Java的數據類型一般都是在定義時就需要確定，這種強制的好處就是類型安全，不會出現像弄一個ClassCastException的數據給jvm，數據安全那麼執行的class就會很穩定。但是假如說我不知道這個參數要傳什麼類型的，因為公司需求在變，如果寫死的那就只能便以此需求就 ...
String常用使用方法，1.創建string的常用3+1種方式，2.引用類型使用==比較地址值，3.String當中獲取相關的常用方法，4.字元串的截取方法，5.String轉換常用方法，6.切割字元串----java

一個知識點使用一個代碼塊方便查看 1.創建string的常用3+1種方式 2.引用類型使用==比較地址值 3.String當中獲取相關的常用方法 4.字元串的截取方法 5.String轉換常用方法 6.切割字元串如有錯誤，請聯繫，再次謝過！ ...
scala高級部分--題目1

給你一個集合val list=List(1,2,3,4,"abc"),請完成如下要求將集合list中所有的數字+1，並返回一個新的集合要求忽略掉非數字的 object work5 { def main(args: Array[String]): Unit = { val list=List(1, ...
java基礎小練習,1-列印一百次(1~10)的隨機數,2-固定一個隨機數(1~100)，然後猜出他,3-定義以指定格式列印集合(ArrayList類型作為參數)，使用{}括起來，使用@代替,分隔每個元素

推薦自己碼一下，可以使用別的方法，面向對象，不需要註重過程 ...
Delphi 設置程式圖標為系統預設圖標

Windows VCL 程式: 1. 用文本編輯器打開Delphi項目的.dproj文件。2. 搜索關鍵字“<Icon_MainIcon>”，查找Icon_MainIcon元素。3. 將所有Icon_MainIcon元素的內容刪除（刪除<Icon_MainIcon>與</Icon_MainIcon> ...
Python連載56-發送帶有附件、正文為HTML的郵件

一、HTML格式怎麼發送右鍵 1.準備HTML代碼作為內容 2.把郵件的subtype設置為html 3.發送 4.舉個例子：自己發給自己一個HTML格式的文件 from email.mime.text import MIMEText main_content = """ <!DOCTYPE h ...
Jupyter notebook 安裝

一、建議從官網下載最新版anaconda https://www.anaconda.com/ 進入網址找到下載位置，並找到對應的版本，下載python3.7，根據電腦系統自行選擇32/64位進行下載，下載完成之後即可按照第二步安裝說明進行安裝。二、安裝找到下載文件，雙擊該文件運行進行安裝。點擊 ...
IntelliJ IDEA 安裝、配置和使用Lombok插件

Lombok 可用來幫助開發人員消除 Java 的重覆代碼，尤其是對於簡單的 Java 對象（POJO），比如說getter/setter/toString等方法的編寫。它通過註解實現這一目的。官網：https://projectlombok.org 下麵是IntelliJ IDEA安裝、配置... ...