Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

来源:https://www.cnblogs.com/happymeng/archive/2019/01/04/10220923.html
-Advertisement-
Play Games

寫在前面 很高興我這系列的文章寫道第18篇了,今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網 ,這個網站其實還是有點意思的,網站很多人寫了N多的教程了,各種方式的都有,當然網站本身在爬蟲愛好者的不斷進攻下,也在不斷的完善,反爬措施也很多,今天我用 在揍他一波。 整體看上去,煎蛋網的妹子圖質量還是可以的,不 ...


寫在前面

很高興我這系列的文章寫道第18篇了,今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx,這個網站其實還是有點意思的,網站很多人寫了N多的教程了,各種方式的都有,當然網站本身在爬蟲愛好者的不斷進攻下,也在不斷的完善,反爬措施也很多,今天我用selenium在揍他一波。

在這裡插入圖片描述

整體看上去,煎蛋網的妹子圖質量還是可以的,不是很多,但是還蠻有味道的,這可能也是爬蟲er,一批一批的奔赴上去的原因。

1. 網站分析

這個網站如果用 selenium 爬取,其實也沒什麼要分析的,模擬訪問就行,導入必備的模塊。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
import requests

import time

我使用的是PhantomJS 去載入瀏覽器,關於這個PhantomJS,去互聯網搜索一下吧,資料大把,會看的很爽的,總之呢,它可以模擬一個真實的瀏覽器做任何事情,得到你想要的數據。

browser = webdriver.PhantomJS()
browser.set_window_size(1366, 768)  # 這個地方需要設置一下瀏覽器的尺寸
wait = WebDriverWait(browser,10)
browser.get("http://jandan.net/ooxx")

2. 分析數據

程式獲取到數據之後就可以對數據進行處理了,編寫一個get_content函數,用來處理網頁源碼。

def get_content():

    try:

        wait.until(
            EC.presence_of_element_located((By.XPATH,'//*[@id="comments"]/ol'))
        )
        #
        print("正在爬取{}".format(browser.current_url))
        page_source = browser.page_source  # 獲取網頁源碼
        html = etree.HTML(page_source)  # 解析源碼
        imgs = html.xpath("//li[contains(@id,'comment')]//img/@src")  # 匹配圖片
        download(imgs)

    except Exception as e:
        print("錯誤")
        print(e)
    finally:
        browser.close()

圖片獲取到之後,在上面的代碼中,註意有一個地方調用了一個 download函數,這個函數就是用來下載圖片的


def download(imgs):
    path = "./xxoo/{}"  # 路徑我寫死了
    for img in imgs:
        try:
            res = requests.get(img)
            content = res.content
        except Exception as e:
            print(e)
            continue

        file_name = img.split("/")[-1] # 獲取文件名

        with open(path.format(file_name),"wb") as f:
            f.write(content)
            print(file_name,"成功下載文件")
            time.sleep(0.3)

    # 迴圈下載完畢,進行翻頁操作 previous-comment-page
    next = wait.until(
        EC.presence_of_element_located((By.XPATH, '//*[@id="comments"]//a[@class="previous-comment-page"]'))
    )
    next.click()
    return get_content()  # 繼續調用上面的網頁源碼分析流程

OK,運行一下。

在這裡插入圖片描述




您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 周末小實踐,vue+樹莓派+一言API 一直有個想法,讓樹莓派做後端,實現一個有趣的網路服務。可是,苦於不會前端,遲遲無法動手。最近由於工作任務需要研究了一下前端。 問過前端大佬們,個個都說你得用vue.js,當前最流行、最熱門的前端框架,就用它!聽我的,沒錯! 在大佬的指導下,花了半天時間領略到了 ...
  • 1.簡介 HBase是一個基於HDFS的、分散式的、面向列的非關係型資料庫。 HBase的特點 1.海量數據存儲,HBase表中的數據能夠容納上百億行*上百萬列。 2.面向列的存儲,數據在表中是按照列進行存儲的,能夠動態的增加列並對列進行各種操作。 3.準實時查詢,HBase在海量的數據量下能夠接近 ...
  • 題意 "題目鏈接" Sol 一道咕咕咕了好長時間的題 題解可以看 "這裡" cpp include define LL long long using namespace std; const int MAXN = 1e7 + 5e6 + 10, mod = 1e9 + 7, mod2 = 1e9 ...
  • 方法引用(Method reference)和invokedynamic指令詳細分析 是jvm指令集裡面最複雜的一條。本文將詳細分析 指令是如何實現方法引用(Method reference)的。 具體言之,有這樣一個方法引用: 使用 查看對應位元組碼: 使用 指令生成encode對象,然後存入 局部 ...
  • 一般的的靜態HTML頁面可以使用requests等庫直接抓取,但還有一部分比較複雜的動態頁面,這些頁面的DOM是動態生成的,有些還需要用戶與其點擊互動,這些頁面只能使用真實的瀏覽器引擎動態解析,Selenium和Chrome Headless可以很好的達到這種目的。 Headless Chrome ...
  • 今天在寫一個StringIO.write(int)示例時思維那麼一發散就拐到了字元集的問題上,順手搜索一發,除了極少數以外,絕大多數中文博客都解釋的慘不忍睹,再鑒於被此問題在oracle的字元集體系中蹂躪過,因此在過往筆記的基礎上增刪了幾個示例貼出來。 Python2: 首先清楚兩個Python 2 ...
  • 什麼是main方法? 是類中的一段代碼,可以讓程式獨立運行。 HelloWorld 類中有main()方法,說明這是個java應用程式,通過JVM直接啟動運行的程式。這個main()方法的聲明為:public static void main(String args[])。必須這麼定義,這是Java ...
  • 只對當前文件有效的操作:菜單欄->View -> Active Editor -> Use Soft Wraps; 如果想對所有文件都有效,就要在setting裡面進行操作:File-> Setting-> Editor-> General -> Use soft wraps in editor。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...